- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我写了一个脚本,它同时移动两个单词中的字符,比较它们以找到不同的字符对。单词长度相等(除了变音符号问题会引入一个额外的字符),并表示仅相隔一个音素的两个法语单词的国际音标发音。
最终目标是过滤 anki 卡片列表,以便仅包含某些音素对,因为其他音素对太容易识别了。每对单词代表一个 anki 注释。
为此,我需要区分鼻音 ɔ̃、ɛ̃ 和 ɑ̃ 形成其他声音,因为它们只会真正与它们自己混淆。
如所写,代码将重音字符视为字符加 ~,以此类推作为两个字符。因此,如果一个单词的唯一区别是最后一个重音字符和重音字符之间的区别,脚本在最后一个字母上没有发现差异,并且按照所写的那样会找到一个比另一个短的单词(另一个仍然有 ~ 左)和尝试比较一个字符时抛出错误。这本身就是一个完整的“问题”,但如果我能让重音字符作为单个单元读取,那么单词将具有相同的长度,并且它会消失。
我不想像某些人那样用非重音字符代替重音字符进行比较,因为它们是不同的声音。
我已经尝试将 unicode ‘标准化’为‘组合’形式,例如unicodedata.normalize('NFKC', line)
,但它没有改变任何东西。
这是一些输出,包括它刚刚抛出错误的行;打印输出显示代码正在比较的每个单词的单词和字符;该数字是单词中该字符的索引。因此,最后一个字母是脚本“认为”这两个字符的内容,它对 ɛ̃ 和 ɛ 的看法是一样的。当它报告差异时,它也会选择错误的字母对,这对是正确的很重要,因为我与允许对的主列表进行比较。
0 alyʁ alɔʁ a a # this first word is done well
1 alyʁ alɔʁ l l
2 alyʁ alɔʁ y ɔ # it doesn't continue to compare the ʁ because it found the difference
...
0 ɑ̃bisjø ɑ̃bisjɔ̃ ɑ ɑ
1 ɑ̃bisjø ɑ̃bisjɔ̃ ̃ ̃ # the tildes are compared / treated separately
2 ɑ̃bisjø ɑ̃bisjɔ̃ b b
3 ɑ̃bisjø ɑ̃bisjɔ̃ i i
4 ɑ̃bisjø ɑ̃bisjɔ̃ s s
5 ɑ̃bisjø ɑ̃bisjɔ̃ j j
6 ɑ̃bisjø ɑ̃bisjɔ̃ ø ɔ # luckily that wasn't where the difference was, this is
...
0 osi ɛ̃si o ɛ # here it should report (o, ɛ̃), not (o, ɛ)
...
0 bɛ̃ bɔ̃ b b
1 bɛ̃ bɔ̃ ɛ ɔ # an error of this type
...
0 bo ba b b
1 bo ba o a # this is working correctly
...
0 bjɛ bjɛ̃ b b
1 bjɛ bjɛ̃ j j
2 bjɛ bjɛ̃ ɛ ɛ # AND here's the money, it thinks these are the same letter, but it has also run out of characters to compare from the first word, so it throws the error below
Traceback (most recent call last):
File "C:\Users\tchak\OneDrive\Desktop\French.py", line 42, in <module>
letter1 = line[0][index]
IndexError: string index out of range
代码如下:
def lens(word):
return len(word)
# open file, and new file to write to
input_file = "./phonetics_input.txt"
output_file = "./phonetics_output.txt"
set1 = ["e", "ɛ", "œ", "ø", "ə"]
set2 = ["ø", "o", "œ", "ɔ", "ə"]
set3 = ["ə", "i", "y"]
set4 = ["u", "y", "ə"]
set5 = ["ɑ̃", "ɔ̃", "ɛ̃", "ə"]
set6 = ["a", "ə"]
vowelsets = [set1, set2, set3, set4, set5, set6]
with open(input_file, encoding="utf8") as ipf, open(output_file, encoding="utf8") as opf:
# for line in file;
vowelpairs= []
acceptedvowelpairs = []
input_lines = ipf.readlines()
print(len(input_lines))
for line in input_lines:
#find word ipa transctipts
unicodedata.normalize('NFKC', line)
line = line.split("/")
line.sort(key = lens)
line = line[0:2] # the shortest two strings after splitting are the ipa words
index = 0
letter1 = line[0][index]
letter2 = line[1][index]
print(index, line[0], line[1], letter1, letter2)
linelen = max(len(line[0]), len(line[1]))
while letter1 == letter2:
index += 1
letter1 = line[0][index] # throws the error here, technically, after printing the last characters and incrementing the index one more
letter2 = line[1][index]
print(index, line[0], line[1], letter1, letter2)
vowelpairs.append((letter1, letter2))
for i in vowelpairs:
for vowelset in vowelsets:
if set(i).issubset(vowelset):
acceptedvowelpairs.append(i)
print(len(vowelpairs))
print(len(acceptedvowelpairs))
最佳答案
Unicode 规范化对描述的特定字符组合没有帮助,因为摘自 Unicode database UnicodeData.Txt
使用简单的正则表达式 "Latin.*Letter.*with tilde$"
给出 ÃÑÕãñõĨĩŨũṼṽẼẽỸỹ
(没有拉丁字母 Open O
,Open E
或 Alpha
)。因此,您需要按如下方式分别遍历两个比较的字符串(省略了上面 a Minimal, Reproducible Example 的大部分代码):
import unicodedata
def lens(word):
return len(word)
input_lines = ['alyʁ/alɔʁ', 'ɑ̃bisjø/ɑ̃bisjɔ̃ ', 'osi/ɛ̃si', 'bɛ̃ /bɔ̃ ', 'bo/ba', 'bjɛ/bjɛ̃ ']
print(len(input_lines))
for line in input_lines:
print('')
#find word ipa transctipts
line = unicodedata.normalize('NFKC', line.rstrip('\n'))
line = line.split("/")
line.sort(key = lens)
word1, word2 = line[0:2] # the shortest two strings after splitting are the ipa words
index = i1 = i2 = 0
while i1 < len(word1) and i2 < len(word2):
letter1 = word1[i1]
i1 += 1
if i1 < len(word1) and unicodedata.category(word1[i1]) == 'Mn':
letter1 += word1[i1]
i1 += 1
letter2 = word2[i2]
i2 += 1
if i2 < len(word2) and unicodedata.category(word2[i2]) == 'Mn':
letter2 += word2[i2]
i2 += 1
same = chr(0xA0) if letter1 == letter2 else '#'
print(index, same, word1, word2, letter1, letter2)
index += 1
#if same != chr(0xA0):
# break
输出:.\SO\67335977.py
6
0 alyʁ alɔʁ a a
1 alyʁ alɔʁ l l
2 # alyʁ alɔʁ y ɔ
3 alyʁ alɔʁ ʁ ʁ
0 ɑ̃bisjø ɑ̃bisjɔ̃ ɑ̃ ɑ̃
1 ɑ̃bisjø ɑ̃bisjɔ̃ b b
2 ɑ̃bisjø ɑ̃bisjɔ̃ i i
3 ɑ̃bisjø ɑ̃bisjɔ̃ s s
4 ɑ̃bisjø ɑ̃bisjɔ̃ j j
5 # ɑ̃bisjø ɑ̃bisjɔ̃ ø ɔ̃
0 # osi ɛ̃si o ɛ̃
1 osi ɛ̃si s s
2 osi ɛ̃si i i
0 bɛ̃ bɔ̃ b b
1 # bɛ̃ bɔ̃ ɛ̃ ɔ̃
2 bɛ̃ bɔ̃
0 bo ba b b
1 # bo ba o a
0 bjɛ bjɛ̃ b b
1 bjɛ bjɛ̃ j j
2 # bjɛ bjɛ̃ ɛ ɛ̃
注意:变音符号测试为 Unicode 类别 Mn
;您可以针对另一个条件进行测试(例如来自以下列表):
Mn Nonspacing_Mark:
非间距组合标记(零提前宽度)Mc Spacing_Mark :
一个间距组合标记(正向前进宽度)Me Enclosing_Mark :
一个封闭的组合标记M 标记:
Mn |麦克 |我
关于python - 如何将带有变音符号 ɔ̃、ɛ̃ 和 ɑ̃ 的字符与 python 中的无重音符号(从 utf-8 编码的文本文件导入)进行比较?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67335977/
当我这样做时... import numpy as np ...我可以使用它但是... import pprint as pp ...不能,因为我需要这样做... from pprint import
我第一次尝试将 OpenCV 用于 Python 3。要安装,我只需在终端中输入“pip3 install opencv-python”。当我这样做时,我在 Finder(我在 Mac 上)中看到,在
如果有一个库我将使用至少两种方法,那么以下之间在性能或内存使用方面是否有任何差异? from X import method1, method2 和 import X 最佳答案 有区别,因为在 imp
我正在从 lodash 导入一些函数,我的同事告诉我,单独导入每个函数比将它们作为一个组导入更好。 当前方法: import {fn1, fn2, fn3} from 'lodash'; 首选方法:
之间有什么关系: import WSDL 中的元素 -和- import元素和在 XML Schema ...尤其是 location 之间的关系前者和 schemaLocation 的属性后者的属性
我在从 'theano.configdefaults' 导入 'local_bitwidth' 时遇到问题。并显示以下消息: ImportError
我注意到 React 可以这样导入: import * as React from 'react'; ...或者像这样: import React from 'react'; 第一个导入 react
对于当前的项目,我必须使用矩阵中提供的信息并对其进行数学计算,以及使用 ITK/VTK 函数来显示医疗信息/渲染。基本上我必须以(我猜)50/50 的方式同时使用 matlab 例程和 VTK/ITK
当我看到 pysqlite 的示例时,SQLite 库有两个用例。 from sqlite3 import dbapi2 as sqlite3 和 import sqlite3 为什么有两种方式支持s
我使用 Anaconda Python 发行版:Python 2.7 x64 和 Windows 7 SP1 x64 Ultimate。 当我import matplotlib.pyplot时,我得到
目录 【容器】镜像导出/导入 导出 导入 带标签 不带标签,后期修改 【仓库】镜像导出/导入
我正在寻找一种导入模块的方法,以便我可以从子文件夹 project/v0 和根文件夹 project 运行脚本。/p> 我在 python 3.6 中的文件结构(这就是没有初始化文件的原因) proj
我通常被告知以下是不好的做法。 from module import * 主要原因(或者有人告诉我)是,您可能会导入一些您不想要的东西,并且它可能会隐藏另一个模块中具有类似名称的函数或类。 但是,Py
我为 urllib (python3) 编写了一个小包装器。在if中导入模块是否正确且安全? if self.response_encoding == 'gzip': import gzip
我正在 pimcore 中创建一个新站点。有没有办法导出/导入 pimcore 站点的完整数据,以便我可以导出 xml/csv 格式的 pimcore 数据进行必要的更改,然后将其导入回来? 最佳答案
在 Node JS 中测试以下模块布局,看起来本地导出的定义总是在名称冲突的情况下替换外部导出的定义(参见 B.js 中的 f1)。 A.js export const f1 = 'A' B.js e
我在使用 VBA 代码时遇到了一些问题,该代码应该将 excel 数据导入我的 Access 数据库。当我运行代码时,我收到一个运行时错误“运行时错误 438 对象不支持此属性或方法”。来自我在其他论
我有一个名为 elements 的包,其中包含按钮、trifader、海报等内容。在 Button 类中,我正在执行 from elements import * 这执行正常,当我尝试 print(p
在我长期使用 python 的经验中,我遇到了一个非常奇怪的问题。 提前我想说我想知道为什么会发生这种情况 ,而不是如何更改我的代码或如何修复它,因为我也可以做到。 我正在使用 python2.7.3
我正在更新我的包。但是,我正在为依赖项/导入而苦苦挣扎。我使用了两个冲突的包 - ggplot2和 psych及其功能 alpha当然还有 alpha ggplot2 的对象不同于 alpha psy
我是一名优秀的程序员,十分优秀!