- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我在检测 Python 2.7 中一些阿拉伯语单词对的“相等性”时遇到了一些问题:
每一对的元素并不完全相同,但它们是用不同的大小写写的。对我(我不懂任何阿拉伯语)来说,一个有用的类比是 Word 与 word。它们不相同,但如果我将它们都小写,我将获得 word 与 word,它们是相同的。这就是我想从这 3 对阿拉伯语单词中得到的。
我现在将使用第一对(1. أكثر vs اكثر)来举例说明我的尝试。顺便说一下,第一对中的两个阿拉伯语单词的意思都是"menu" "more",但是它们有不同的大小写(平行:Menu与菜单 更多 与更多)。我根本不懂阿拉伯语,也不懂阿拉伯语规则,所以如果懂阿拉伯语的人可以确认这些词是“相同的”,那就太好了。
str1 = u'أكثر'
str2 = u'اكثر'
所以我想做的是将 str1
和 str2
变成相同的形式(如果可能的话),所以我想要一个产生相同输出的函数对于两个字符串:
transform(str1) == transform(str2)
在英语中,这很容易实现:
a = u'More'
b = u'more'
def transform(text):
return text.lower()
>>> transform(a) == transform(b)
>>> True
但是,当然,这不适用于阿拉伯语,因为没有小写或大写之类的东西。
>>> str1
u'\u0623\u0643\u062b\u0631'
>>> str2
u'\u0627\u0643\u062b\u0631'
请注意,只有第一个字符在 unicode 表示中有所不同。
我还使用以下方法规范化了字符串:
import unicodedata
>>> n_str1 = unicodedata.normalize('NFKD', str1)
>>> n_str2 = unicodedata.normalize('NFKD', str2)
>>> n_str1
u'\u0627\u0654\u0643\u062b\u0631'
>>> n_str2
u'\u0627\u0643\u062b\u0631'
正如您已经注意到的:
>>> n_str1 == n_str2
False
在那之后,我尝试使用 unicode.casefold() 但它在 Python 2 中不可用。我已经安装了 py2casefold 库,但我没有设法获得字符串之间的相等性。所以我尝试使用 Python 3 的 unicode.casefold() 但没有任何运气:
>>> str1.casefold() == str2.casefold()
False
>>> n_str1.casefold() == n_str2.casefold()
False
在 Python 2 中解决这个问题是完美的,但在 Python 3 中也会很棒。
谢谢。
最佳答案
这些词不相同:u'أكثر' 和 u'اكثر' 不一样。第一个单词的第一个字母上面有字母 Alif 和 Hamazah,可能由于字形的小尺寸你没有注意到:
然而,第二个单词的第一个字母是 Alif *(从右到左):
因此它们不相等。这些字母中的每一个都由其自己的 Unicode 字符代码点表示。从语言的角度来看,它们也不相等:
>>> u'أكثر'; u'اكثر'
u'\u0623\u0643\u062b\u0631'
u'\u0627\u0643\u062b\u0631'
They are not identical, but if I lowercase both of them, I'll obtain word vs word, which are identical. That's what I want to obtain from these 3 pairs of Arabic words.
阿拉伯语没有大小写之分。你手中的单词不一样,它们有不同的字母。有些单词拼写正确,而另一些单词拼写错误。它们可能看起来是一样的,但对于阿拉伯语读者来说,他们也可能认为它们是一样的,对于语言狂来说,它们是不一样的。但它们传达了意思,你的英语阿拉伯语单词列表大致如下所示:
1-更多,摩尔
2-菜单,手册
3- establish, estblish
I'm going to exemplify what I tried by now using the first pair (1. أكثر vs اكثر). By the way, the meaning of both Arabic words from the first pair is "menu", but they have different cases (as a parallel: Menu vs menu)
不,أكثر 意味着更多。你的第二对意思是菜单,但在阿拉伯语中没有“菜单”或“菜单”这样的东西。我无法深入研究细节,因为这将是题外话。
关于python - 如何使 casefold() 在某些阿拉伯语 unicode 上工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45759692/
我在Windows 10中使用一些简单的Powershell代码遇到了这个奇怪的问题,我认为这可能是我做错了,但我不是Powershell的天才。 我有这个: $ix = [System.Net.Dn
var urlsearch = "http://192.168.10.113:8080/collective-intellegence/StoreClicks?userid=" + userId +
我有一个非常奇怪的问题,过去两天一直让我抓狂。 我有一个我试图控制的串行设备(LS 100 光度计)。使用设置了正确参数的终端(白蚁),我可以发送命令(“MES”),然后是定界符(CR LF),然后我
我目前正试图让无需注册的 COM 使用 Excel 作为客户端,使用 .NET dll 作为服务器。目前,我只是试图让概念验证工作,但遇到了麻烦。 显然,当我使用 Excel 时,我不能简单地使用与可
我开发了简单的 REST API - https://github.com/pavelpetrcz/MandaysFigu - 我的问题是在本地主机上,WildFly 16 服务器的应用程序运行正常。
我遇到了奇怪的情况 - 从 Django shell 创建一些 Mongoengine 对象是成功的,但是从 Django View 创建相同的对象看起来成功,但 MongoDB 中没有出现任何数据。
我是 flask 的新手,只编写了一个相当简单的网络应用程序——没有数据库,只是一个航类搜索 API 的前端。一切正常,但为了提高我的技能,我正在尝试使用应用程序工厂和蓝图重构我的代码。让它与 pus
我的谷歌分析 JavaScript 事件在开发者控制台中运行得很好。 但是当从外部 js 文件包含在页面上时,它们根本不起作用。由于某种原因。 例如; 下面的内容将在包含在控制台中时运行。但当包含在单
这是一本名为“Node.js 8 the Right Way”的书中的任务。你可以在下面看到它: 这是我的解决方案: 'use strict'; const zmq = require('zeromq
我正在阅读文本行,并创建其独特单词的列表(在将它们小写之后)。我可以使它与 flatMap 一起工作,但不能使它与 map 的“子”流一起工作。 flatMap 看起来更简洁和“更好”,但为什么 di
我正在编写一些 PowerShell 脚本来进行一些构建自动化。我发现 here echo $? 根据前面的语句返回真或假。我刚刚发现 echo 是 Write-Output 的别名。 写主机 $?
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
我将一个工作 View Controller 类从另一个项目复制到一个新项目中。我无法在新项目中加载 View 。在旧项目中我使用了presentModalViewController。在新版本中,我
我对 javascript 很陌生,所以很难看出我哪里出错了。由于某种原因,我的功能无法正常工作。任何帮助,将不胜感激。我尝试在外部 js 文件、头部/主体中使用它们,但似乎没有任何效果。错误要么出在
我正在尝试学习Flutter中的复选框。 问题是,当我想在Scaffold(body :)中使用复选框时,它正在工作。但我想在不同的地方使用它,例如ListView中的项目。 return Cente
我们当前使用的是 sleuth 2.2.3.RELEASE,我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
我有一个组合框,其中包含一个项目,比如“a”。我想调用该组合框的 Action 监听器,仅在手动选择项目“a”完成时才调用。我也尝试过 ItemStateChanged,但它的工作原理与 Action
你能看一下照片吗?现在,一步前我执行了 this.interrupt()。您可以看到 this.isInterrupted() 为 false。我仔细观察——“这个”没有改变。它具有相同的 ID (1
我们当前使用的是 sleuth 2.2.3.RELEASE,我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
我正在尝试在我的网站上设置一个联系表单,当有人点击发送时,就会运行一个作业,并在该作业中向所有管理员用户发送通知。不过,我在失败的工作表中不断收到此错误: Illuminate\Database\El
我是一名优秀的程序员,十分优秀!