- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试验证用户输入(在 Python 中)并查看是否使用了正确的语言,在本例中为韩语。让我们用韩语单词表示电子邮件地址:이메일 주소
我可以像这样检查每个字符:
import unicodedata as ud
for chr in u'이메일 주소':
if 'HANGUL' in ud.name(chr): print "Yep, that's a Korean character."
但这似乎非常低效,尤其是对于较长的文本。当然,我可以创建一个包含所有韩语音节 block 的静态字典,但该字典将包含大约 25,000 个字符,而且检查起来效率很低。此外,我还需要一个针对日文和中文的解决方案,其中可能包含更多字符。
因此,我想对 Hangul 音节 block 使用覆盖所有 Unicode 字符的 Regex 模式。但我不知道是否有一个范围或在哪里可以找到它。
例如,此正则表达式模式涵盖所有基于拉丁语的字符,包括括号和其他常用符号:
import re
LATIN_CHARACTERS = re.compile(ur'[\x00-\x7F\x80-\xFF\u0100-\u017F\u0180-\u024F\u1E00-\u1EFF]')
有人可以翻译这个正则表达式来匹配韩语 Hangul 音节 block 吗?或者你能给我看一张表格或引用资料,让我自己查找这些范围吗?
匹配中文和日文的模式也会很有帮助。或者一个正则表达式来一次匹配所有 CJK 字符。我不需要区分日语和韩语。
这是一个用于该任务的 Python 库,但它适用于非常庞大的词典:https://github.com/EliFinkelshteyn/alphabet-detector我无法想象这对于大型文本和大量用户输入是有效的。
谢谢!
最佳答案
您是否知道 Unicode 是如何分成 block 的,以及每个 block 如何代表一个连续的代码点范围? IE,有比正则表达式更有效的解决方案。
Hangul Jamo 有一个代码块, 在 CJK block 中有附加字符, 一个 compatability block , Hangul syllables等
最有效的方法是使用 if/then
语句检查每个字符是否在可接受的范围内。您几乎肯定可以使用 C 扩展来加快速度。
例如,如果我只是检查 Hangul block (不够,但只是一个简单的起点),我会使用以下代码检查字符串中的每个字符:
def is_hangul_character(char):
'''Check if character is in the Hangul Jamo block'''
value = ord(char)
return value >= 4352 and value <= 4607
def is_hangul(string):
'''Check if all characters are in the Hangul Jamo block'''
return all(is_hangul_character(i) for i in string)
将其扩展为 8 左右 blocks 很容易包含韩文字符的。没有表查找,没有正则表达式编译。只是基于 Unicode 字符 block 的快速范围检查。
在 C 中,这也很容易(如果您想要显着提高性能,只需很少的工作即可匹配完全优化的库):
// Return 0 if a character is in Hangul Jamo block, -1 otherwise
int is_hangul_character(char32_t c)
{
if (c >= 4352 && c <= 4607) {
return 0;
}
return -1;
}
// Return 0 if all characters are in Hangul Jamo block, -1 otherwise
int is_hangul(const char32_t* string, size_t length)
{
size_t i;
for (i = 0; i < length; ++i) {
if (is_hangul_character(string[i]) < 0) {
return -1;
}
}
return 0;
}
编辑 粗略地看一下 CPython 的实现,就会发现 CPython 将这种方法用于 unicodedata。模块。 IE,尽管你自己实现它相对容易,但它是高效的。它仍然值得实现,因为您不必分配任何中间字符串,或使用多余的字符串比较(这可能是 unicodedata
模块的主要成本)。
关于python - 匹配所有韩语(韩语)字符和音节 block 的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48074764/
我的 blockly.js 文件中有以下代码 Blockly.Blocks['account_number'] = { // Other type. init: function() {
首先抱歉我的英语不好,我正在开发 Image Splitter 应用程序并且已经完成,但是现在的要求是当图像被分割(分成几 block /chunks)那么图像 block 的每一 block (ch
#value: 消息的返回值,当发送到一个 block 时,是该 block 中最后一句话的值。所以 [ 1 + 2. 3 + 4. ] value 计算结果为 7。我发现有时很难使用。有没有办法显式
我想构建一个包含 3 div 的响应式导航栏相同的 width和 height . 我申请了 inline-block到每个 block ,我得到一个我不理解的行为。 问题是,第三 block 由 2
我希望使用 Blockly 来允许非技术人员用户指定测试脚本。 它的一部分需要一个文件选择器,但是,我看不到 Blockly 有一个。是吗? 实际上,我找不到完整的标准 block 列表。谁有网址?
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block 。我可以分别创建不同的悬停颜色 block 或不同的背景颜色 block ,但不能一起创建。所以请告诉我如何
我正在使用看到的代码 here定期执行代码: #define DELAY_IN_MS 1000 __block dispatch_time_t next = dispatch_time(DISPATC
为什么 block 必须被复制而不是保留?两者在引擎盖下有什么区别?在什么情况下不需要复制 block (如果有)? 最佳答案 通常,当您分配一个类的实例时,它会进入堆并一直存在,直到它被释放。但是,
我想弄清楚我这样做是否正确: 如果我有一个 block ,我会这样做: __weak MyClass *weakSelf = self; [self performBlock:^{
我想制作一个 4 block 导航菜单,虽然我已经显示了一个 block ,然后单击打开第二个 block ,从第二个开始选择并再次单击出现第三个 block ,第四个 block 相同...这是我的
例如,这样更好吗? try { synchronized (bean) { // Write something } } catch (Int
我想让一只乌龟检查前方小块的颜色并决定移动到哪里。如果前面的补丁不是白色的,那么乌龟向左或向右旋转并移动。我的 If 决策结构中出现错误,显示“此处应为 TRUE?FALSE,而不是 block 列表
我想创建一个 block 对角矩阵,其中对角 block 重复一定次数,非对角 block 都是零矩阵。例如,假设我们从一个矩阵开始: > diag.matrix [,1] [,2] [
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我创建了一个等距环境,全部使用 Javascript 和 HTML5 (2D Canvas),大部分情况下工作正常。我面临的问题是使用不同高度的图 block ,然后对图 block 上的对象索引进行
这是令我困惑的代码: public Integer getInteger(BlockingQueue queue) { boolean interrupted = false; try
我有一个基于 TPL 数据流的应用程序,它仅使用批处理 block 和操作 block 就可以正常工作。 我已经添加了一个 TransformBlock 以尝试在发布到批处理 block 之前从源中转
我是一名优秀的程序员,十分优秀!