gpt4 book ai didi

java - 分词和模式匹配在中文中是如何工作的?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:55:58 27 4
gpt4 key购买 nike

这道题涉及计算和中文知识。我有中文查询,我有一个单独的中文短语列表,我需要能够找到这些查询中的哪些包含这些短语中的任何一个。

用英语来说,这是一个非常简单的任务。我根本不懂中文,它的语义、语法规则等,如果这个论坛中也懂中文的人可以帮助我一些基本的理解以及如何为中文进行模式匹配。

我有一个基本的看法,在中文中一个单位(中间没有任何空格)实际上可以表示多个单词(这是正确的吗?)。那么,关于如何将多个单词组合在一起以作为一个整体脱颖而出,是否有任何规则。这很困惑,因为中文写作中有空格,但即使没有空格的单位也有多个单词。

任何从计算、模式匹配等角度解释中文的链接都将非常有用。

最佳答案

I have a basic perception that in Chinese one unit (without any space in between) can actually mean more than one word(Is this correct?).

在中文中很少使用空格,例如:

递归(英语:Recursion),又譯為遞迴,在数学与计算机科学中,是指在函数的定义中使用函数自身的方法。递归一词还较常用于描述以自相似方法重复事物的过程。例如,当两面镜子相互之间近似平行时,镜中嵌套的图像是以无限递归的形式出现的。

你会注意到看起来像空格的东西实际上只是中文标点符号,只是比平时有更多的填充。

So are there any rules on how more than one word combine among themselves to stand out as a unit. It is confusing because there are spaces in Chinese writing yet even a unit without space has more than one word in it.

可以这样想:一个汉字与一个英文单词非常、非常粗略相似。通常需要将两个或多个字符组合成一个词,并且每个单独的字符可能表示完全不同的内容,具体取决于上下文。

要有意义地标记中文文本,您必须考虑到这一点来分割单词。

参见 Chinese Natural Language Processing and Speech Processing ,来自斯坦福 NLP 小组。

关于java - 分词和模式匹配在中文中是如何工作的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7626912/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com