gpt4 book ai didi

text-processing - 分割单词,并从文本中对带连字符和撇号的单词进行分组

转载 作者:行者123 更新时间:2023-12-04 20:52:13 26 4
gpt4 key购买 nike

我需要从文本中分割单词。有时连字符的单词不带连字符,撇号的单词不带撇号。也有类似的问题,例如相同单词的不同拼写问题(例如:颜色、颜色),或单个单词之间有空格(例如:up to、upto、blankspace、blank space)。我需要将这些变体分组为一个单一的表示并将其插入到集合/哈希图或其他地方。没有重音字符的重音字符也可能存在问题(尽管我还没有遇到过)。目前并在任何空格字符和每个非字母数字处剪切单词,然后对它们进行词干处理,并省略停用词。

这些索引稍后将用于文档相似性检查和搜索等。有什么建议可以解决这些问题吗?我想到了一个将扫描的单词与单词列表匹配的想法,但问题是专有名词和非字典单词将被省略。

信息:我的代码是 Java

最佳答案

我认为你应该应用多种技术。

1)对于常见的拼写变体,我会使用基于字典的方法。由于它们很常见,我不会担心丢失非字典单词。那应该解决颜色/颜色问题。

2) 对于拼写错误和其他非标准拼写变体,您可以应用 Metaphone (http://en.wikipedia.org/wiki/Metaphone) 算法将标记转换为其英语发音的表示。相似的变体听起来很相似,因此您可以将它们相互匹配(例如,Jon 到 John)。您还可以在查询期间使用基于编辑距离的匹配算法来匹配非常相似的标记,只有一对并列的字符或一个字符被丢弃(例如,Huseyin 与 Housein)。

3) 对于撇号和中间有连字符的复合词,您可以存储这两种变体。例如,“John's”将被索引为“John s”和“Johns”。 “空白空间”可以转换为(或连同存储)“空白空间”和“空白空间”。

4)对于中间没有任何连字符的复合词,您可以使用外部库,例如 Solr 的 HyphenationCompoundWordTokenFilterFactory 类(http://lucene.apache.org/solr/api/org/apache/solr/analysis/HyphenationCompoundWordTokenFilterFactory.html) .虽然它可以使用字典,但它不是必须的。它的目标是处理在德语和类似语言中经常遇到的复合词。我认为没有理由不能将其应用于英语(您需要提供英语词典和连字规则文件)。

实际上,最后一点提出了一个重要的问题。我认为您无法从头开始构建自己的搜索库。如果这是真的,为什么不使用 Lucene(或基于 Lucene 的 Solr),这是一个基于 Java 的搜索库,它已经拥有处理这些问题的方法和方法?例如,注入(inject)技术允许您在文档的同一位置同时索引颜色和颜色;因此,无论您搜索“有色汽车”还是“有色汽车”(假设您处理词干)都无关紧要。有一些过滤器可以进行语音索引(http://lucene.apache.org/solr/api/org/apache/solr/analysis/PhoneticFilterFactory.html)。甚至还有一个 FuzzyQuery 组件,它允许您允许一定数量的编辑距离来匹配相似的术语(http://lucene.apache.org/core/old_versioned_docs/versions/3_2_0/api/all/org/apache/lucene/搜索/FuzzyQuery.html)

您还需要决定在什么时候处理这​​些问题:一种极端的方法是在索引期间对这些术语的所有可能变体进行索引,并按原样使用查询。这将使您的查询处理轻松,但会花费您更大的索引(因为您需要存储所有变体)。另一个极端是按原样索引文档并在搜索期间扩展查询。这将允许您以更繁重的查询处理为代价来保持索引精简。语音索引需要您在索引期间处理文档和搜索期间的查询。模糊匹配仅在搜索期间可行,因为您可能无法将所有术语的所有编辑变体存储在索引中。

关于text-processing - 分割单词,并从文本中对带连字符和撇号的单词进行分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9293687/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com