- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要从文本中分割单词。有时连字符的单词不带连字符,撇号的单词不带撇号。也有类似的问题,例如相同单词的不同拼写问题(例如:颜色、颜色),或单个单词之间有空格(例如:up to、upto、blankspace、blank space)。我需要将这些变体分组为一个单一的表示并将其插入到集合/哈希图或其他地方。没有重音字符的重音字符也可能存在问题(尽管我还没有遇到过)。目前并在任何空格字符和每个非字母数字处剪切单词,然后对它们进行词干处理,并省略停用词。
这些索引稍后将用于文档相似性检查和搜索等。有什么建议可以解决这些问题吗?我想到了一个将扫描的单词与单词列表匹配的想法,但问题是专有名词和非字典单词将被省略。
信息:我的代码是 Java
最佳答案
我认为你应该应用多种技术。
1)对于常见的拼写变体,我会使用基于字典的方法。由于它们很常见,我不会担心丢失非字典单词。那应该解决颜色/颜色问题。
2) 对于拼写错误和其他非标准拼写变体,您可以应用 Metaphone (http://en.wikipedia.org/wiki/Metaphone) 算法将标记转换为其英语发音的表示。相似的变体听起来很相似,因此您可以将它们相互匹配(例如,Jon 到 John)。您还可以在查询期间使用基于编辑距离的匹配算法来匹配非常相似的标记,只有一对并列的字符或一个字符被丢弃(例如,Huseyin 与 Housein)。
3) 对于撇号和中间有连字符的复合词,您可以存储这两种变体。例如,“John's”将被索引为“John s”和“Johns”。 “空白空间”可以转换为(或连同存储)“空白空间”和“空白空间”。
4)对于中间没有任何连字符的复合词,您可以使用外部库,例如 Solr 的 HyphenationCompoundWordTokenFilterFactory 类(http://lucene.apache.org/solr/api/org/apache/solr/analysis/HyphenationCompoundWordTokenFilterFactory.html) .虽然它可以使用字典,但它不是必须的。它的目标是处理在德语和类似语言中经常遇到的复合词。我认为没有理由不能将其应用于英语(您需要提供英语词典和连字规则文件)。
实际上,最后一点提出了一个重要的问题。我认为您无法从头开始构建自己的搜索库。如果这是真的,为什么不使用 Lucene(或基于 Lucene 的 Solr),这是一个基于 Java 的搜索库,它已经拥有处理这些问题的方法和方法?例如,注入(inject)技术允许您在文档的同一位置同时索引颜色和颜色;因此,无论您搜索“有色汽车”还是“有色汽车”(假设您处理词干)都无关紧要。有一些过滤器可以进行语音索引(http://lucene.apache.org/solr/api/org/apache/solr/analysis/PhoneticFilterFactory.html)。甚至还有一个 FuzzyQuery 组件,它允许您允许一定数量的编辑距离来匹配相似的术语(http://lucene.apache.org/core/old_versioned_docs/versions/3_2_0/api/all/org/apache/lucene/搜索/FuzzyQuery.html)
您还需要决定在什么时候处理这些问题:一种极端的方法是在索引期间对这些术语的所有可能变体进行索引,并按原样使用查询。这将使您的查询处理轻松,但会花费您更大的索引(因为您需要存储所有变体)。另一个极端是按原样索引文档并在搜索期间扩展查询。这将允许您以更繁重的查询处理为代价来保持索引精简。语音索引需要您在索引期间处理文档和搜索期间的查询。模糊匹配仅在搜索期间可行,因为您可能无法将所有术语的所有编辑变体存储在索引中。
关于text-processing - 分割单词,并从文本中对带连字符和撇号的单词进行分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9293687/
实际上我只需要用JAVA编写一个简单的程序来将MySQL INSERTS行转换为CSV文件(每个mysql表等于一个CSV文件) 在JAVA中使用正则表达式是最好的解决方案吗? 我的主要问题是如何正确
我有一个 txt 文件,其格式为: Key:value Key:value Key:value ... 我想将所有键及其值放入我创建的 hashMap 中。如何让 FileReader(file) 或
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
我每周都会从我的主机下载数据库的备份。它生成一个 .sql 文件,当前大小约为 800mb。此 .sql 文件包含 44 个表。 有什么方法可以通过某些软件将 .sql 文件与所有表分开,以便单独导出
在 iOS 4.0 及更高版本中,有没有一种方法可以在不将整个图像加载到内存的情况下对 CGImage 进行分割?我试图做的是*以编程方式*分割图像,以便在使用大图像的 CATiledLayer 应用
我的 .split() 函数有问题,我有以下字符串: var imageUrl = "Images\Products\randomImage.jpg"; 我想用字符“\”分割,但是,这种情况发生了:
是否可以使用正则表达式将字符串拆分两次?例如,假设我有字符串: example=email@address.com|fname|lname 如何拆分结果为: email@address.com,fna
我正在寻找一种在线程系统(主从)中使用数组的解决方案,它允许我通过用户输入在多个线程上划分矩阵的计算,并将其通过 1 个主线程引导到多个从属线程,这些从属线程计算矩阵的 1 个字段。 我尝试运用我的知
我建立了一个系统来分割包含手写符号的二值图像并对它们进行分类(专门用于音乐)。我知道有商业应用程序可以执行此操作,但这是我尝试将其作为一个项目从头开始。 为了简单起见,假设我的整个图像中有两个元素:
我正在尝试找到一种可接受的复杂性的有效方法 检测图像中的对象,以便将其与周围环境隔离 将该对象分割成它的子部分并标记它们,这样我就可以随意获取它们 我进入图像处理世界已经 3 周了,我已经阅读了很多算
我有一组3D 空间中的点。下图是一个示例: 我想把这些点变成一个面。我只知道点的 X、Y 和 Z 值。例如,查看下图,它显示了从 3D 空间中的点生成的人脸网格。 我在谷歌上搜索了很多,但我找到的是一
我有一个字符串 String placeStr="place1*place2*place3"我想获取包含 place1、place2、place3 的数组,如下所示: String[] places=
我在 Python 中有一个类似于 google.com 的字符串,我想将其分成两部分:google 和 .com。问题是我有一个 URL,例如 subdomain.google.com,我想将其拆分
朋友需要对一个pdf文件进行分割,在网上查了查发现这个pypdf2可以完成这些操作,所以就研究了下这个库,并做一些记录。首先pypdf2是python3版本的,在之前的2版本有一个对应pypdf库。
伙计们,这是一个难以解决的问题,因为它涉及很多硬件细节,所以我想把它放到 EE.SE,但它的主要重点是编程,所以我决定坚持在这里。 我最近怀旧(以及渴望回到 CPU 内在函数),所以我决定自制一个 8
给定 haskell 中的排序列表,我如何获得分段列表,其中连续数字位于同一列表中。例如,如果我有一个排序列表 [1,2,3,4,7,8,10,12,13,15] 结果将是 [[1,2,3 ,4],[
如果我添加三个分割 View ,如下图所示,第三个分割 View (称为 splitView-3)将自动为该分割 View 中的自定义 View 生成约束,例如 customview1 的 Heigh
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
如何为馈送给映射器的文件的每一行提供相同文件的拆分? 基本上我想做的是 for each line in file-split { for each line in file{
带有Snappy压缩功能的ORC文件是否可拆分成条形? 据我所知,Snappy Compressed File是不可拆分的。 但我在博客中读到,快速压缩的文件可以在 strip 上拆分。 真的吗? 最
我是一名优秀的程序员,十分优秀!