- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
好吧,让我尝试解释一下我所做的事情,然后希望我要问的问题会更清楚。我正在分析文档,并尝试根据某些文档中频繁出现的单词对它们进行评分,尽管这些单词在整个索引中并不常见。到目前为止,我已经得到了一些非常有趣的结果,并且能够看到给定文档中每个术语的 tf 和 idf。
为了对整个文档进行评分,我想做一些与 tf-idf 相关的事情,但我不想使用文档中的每个术语。现在,我已经对一些过滤器进行了硬编码,以消除过于常见的单词(idf 太低而对我来说不重要的单词)和过于不常见的单词(idf 分数非常高的单词;根据我的经验,它们通常是拼写错误)。
有没有一个好的方法可以动态过滤掉idf中的异常值?
而不是:
if (idf > x && idf < y)
include the word
我想做这样的事情:
if (idf is in the 60th percentile of idfs for the index)
include it
也许这是最好的方法,但我想听听您可能提出的任何其他解决方案,谢谢!
最佳答案
评分过程的最后一步是由 Similarity 完成的。目的。我相信你只需要发展你的个性化相似度。 DefaultSimilarity (显然)是 Lucene 使用的默认类。它扩展了 TFIDF 的相似性。我建议您阅读这两个类的代码,以便了解如何开发自己的类。
一旦开发了该类,假设它称为 KmancSimilarity,下面是如何运行它:
Directory dir = <your dir>;
IndexReader index = DirectoryReader.open(dir);
IndexSearcher searcher = new IndexSearcher(index);
searcher.setSimilarity(new KmancSimilarity());
continue your code...
我一直在使用 4.8 版本,所以我不知道它是否对其他人有效。
希望对您有所帮助。
关于java - 如何动态过滤 Lucene 的 MoreLikeThis?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24898572/
我正在试验 Solr 的 MoreLikeThis 功能。 我的架构处理文章,我正在寻找三个领域内文章之间的相似之处: 文章标题、文章正文和主题。 以下查询运行良好: q=id:(2e2ec74c-7
我试图了解 Solr MorelIkeThis 是如何工作的。我已经完成的步骤 - 在我写的 schema.xml - 字段名称="path_exact"type="string"indexed="t
我必须在这里做一些根本错误的事情。我正在尝试在我们拥有的使用 Elasticsearch 的搜索引擎项目中获得“更像这样”的查询。这个想法是 CMS 可以将标签(如类别)写入页面中的 Meta 标签或
我正在尝试使用 lucene 中的 MoreLikeThis 类,如“Lucene in action”一书中所述,但该类似乎不存在:/ 我正在使用 lucene-core-2.9.4.jar,正常的
我想执行这个 exemple : $ curl -XGET 'http://localhost:9200/twitter/tweet/1/_mlt?mlt_fields=tag,content&min
我是 Apache Solr 的新手,目前正在探索/尝试使用 MoreLikeThis作为搜索组件(而不是专用的请求处理程序)。我发现很难清楚地理解这是如何在内部工作以获得更像这样的结果? 例如,我正
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
好吧,让我尝试解释一下我所做的事情,然后希望我要问的问题会更清楚。我正在分析文档,并尝试根据某些文档中频繁出现的单词对它们进行评分,尽管这些单词在整个索引中并不常见。到目前为止,我已经得到了一些非常有
谁能举例说明如何在 Lucene.NET 中使用 MoreLikeThis 功能。我在网上搜索过,找不到一个例子。 最佳答案 (复活一个老问题!) 以 Lucene.Net 2.9.4g 为例: va
我正在尝试使用 MoreLikeThis 来获取所有类似的文档,但不获取具有特定内容类型的文档。 因此,第一个查询需要找到我想要获得“More Like This”的一个文档 - 第二个查询需要将类似
所以我使用多核功能设置了具有多个核心的 Solr,该功能运行良好: http://localhost:8080/solr/core_one/select/?q=Book 按预期工作并列出结果。 现在我
我正在使用 Lucene 为我的网站内容编制索引并提供搜索工具。我还使用 Lucene 的 MoreLikeThis 为站点生成“相关页面”工具。我的网站是多语言的,因此我需要一次将 MoreLike
我想在 solr 中找到与特定文档相似的所有文档。我已经安装了 solr 并进行了一些查询。我试图进行的查询给出了一个我无法在互联网上查明或研究的错误。你能给我一些说明吗?我正在使用 solrnet
我想使用 NEST 库在 Elasticsearch 上使用 moreLikeThis 查询,并为每个匹配项提供不同的提升值。 var moreLikeThis = _elastic.Search(s
我正在尝试“升级”this MoreLikeThis example到 Lucene 5.2.1。我能够让它运行,但我不明白方法 like(String fieldName, Reader... re
我目前正在研究 Lucenes MoreLikeThis 的修改版本,以适应我自己的目的。 有一件事我还是不明白。 在创建队列时,MoreLikeThis 会搜索该术语的 docFreq 最高的字段。
从文档中我不清楚这一点。是否可以提供 Solr X 文档 ID 并告诉它我想要类似的文档? 示例: 用户正在浏览 5 篇不同的文章 我向 Solr 发送了这 5 篇文章的 ID,以便我可以向用户展示其
我是一名优秀的程序员,十分优秀!