java - Lucene 8.5.1 中 IndexReader.getTermVector(int docID ,String field) 中的 docID 是什么以及它是如何工作的？-6ren

java - Lucene 8.5.1 中 IndexReader.getTermVector(int docID ,String field) 中的 docID 是什么以及它是如何工作的？

转载作者：行者123 更新时间：2023-12-01 16:14:35

25

4

我正在尝试从 Lucene 的文档字段中获取所有名为 Terms 的术语和相关帖子(即如何计算 Lucene 中的术语频率？)。根据documentation有一种方法可以做到这一点:

公共(public)最终术语 getTermVector(int docID, String field) 抛出 IOException

Retrieve term vector for this document and field, or null if term vectors were not indexed. The returned Fields instance acts like a single-document inverted index (the docID will be 0).

有一个名为int docID的字段。这是什么？？对于给定的文档，它的 id 字段是什么？Lucene 如何识别它？根据Lucene的文档，我使用了StringField作为id，它不是int。

import org.apache.lucene.document.*;
Document doc = new Document();
Field idField = new StringField("id",post.Id,Field.Store.YES);
Field bodyField = new TextField("body", post.Body, Field.Store.YES);
doc.add(idField);
doc.add(bodyField);

我有五个问题:

Lucene 如何识别 id 字段用作此文档的 docId？甚至 Lucene 是否这样做？？
我使用String作为id，但这个方法给出了int。它会引起问题吗？
有没有合适的方法来获取帖子？
我使用了 TextField 。有没有办法检索该字段的术语 vector (Terms)？我不想按照解释重新索引我的文档 here ，因为它太大(35 GB)。
有没有办法从 TextField 获取术语计数并获取每个术语频率？

最佳答案

要计算术语频率，我们可以使用IndexReader.getTermVector(int docID ,String field)。 int docID 是一个字段，引用 Lucene 创建的文档 ID。您可以通过以下代码检索docID:

String index = "index/AIndex/";
String query = "the query text"

IndexReader reader = DirectoryReader.open(FSDirectory.open(Paths.get(index)));
IndexSearcher searcher = new IndexSearcher(reader);
Analyzer analyzer = new StandardAnalyzer();

QueryParser parser = new QueryParser("docField", analyzer);
Query lQuery = parser.parse(query);

]TopDocs results = searcher.search(lQuery ,  requiredHits);
ScoreDoc[] hits = results.scoreDocs;
int numTotalHits = (int) results.totalHits.value;

for (int i = start; i < numTotalHits; i++)
 {
   int docID = hits[i].doc;
   Terms termVector = reader.getTermVector(docID, "docField");
 }

每个 termVector 对象都具有与文档字段相关的术语和频率，您可以通过以下代码检索它:

private HashMap<String,Long> termsFrequency = new HashMap<>();
TermsEnum itr = termVector.iterator();
int allTermFrequency=0;
BytesRef term;

while ((term = itr.next()) != null){
  String termText = term.utf8ToString();
  long tf = itr.totalTermFreq();
  termsFrequency.put(termText, tf);
  allTermFrequency += itr.totalTermFreq();
}

注意:不要忘记按照我的解释设置存储术语 vector here (或 this one )当您索引文档时。如果您索引文档时未设置存储术语 vector ，则 getTermVector 方法将返回 null。默认情况下，所有类型的预定义 Lucene Field 都禁用此选项。所以你需要设置它。

关于java - Lucene 8.5.1 中 IndexReader.getTermVector(int docID ,String field) 中的 docID 是什么以及它是如何工作的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62439577/

25

4

0

文章推荐： excel - 将列号转换为字母的函数？

文章推荐： ios - 无法接收 iOS 的 FCM 推送通知

文章推荐： excel - VBA中如何获取当前工作表的路径？

文章推荐： Django 管理员颜色

c# - "_field = field;"与 "this.field = field"的趋势
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 5 年前。 Improve
PHP/MySQL : How can I calculate value of field + other field + other field
我有一个 mysql 表，其中包含一个名为“id”、“name”和“number”的字段。每一行的字段'number'，都有一个数字。 id name number 1 test 30
java - JPA - 语法错误解析 SELECT GREATEST(c.field, mc.field), LEAST(c.field, mc.field) FROM table
我需要获得两个字段之间的最大和最小值。我将 JPA 2.1 与 EclipsLink 结合使用。这是我的简化查询: SELECT GREATEST(c.min, mc.max), LEAST(c.m
MySQL WHERE 子句 Table1.field AND Table2.field AND Table3.field 等于相同值以避免冗余
我想知道是否可以询问具有相同字段名称的多个表，并且只写入一次询问的值。可能是为了避免裁员。例如: SELECT * FROM table WHERE Table1.Status AND Ta
mysql - if field=1 删除 else update field=(field-1)
我想知道如何以负增量更新字段，但如果新值小于 1，则删除该行？是否可以在 case 或 if/else block 中放置和更新语句？目前我正在执行一个 select 语句来获取当前值，然后使用
field - Field SenchaTouch 上的只读属性
嗨，我一直在寻找 secnhatouch 字段的 readOnly 属性，但没有找到它......有人可以帮助我解决这个问题吗 { xtype: 'textfield
sql-server-2005 - IIF(IsNothing(Fields!field.value), "", Fields!.value.ToString)) 生成错误
SQL Server 2005 报告服务。我想在报告文本框中使用以下内容: =IIF(IsNothing(Fields!Certification.Value), "", "Certs: "
MySQL Group by a field based on another field maximum value of another field IN THE GROUP(不在表中)
考虑下表: un_id avl_id avl_date avl_status 1738 6377398 2011-03-10 unavailable 1738 6377399
java - 最佳实践 : Save Empty Fields as null or omit Field Completely and Manage Missing Fields in Code?
鉴于集合将包含 50 多万份文档，每个文档都有最大数量的字段(如选项 a 所示)处理可能为空/稀疏的字段的最佳实践是什么？ a)将每个具有相同字段和空字段的文档保存为 null 是否更好？ { "
php - apiato - 教程示例 : Invalid Input (The email field is required; The password field is required; The name field is required)
尝试开始使用 apioto http://apiato.io/A.getting-started/installation/ 如果我尝试测试 http://api.apiato.dev/registe
Thymeleaf - :field ="${}" and th:field ="*{}" 之间的区别
我在教程中找不到这两个指令之间的区别。 th:field="${something}"和 th:field="*{something}" 谁能告诉我一些例子？最佳答案 Reference site
mongodb - 哪个更适合Mongo : empty field or no field at all?
在 MongoDb 中 - 如果我的字段并不总是包含值 - 更好的做法是:在所有记录中保留相同的字段，即使有时这些字段为空或根本不创建这些字段？ 10 倍! 最佳答案字段会占用键的磁盘空间，即使没有
django - 工厂男孩 : define field that depends on other field
如何使用 factory-boy 定义依赖于其他字段的字段? 例如，我想定义一个 email这取决于 first name和 last name的 User . 我尝试使用 post_generati
jquery表单验证插件: field 1 not equal to field 2
嘿嘿，我遇到了以下问题:我尝试阻止用户为“用户名”和“电子邮件”字段选择相同的值。我正在使用 jquery 表单验证插件 (http://bassistance.de/jquery-plugins/
sql - SQL where field vs.where field =具有多个ors？
在性能方面，哪个更适合使用？ ...关于可读性/可理解性？ ...关于公认的标准？ SELECT * FROM Wherever WHERE Greeting IN ('hello', 'hi', '
java - 访问父类字段 "this.field"VS "super.field"
我想知道使用 this 和 super 访问父类字段的区别。我们有以下名为 ListItem 的抽象类，它扩展了 Node 类。 public abstract class ListItem {
c++ - this->field 与 C++ 中的 this.field
假设 this 是一个指针，(2) 和 (3) 行如何在下面的 C++ 类中编译，所以应该需要 -> 符号来访问字段(如 (1) 行所示)？ ( Source ) #include #include
java - Java中 "field"和 "this.field"的区别
我想更好地理解通过单独使用 this.field 和 field 来引用类字段有什么区别 this.integerField = 5; 和 integerField = 5; 最佳答案 this 关键
MySQL:SELECT EXISTS() AS field WHERE field = x
问题:我有一张库存表，还有一张列出正在拍卖的元素的表格。我想要一个别名字段(“isAuction”)来表示具有库存库存编号的项目是否存在于拍卖项目表中。我写了以下查询: SELECT FROM in
elasticsearch - field 和 field.keyword 的区别
如果我将包含多个字段的文档添加到 Elasticsearch 索引，当我在 Kibana 中查看它时，我每次都会得到相同的字段两次。其中之一将被称为 some_field 另一个将被调用 some_f

首页

博学

6Ren·AI

商城

java - Lucene 8.5.1 中 IndexReader.getTermVector(int docID ,String field) 中的 docID 是什么以及它是如何工作的？