gpt4 book ai didi

lucene - 在 lucene 4 中,IndexReader.getTermVector(docID, fieldName) 为每个文档返回 null

转载 作者:行者123 更新时间:2023-12-02 04:38:20 25 4
gpt4 key购买 nike

我正在使用新发布的 Lucene 4,并且我了解到与文档术语向量相关的 API 发生了很大变化。我已经通读了迁移文档和相关的各种博客邮件列表帖子,并且我相信我正确使用了 API。但是,我总是从 IndexReader.getTermVector() 返回空的术语引用。这就是我正在做的事情:

// Indexing, given "bodyString" as a String containing document text
Document doc = new Document();
doc.add(new TextField("body", bodyString, Field.Store.YES));
MyIndexWriter.addDocument(doc);


// much later, enumerating document term vectors for "body" field for every doc
for (int i = 0; i < Reader.maxDoc(); ++i) {
final Terms terms = Reader.getTermVector(i, "body");
if (terms != null) {
int numTerms = 0;
// record term occurrences for corpus terms above threshold
term = terms.iterator(term);
while (term.next() != null) {
++numTerms;
}
System.out.println("Document " + i + " had " + numTerms + " terms");
}
else {
System.err.println("Document " + i + " had a null terms vector for body");
}
}

当然,它打印出我的每个文档都有空术语向量,即 Reader.getTermVector(i, "body") 始终返回 null。

当我查看 Luke 中的索引时,我有存储了正文字段的文档。但是,当我单击“TV”按钮(在“文档”选项卡中)并突出显示正文字段时,卢克告诉我“术语向量不可用”。我是否需要添加其他类型的选项来在索引时记录此信息?

有什么想法吗?谢谢!

乔恩

更新我应该注意到,所讨论的 IndexReader 是 SlowCompositeReaderWrapper 的一个实例,它包装了一个 DirectoryReader。我使用 SlowCompositeReaderWrapper 因为我也想要语料库术语频率,并且不清楚如何迭代所有 IndexReader 叶子上的所有文档(文档 ID 是否会在各个叶子之间重复使用)他们?等等)。

SlowCompositeReaderWrapper 是罪魁祸首吗?

最佳答案

根据TextField API它是“一个被索引和标记化的字段,没有术语向量。”如果您想存储 TermVector,则应该使用 Field ,并将其设置为将 TermVector 存储在 FieldType 中.

类似于:

Document doc = new Document();
FieldType type = new FieldType();
type.setIndexed(true);
type.setStored(true);
type.setStoreTermVectors(true);
Field field = new Field("body", bodyString, type);
doc.add(field);
MyIndexWriter.addDocument(doc);

关于lucene - 在 lucene 4 中,IndexReader.getTermVector(docID, fieldName) 为每个文档返回 null,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14363377/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com