indexing - Apache Lucene 8.4.1 如何获取索引字段和术语列表？-6ren

indexing - Apache Lucene 8.4.1 如何获取索引字段和术语列表？

转载作者：行者123 更新时间：2023-12-05 06:20:33

我是 Apache Lucene 的新手，我正在使用 Apache Lucene 8.4.1，我可以进行 Lucene 索引和搜索，但不知道如何使用 java 读取和列出索引/打印索引。如何获取索引字段和术语列表？ .

我能够通过使用从其他 Stackoverflow 文章中获取的以下函数来获取 Fileds 列表。

public static String[] getFieldNames(IndexReader reader) {
    List<String> fieldNames = new ArrayList<String>();
    //For a simple reader over only one index, reader.leaves() should only  return one LeafReaderContext
    for (LeafReaderContext readerCtx : reader.leaves()) {
        FieldInfos fields = readerCtx.reader().getFieldInfos();
        for (FieldInfo field : fields) {
            //Check whether the field is indexed and searchable, perhaps?
            fieldNames.add(field.name);            
        }
    }
    return fieldNames.toArray(new String[fieldNames.size()]); 
}

谢谢

最佳答案

package com.lucene.ram;

import java.io.IOException;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.IndexWriterConfig.OpenMode;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.RAMDirectory;

/**
 * 
 * @author W.P.Roshan
 * @email  sunone5 at gmail.com
 * 
 * The RAMDirector is deprecated instead you can use 
 * 
 * import org.apache.lucene.index.memory.MemoryIndex;
 *
 */

public class RAMDirectoryExample {

    public RAMDirectoryExample() {
        // TODO Auto-generated constructor stub
    }

    static void writeIndex(RAMDirectory ramDir, Analyzer analyzer) {
        try {
            // IndexWriter Configuration
            IndexWriterConfig iwc = new IndexWriterConfig(analyzer);
            iwc.setOpenMode(OpenMode.CREATE);

            // IndexWriter writes new index files to the directory
            IndexWriter writer = new IndexWriter(ramDir, iwc);

            // Create some docs with name and content
            indexDoc(writer, "document-1", "hello world");
            indexDoc(writer, "document-2", "hello happy world");
            indexDoc(writer, "document-3", "hello happy world");
            indexDoc(writer, "document-4", "hello hello world");

            // don't forget to close the writer
            writer.close();
        } catch (IOException e) {
            // Any error goes here
            e.printStackTrace();
        }
    }

    static void indexDoc(IndexWriter writer, String name, String content) throws IOException {
        Document doc = new Document();
        doc.add(new TextField("name", name, Store.YES));
        doc.add(new TextField("content", content, Store.YES));
        writer.addDocument(doc);
    }

    static void searchIndex(RAMDirectory ramDir, Analyzer analyzer) {
        IndexReader reader = null;
        try {
            // Create Reader
            reader = DirectoryReader.open(ramDir);

            // Create index searcher
            IndexSearcher searcher = new IndexSearcher(reader);

            // Build query
            QueryParser qp = new QueryParser("content", analyzer);
            Query query = qp.parse("happy");

            // Search the index
            TopDocs foundDocs = searcher.search(query, 10);

            // Total found documents
            System.out.println("Total Results :: " + foundDocs.totalHits);

            // Let's print found doc names and their content along with score
            for (ScoreDoc sd : foundDocs.scoreDocs) {
                Document d = searcher.doc(sd.doc);
                System.out.println("Document Number : " + sd.doc + " :: Document Name : " + d.get("name")
                        + "  :: Content : " + d.get("content") + "  :: Score : " + sd.score);
            }
            System.out.println("");

            // don't forget to close the reader
            reader.close();
        } catch (IOException e) {
            // Any error goes here
            e.printStackTrace();
        } catch (ParseException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    static void readIndex_Get_Documents(RAMDirectory ramDir) {
        IndexReader reader = null;
        try {
            // Create Reader
            reader = DirectoryReader.open(ramDir);

            // Create index searcher
            IndexSearcher searcher = new IndexSearcher(reader);

            System.out.println("-----------------------Document List-----------------------");
            int maxDoc = reader.maxDoc();
            for (int i = 0; i < maxDoc; i++) {
                Document d = reader.document(i);

                /**
                 * There are three types of method to retrieve indexed document name list
                 */

                /**
                 * Method 1 for get document name list
                 */
                // System.out.println(""+d.getFields().iterator().next().stringValue());

                /**
                 * Method 2 for get document name list
                 */
                // System.out.println(""+d.iterator().next().stringValue());

                /**
                 * Method 3 for get document name list
                 */
                String[] vls = d.getValues("name");
                for (int j = 0; j < vls.length; j++) {
                    System.out.println("" + vls[j].toString());
                }
            }

            // don't forget to close the reader
            reader.close();
        } catch (IOException e) {
            // Any error goes here
            e.printStackTrace();
        }
    }

    static void readIndex_Get_Terms(RAMDirectory ramDir) {
        IndexReader reader = null;
        try {
            // Create Reader
            reader = DirectoryReader.open(ramDir);

            // Create index searcher
            IndexSearcher searcher = new IndexSearcher(reader);

            System.out.println("");
            System.out.println("--------------------------Term List------------------------");
            int maxDoc = reader.maxDoc();
            for (int i = 0; i < maxDoc; i++) {
                Document d = reader.document(i);

                /**
                 * There are three types of methods to retrieve indexed term list
                 */

                /**
                 * Method 1 for retrieve terms list
                 */
                // System.out.println(""+d.get("content").toString());

                /**
                 * Method 2 for retrieve terms list
                 */
                // System.out.println(""+d.getField("content").stringValue());

                /**
                 * Method 3 for retrieve terms list
                 */
                String[] vl = searcher.doc(i).getValues("content");
                for (int k = 0; k < vl.length; k++) {
                    System.out.println("" + vl[k].toString());
                }
            }
            // don't forget to close the reader
            reader.close();
        } catch (IOException e) {
            // Any error goes here
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {
        // Create RAMDirectory instance
        RAMDirectory ramDir = new RAMDirectory();

        // Builds an analyzer with the default stop words
        Analyzer analyzer = new StandardAnalyzer();

        // Write some docs to RAMDirectory
        writeIndex(ramDir, analyzer);

        // Search indexed docs in RAMDirectory
        searchIndex(ramDir, analyzer);

        // read Index get indexed document list
        readIndex_Get_Documents(ramDir);

        // read Index get indexed terms list
        readIndex_Get_Terms(ramDir);
    }

}

我找到了列出文档和术语列表的方法。完整的示例将在 git-hub 上提供，供任何人引用。 https://github.com/sunone5/lucene-ramdirectory-index

关于indexing - Apache Lucene 8.4.1 如何获取索引字段和术语列表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60371411/

文章推荐： python - Torch.sort 和 argsort 在相同元素的情况下随机排序

文章推荐： python - 如何使用 if - elif - else 检查元素是否存在

文章推荐： postgresql - AWS DMS CDC 任务不检测列名称和类型更改

drupal - 页面管理器模块无法启用分类/术语/%术语，因为其他一些模块已被覆盖
我正在使用 drupal 6.20 以及一些模块，包括面板、 View 和其他一些模块.. 问题是，每当我尝试启用面板提供的分类法覆盖页面时，我都会收到此错误，我修改了它等等，我似乎找不到一种方法来启
java - 术语:实例变量的单字 Java 术语？
我正在寻找在类(非静态)中声明的实例变量的替代 OO/Java 术语，或者更具体地说，在用 JPA 注释“装饰”的 Java 类中声明的实例变量: @Entity @Table(name = "Dep
LISP 术语
字母“t”在 LISP 中是什么意思？例如: (defun last2 (lst) (cond ((null lst) nil) ((null (cdr lst)) (car l
Java 术语
我是 Java 的新手，想了解更多。我有一个当前问题想要得到解答，但我也想知道该技术指的是什么，以便我可以做一些进一步的阅读。我目前有这样的东西: public class BasicActivit
HTML 术语
是否有针对 HTML 标签的术语来区分哪些应该有结束标签，哪些不应该？例如，和应该有伴随和标签。另一方面，和不应该。第一组叫什么，第二组叫什么？最佳答案我相信是一个“空元素”，而不
c# - 术语 - 在不同的命名空间中声明方法是否算作重载
基本上，问题已经总结在标题中。如果我们在不同的命名空间中有两个具有相同签名(即相同的名称、参数类型和顺序、泛型类型参数编号)的方法/函数，这算不算重载？这是一个 C# 问题，但我很想为不同的 OOP
oop - 术语:类和组件有什么区别？
在 OO 范式中，我们选择使用类，因为它们可以帮助我们分解系统，并提供很好的附带好处，例如封装、职责分离、继承、模块化等。如果我们在组件级别查看软件系统，我们是否可以简单地以相同的概念方式对待组件，
GitHub:术语:创建拉取请求与打开拉取请求
创建拉取请求和打开拉取请求之间有区别吗？创建拉取请求的一些短语示例: 创建一个拉取请求以提议和协作对存储库的更改。您可以在创建拉取请求时指定要将更改合并到哪个分支。要创建草稿拉取请求，请使用下拉
powershell - 术语 'X'无法识别为cmdlet的名称
我发现this script可以循环遍历.csv文件并将它们组合成一个Excel工作表。然后，我创建了第二个脚本，以如下方式调用该脚本: echo "Combining .csv files into
可变作用域的 JavaScript 术语
我忘记了 javascript 中用来描述特定现象的术语。它与内联函数中访问变量的方式有关。我也不太明白这个理论。我依稀记得下面的代码 for(var c = 0; c< 10; c++) { a
java - 如何清除标准输入(术语)
如何清除Java中的标准输入(术语)？一点历史:我正在编写一个“反射”程序，算法非常简单: wait a random amount of time print "press enter" read
javascript - 是否有调用所有同名实例方法的静态方法的名称/术语？
给定以下代码，是否存在一个静态方法的名称/术语，它为每个现有实例调用同名的实例方法？这是任何编程语言的常见做法吗？用例是能够进行一个函数调用并确保所有实例都受到影响，而无需为该方法复制代码。注意
javascript - (术语)如何在变量中引用变量？
这个问题在这里已经有了答案: Accessing nested JavaScript objects and arrays by string path (44 个答案) 关闭 6 年前。我需要澄
java - 如何在Java中读取一行的第一个元素/术语？
我的目标是从给定的输入文件中读取每行的第一个元素/术语，然后根据第一个元素是什么来决定要做什么(使用 if-else 构造)。 IE。如果第一个元素/单词恰好是“the”(如下面的代码中所述)，那么我
用于区分运行时类型和编译时类型的 Java 术语
在 Java 中，对象可以有一个运行时类型(这是它创建时的类型)和一个转换类型(您将其转换为的类型)。我想知道这些类型的正确名称是什么。例如 class A { } class B extends
python - 术语:用户定义的函数对象属性？
根据 Python 2.7.12 文档，User-defined methods : User-defined method objects may be created when getting a
javascript - 术语:制表符是不间断空格吗？
据我所知，nbsp(不间断空格)是这样的:。但制表符 (\t) 也是不间断空格，对吗？我的意思是它不会创建新行。如果上述所有内容都是正确的，那么如何调用可以包含或 \t 的变量？像 tabOrNb
Javascript 术语 - 工作表是对象吗？
我使用 GAS 已经有一段时间了，但没有很强的 Javascript 背景，并且在忽略大小写的情况下按字母顺序对工作表进行排序时遇到了问题。我做了一些搜索，并根据 SO 中的其他公开答案和其他一些来源
c - 术语 : what's a pointer?
我是初学者，我在编程中发现了术语指针的几种定义。我想知道哪一个是正确的(也许两个都是)？ a - 指针是保存内存地址的变量。鉴于此定义，在以下代码 char *msg; 中，我们可以说变量 msg 是
Git:Rebase 术语
给定以下分支 A---B---C topic (HEAD) / D---E---F---G master 并运行命令 git rebase master 这是否意味着，我们是将 t

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

indexing - Apache Lucene 8.4.1 如何获取索引字段和术语列表？