java - Lucene:Payloads 和相似性函数 --- 始终相同的 Payload 值-6ren

java - Lucene:Payloads 和相似性函数 --- 始终相同的 Payload 值

转载作者：行者123 更新时间：2023-12-01 12:21:29

概述

我想实现一个 Lucene 索引器/搜索器，它使用新的有效负载功能，允许向文本添加元信息。在我的具体情况下，我向概念标签添加权重(可以理解为 % 概率，介于 0 到 100 之间)，以便使用它们覆盖标准 Lucene TF-IDF 权重。我对此行为感到困惑，我相信我重写的相似性类有问题，但我无法弄清楚。

示例

当我运行搜索查询(例如“concept:red”)时，我发现每个有效负载始终是通过 MyPayloadSimilarity 传递的第一个数字(在代码示例中，这是 1.0)，而不是 1.0、50.0 和 100.0。结果，所有文档都获得相同的有效负载和相同的分数。但是，数据应包含图片 #1，有效负载为 100.0，然后是图片 #2，然后是图片 #3 和非常不同的分数。我听不到我的声音。

以下是运行结果:

Query: concept:red
===>  docid: 0 payload: 1.0
===>  docid: 1 payload: 1.0
===>  docid: 2 payload: 1.0
Number of results:3
-> docid: 3.jpg score: 0.2518424
-> docid: 2.jpg score: 0.2518424
-> docid: 1.jpg score: 0.2518424

出了什么问题？我对有效负载有什么误解吗？

代码

我将我的代码作为一个独立的示例分享，以便您尽可能轻松地运行它(如果您考虑此选项)。

public class PayloadShowcase {

 public static void main(String s[]) {
     PayloadShowcase p = new PayloadShowcase();
     p.run();
 }

public void run () {
    // Step 1: indexing
    MyPayloadIndexer indexer = new MyPayloadIndexer();
    indexer.index();
    // Step 2: searching
    MyPayloadSearcher searcher = new MyPayloadSearcher();
    searcher.search("red");
}

public class MyPayloadAnalyzer extends Analyzer {

    private PayloadEncoder encoder;
    MyPayloadAnalyzer(PayloadEncoder encoder) {
        this.encoder = encoder;
    }

    @Override
    protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
        Tokenizer source = new WhitespaceTokenizer(reader);
        TokenStream filter = new LowerCaseFilter(source);
        filter = new DelimitedPayloadTokenFilter(filter, '|', encoder);
        return new TokenStreamComponents(source, filter);
    }
}

public class MyPayloadIndexer {

    public MyPayloadIndexer() {}

    public void index() {
        try {
            Directory dir = FSDirectory.open(new File("D:/data/indices/sandbox"));
            Analyzer analyzer = new MyPayloadAnalyzer(new FloatEncoder());
            IndexWriterConfig iwconfig = new IndexWriterConfig(Version.LUCENE_4_10_1, analyzer);
            iwconfig.setSimilarity(new MyPayloadSimilarity());
            iwconfig.setOpenMode(IndexWriterConfig.OpenMode.CREATE);

            // load mappings and classifiers
            HashMap<String, String> mappings = this.loadDataMappings();
            HashMap<String, HashMap> cMaps = this.loadData();

            IndexWriter writer = new IndexWriter(dir, iwconfig);
            indexDocuments(writer, mappings, cMaps);
            writer.close();

        } catch (IOException e) {
            System.out.println("Exception while indexing: " + e.getMessage());
        }
    }

    private void indexDocuments(IndexWriter writer, HashMap<String, String> fileMappings, HashMap<String, HashMap> concepts) throws IOException {

        Set fileSet = fileMappings.keySet();
        Iterator<String> iterator = fileSet.iterator();
        while (iterator.hasNext()){
            // unique file information
            String fileID = iterator.next();
            String filePath = fileMappings.get(fileID);
            // create a new, empty document
            Document doc = new Document();
            // path of the indexed file
            Field pathField = new StringField("path", filePath, Field.Store.YES);
            doc.add(pathField);
            // lookup all concept probabilities for this fileID
            Iterator<String> conceptIterator = concepts.keySet().iterator();
            while (conceptIterator.hasNext()){
                String conceptName = conceptIterator.next();
                HashMap conceptMap = concepts.get(conceptName);
                doc.add(new TextField("concept", ("" + conceptName + "|").trim() + (conceptMap.get(fileID) + "").trim(), Field.Store.YES));
            }
            writer.addDocument(doc);
        }
    }

    public HashMap<String, String> loadDataMappings(){
        HashMap<String, String> h = new HashMap<>();
        h.put("1", "1.jpg");
        h.put("2", "2.jpg");
        h.put("3", "3.jpg");
        return h;
    }

    public HashMap<String, HashMap> loadData(){
        HashMap<String, HashMap> h = new HashMap<>();
        HashMap<String, String> green = new HashMap<>();
        green.put("1", "50.0");
        green.put("2", "1.0");
        green.put("3", "100.0");
        HashMap<String, String> red = new HashMap<>();
        red.put("1", "100.0");
        red.put("2", "50.0");
        red.put("3", "1.0");
        HashMap<String, String> blue = new HashMap<>();
        blue.put("1", "1.0");
        blue.put("2", "50.0");
        blue.put("3", "100.0");
        h.put("green", green);
        h.put("red", red);
        h.put("blue", blue);
        return h;
    }
}

class MyPayloadSimilarity extends DefaultSimilarity {

    @Override
    public float scorePayload(int docID, int start, int end, BytesRef payload) {
        float pload = 1.0f;
        if (payload != null) {
            pload = PayloadHelper.decodeFloat(payload.bytes);
        }
        System.out.println("===>  docid: " + docID + " payload: " + pload);
        return pload;
    }
}

public class MyPayloadSearcher {

    public MyPayloadSearcher() {}

    public void search(String queryString) {
        try {
            IndexReader reader = DirectoryReader.open(FSDirectory.open(new File("D:/data/indices/sandbox")));
            IndexSearcher searcher = new IndexSearcher(reader);
            searcher.setSimilarity(new PayloadSimilarity());
            PayloadTermQuery query = new PayloadTermQuery(new Term("concept", queryString),
                    new AveragePayloadFunction());
            System.out.println("Query: " + query.toString());
            TopDocs topDocs = searcher.search(query, 999);
            ScoreDoc[] hits = topDocs.scoreDocs;
            System.out.println("Number of results:" + hits.length);

            // output
            for (int i = 0; i < hits.length; i++) {
                Document doc = searcher.doc(hits[i].doc);
                System.out.println("-> docid: " + doc.get("path") + " score: " + hits[i].score);
            }
            reader.close();

        } catch (Exception e) {
            System.out.println("Exception while searching: " + e.getMessage());
        }
    }
}

}

最佳答案

在 MyPayloadSimilarity 处，PayloadHelper.decodeFloat 调用不正确。在这种情况下，还需要传递 payload.offset 参数，如下所示:

pload = PayloadHelper.decodeFloat(payload.bytes, payload.offset);

希望对您有所帮助。

关于java - Lucene:Payloads 和相似性函数 --- 始终相同的 Payload 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26636284/

文章推荐： java - 有没有更 Eloquent 方式来编程这个方法？

文章推荐： JAVA:如何加密和查看图像

文章推荐： java - 将@Transactional注释添加到 'onMessage'方法中

文章推荐： java - 在 jar 的 list 中指定默认类加载器

lucene - Lucene 和 Lucene.Net 中的俄语分析器
Lucene 对俄语的支持很差。 RussianAnalyzer(lucene-contrib 的一部分)质量非常低。 Snowball 的 RussianStemmer 模块更糟糕。它不识别 Uni
lucene - Lucene 中的多字段搜索
我需要使用 Lucene 对 Books 数据库进行多字段级别搜索。例如:我的搜索条件类似于: (Author:a1 and title:t1) OR (Author:a2 and title:t
lucene - 在 Lucene/Lucene.net 搜索中，如何计算每个文档的点击次数？
在搜索一堆文档时，我可以轻松找到符合我的搜索条件的文档数量: Hits hits = Searcher.Search(query); int DocumentCount = hits.Length()
lucene - Lucene 索引的空间限制是什么？
我正在向 Lucene 索引添加数十亿行，每行几乎是 6000 字节。可以添加到 Lucene 索引的最大行数是否有限制？ Lucene 索引上 6000 字节的十亿行将占用多少空间。这个尺寸有限制吗
lucene - Lucene 搜索的复杂性
如果我编写使用 Lucene 执行搜索的算法，我该如何说明它的计算复杂度？我知道 Lucene 使用 tf*idf 评分，但我不知道它是如何实现的。我发现 tf*idf 具有以下复杂性: O(|D|+
lucene - 如何搜索特殊字符(+ !\? : ) in Lucene
我想在索引中搜索特殊字符。我转义了查询字符串中的所有特殊字符，但是当我在索引中的 lucene 上执行查询为 + 时，它会创建查询为 +()。因此它不搜索任何字段。如何解决这个问题呢？我的索引包
lucene - Lucene 中的规范是什么
我不明白它们是什么，我真的很感激一个简单的解释，展示它们给世界带来的值(value)，而没有太多关于它们如何工作的实现细节。最佳答案范数是计算分数的一部分。可以根据您的喜好计算标准，真的。使规范与
lucene - Lucene 对文本进行分词的过程
这可以被视为一般 Java 问题，但为了更好地理解，我使用 Lucene 作为示例。您可以在 Lucene 中使用不同的分词器来分词文本。有主要的抽象 Tokenizer 类，然后是许多扩展它的不同
lucene - Lucene 中的多个索引还是单个索引？
我必须索引应该一起搜索的不同类型的数据(文本文档、论坛消息、用户配置文件数据等)(即，单个搜索将返回不同类型数据的结果)。拥有多个索引(每种类型的数据一个)的优缺点是什么？以及对各种数据使用单一索
lucene - Lucene.Net搜索结果突出显示搜索关键字
我使用Lucene.Net为一些文档建立索引。我想向用户展示几行有关为什么该文档出现在结果集中的信息。就像您使用Google进行搜索一样，它会显示链接，然后是链接，其中有几行带有突出显示的关键字。有
lucene - Lucene 中的段是什么？
Lucene 中的段是什么？分段有什么好处？最佳答案 Lucene 索引被分割成更小的 block ，称为段。每个段都有自己的索引。 Lucene 按顺序搜索所有这些。当新的写入器打开以及写入器
lucene - Lucene 是如何工作的
我想了解 lucene 搜索如何运行得如此之快。我在网上找不到任何有用的文档。如果您有任何内容(除了 lucene 源代码)需要阅读，请告诉我。在我的例子中，使用带索引的 mysql5 文本搜索进行
lucene - Lucene 分析器的比较
有人可以解释一下 Lucene 中不同分析器之间的区别吗？我收到 maxClauseCount 异常，我知道可以通过使用 KeywordAnalyzer 来避免这种情况，但我不想在不了解分析器周围问题
lucene - Lucene 查询语言是否可以破解
显然它不能用来破坏索引或破解卡号、密码等(除非有人愚蠢到将卡号或密码放入索引中)。是否有可能因过于复杂的搜索而导致服务器瘫痪？我想我真正需要知道的是我是否可以将用户输入的 Lucene 查询直
lucene - 查找两个文档之间的相似性 Lucene
我已经索引了 400 个文档。然后我想给两个文档和 lucene 返回这两个文档之间的相似度。那可能吗？提前致谢。最佳答案简而言之。计算两个文档向量的余弦。 example code 关于luce
lucene - Lucene 中的文档必须包含相同的字段吗？
我正在考虑/致力于为我们公司的各种内容类型实现一个搜索引擎，并尝试着迷于 Lucene(特别是 .net 风格)。目前，我的主要问题是索引的文档是否必须包含相同的字段。例如: 文档1: 标题:“我
lucene - Lucene 评分问题
我对 Lucene 的评分功能有一个问题，我无法弄清楚。到目前为止，我已经能够编写这段代码来重现它。 package lucenebug; import java.util.Arrays; impor
lucene - Lucene。如何建立术语文档矩阵
我需要建立该矩阵，但找不到用于为每个单元格计算归一化tf-idf的方法。我要执行的归一化是余弦归一化，将tf-idf(使用DefaultSimilarity计算)除以1 / sqrt(列中的sumO
lucene - 在没有针对内容所用语言的分析器的情况下实现 Lucene？
有意义吗？对于我的客户来说，开发克罗地亚语分析器太昂贵了，我没有找到任何现有的分析器...所以我的问题是...我是否告诉他们放弃使用 Lucene 来处理克罗地亚语内容的想法？谢谢! 最佳答案 S
lucene - Lucene 索引多久更新一次？
频繁更新 lucene 索引(每隔几秒)可以吗？更新将同样是添加，更新和搜索将同时发生。最佳答案我将在这个答案前面加上“我只使用过 Java Lucene”，但这应该仍然适用:从一般意义上讲，按照

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Lucene:Payloads 和相似性函数 --- 始终相同的 Payload 值