java - 在lucene中计算匹配字符串百分比-6ren

java - 在lucene中计算匹配字符串百分比

转载作者：行者123 更新时间：2023-11-30 06:57:20

25

4

我在我的 java 应用程序中使用了 Lucene 算法从索引中找出匹配的字符串。我已经从所有命中中取出前 5 个顶级文档，但我想检查或计算原始字符串和匹配字符串的匹配存在。在 Lucene 中有可能吗？Lucene有什么方法可以找出来吗？例如:-

    original string = I am good.

    matching string = am good.

    % of matching = 95

最佳答案

当你说匹配百分比时，你是什么意思？如果您想知道结果文档中包含多少个原始文本单词(例如，在您的案例中是 3 个单词中的 2 个单词)那么你可以使用 term vectors要完成工作，获取字段和文档的术语 vector 并迭代术语并查看您要查找的内容中是否有术语。或者甚至您可以存储字符串并获取全部内容并进行数学计算(如果存储不是问题)。当前的 lucene 使用 vector space model (将从版本 6x 更改为 BM25)用于计算分数并通过 ScroeDoc 为您提供匹配分数但是 score doc 给出了十进制值，如果足够则使用它。

如果这不能回答问题，请提供有关如何使用样本进行计算的更多详细信息。

希望这对您有所帮助。

PS，我写了一个简单的脚本，所以你可以根据自己的需要查看和修改它:

package org.query;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.tokenattributes.TermToBytesRefAttribute;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.index.*;
import org.apache.lucene.search.*;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.BytesRef;
import org.junit.Before;
import org.junit.Test;

import java.util.HashSet;
import java.util.Set;

/**
 * Created by ekamolid on 11/2/2015.
 */
public class LevenshteinTest {
    private RAMDirectory directory;
    private IndexSearcher searcher;
    private IndexReader reader;
    private Analyzer analyzer;

    @Before
    public void setUp() throws Exception {
        directory = new RAMDirectory();

        analyzer = new WhitespaceAnalyzer();
        IndexWriter writer = new IndexWriter(directory, new IndexWriterConfig(analyzer));

        Document doc = new Document();
        FieldType fieldType = new FieldType();
        fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS);
        fieldType.setStoreTermVectors(true);
        doc.add(new Field("f", "the quick brown fox jumps over the lazy dog", fieldType));
        writer.addDocument(doc);

        doc = new Document();
        doc.add(new Field("f", "the quick red fox jumps over the sleepy cat", fieldType));
        writer.addDocument(doc);

        doc = new Document();
        doc.add(new Field("f", "quiick caar went xyztz dog", fieldType));
        writer.addDocument(doc);

        writer.close();

        reader = DirectoryReader.open(directory);
        searcher = new IndexSearcher(reader);
    }

    public static int distance(String a, String b) { //code is taken from http://rosettacode.org/wiki/Levenshtein_distance#Java
        a = a.toLowerCase();
        b = b.toLowerCase();
        // i == 0
        int[] costs = new int[b.length() + 1];
        for (int j = 0; j < costs.length; j++)
            costs[j] = j;
        for (int i = 1; i <= a.length(); i++) {
            // j == 0; nw = lev(i - 1, j)
            costs[0] = i;
            int nw = i - 1;
            for (int j = 1; j <= b.length(); j++) {
                int cj = Math.min(1 + Math.min(costs[j], costs[j - 1]), a.charAt(i - 1) == b.charAt(j - 1) ? nw : nw + 1);
                nw = costs[j];
                costs[j] = cj;
            }
        }
        return costs[b.length()];
    }


    @Test
    public void test1() throws Exception {
        String s = "quick caar dog";
        TokenStream tokenStream = analyzer.tokenStream("abc", s);
        TermToBytesRefAttribute termAttribute = tokenStream.getAttribute(TermToBytesRefAttribute.class);
        Set<String> stringSet = new HashSet<>();
        tokenStream.reset();
        BooleanQuery.Builder builder = new BooleanQuery.Builder();
        while (tokenStream.incrementToken()) {
            stringSet.add(termAttribute.getBytesRef().utf8ToString());
            Query query = new FuzzyQuery(new Term("f", termAttribute.getBytesRef().utf8ToString()), 2); //search only 2 edits
            builder.add(query, BooleanClause.Occur.SHOULD);
        }
        TopDocs hits = searcher.search(builder.build(), 10);
        int exactMatch = 0;
        int match1 = 0;
        int match2 = 0;
        for (ScoreDoc scoreDoc : hits.scoreDocs) {
            exactMatch = match1 = match2 = 0;
            Terms terms = reader.getTermVector(scoreDoc.doc, "f");
            TermsEnum termsEnum = terms.iterator();
            while (true) {
                BytesRef bytesRef = termsEnum.next();
                if (bytesRef == null) {
                    break;
                }
                String str = bytesRef.utf8ToString();
                if (stringSet.contains(str)) {
                    exactMatch++;
                    continue;
                }
                for (String s1 : stringSet) {
                    int distance = distance(s1, str);
                    if (distance <= 1) {
                        match1++;
                    } else if (distance <= 2) {
                        match2++;
                    }
                }
            }
            System.out.print(" doc=" + scoreDoc.doc);
            System.out.print(" exactMatch=" + exactMatch);
            System.out.print(" match1=" + match1);
            System.out.println(" match2=" + match1);
        }
    }
}

我得到的输出是:

 doc=2 exactMatch=2 match1=1 match2=1
 doc=1 exactMatch=1 match1=0 match2=0
 doc=0 exactMatch=2 match1=0 match2=0

这是工作代码，它告诉我们有多少字符是完全匹配的，有多少是 1 个字符差异和 2 个字符差异。所以你可以把你的登录名放在那里，根据你手头的数字计算百分比。这可能会慢一些，因为您正在遍历文档，但您应该将结果限制为特定数字(示例中的 10)，这样它就不会慢了。

关于java - 在lucene中计算匹配字符串百分比，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33522280/

25

4

0

文章推荐： java - 数组中的重复字符

文章推荐：找不到 Javascript 函数

文章推荐： java - Json反序列化为URL(拦截)

服务器端的 Firebird 计算(计算)字段
SQL 和一般开发的新手，我有一个表(COUNTRIES)，其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
jquery - 计算(百分比)计算(像素)
我想使用 calc(100%-100px)，但在我的 demo 中不起作用由于高度只接受像素，因此如何将此百分比值转换为像素。最佳答案以下将为您提供高度: $(window).height();
MySql 计算
我正在尝试在 MySQL 中添加列并动态填充其他列。例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列，这些总数应填充在第 4 列中最佳答案除非我误解了你的问题，否则你不只是在寻找:
mysql - 计算
我想返回简单计算的结果，但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
嵌套for循环中的c++计算
我一直在尝试做这个程序，但我被卡住了，我仍然是一个初学者，任何帮助将不胜感激。我需要程序来做打印一个 10 X 10 的表格，其中表格中的每个条目都是行号和列号的总和包含一个累加器，用于计算所有表
c - 计算
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
计算 AND 的算法
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间，不能使用 XOR、OR、AND 运算。具体来说，
Excel - 在数字格式中使用公式/计算
如何在 Excel 中将公式放入自定义数字格式？例如(出于说明目的随机示例)，假设我有以下数据: 输入输出在不编辑单元格中的实际数据的情况下，我想显示单元格中的值除以 2，并保留两位小数: 有没
Flutter:隔离内存泄漏(计算)
每次我在 Flutter 应用程序中调用计算()时，我都会看到内存泄漏，据我所知，这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。我已将我的代码简化为仅调
R中的RMSE(均方根偏差)计算
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
计算 C 文件中未知数量的字符
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
sql - 计算/派生连续日期跨度中的第一个开始日期
我正在使用 Postgres，并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
jquery - 计算，用逗号替换点
我有一个订单表格，我在其中使用 jQuery 计算插件来汇总总数。此求和工作正常，但生成的“总和”存在问题。总之，我希望用逗号替换任何点。代码的基础是； function ($this) {
Delphi错误的 double 计算
我在使用 double 变量计算简单算术方程时遇到问题。我有一个具有 double 属性 Value 的组件，我将此属性设置为 100。然后我做一个简单的减法来检查这个值是否真的是 100: va
openssl CRC32 计算
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意，因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持？我已经在为 SHA1 使用 openssl，
php - 计算-1个月时的PHP天错误
当我在PHP日期计算中遇到问题时，我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
持有变量的 JavaScript 计算
我正在使用 javascript 进行练习，我编写了这个脚本来计算 2 个变量的总和，然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
audio - sample 计算
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。我正在尝试制作一些python脚本来播放文件，因为我需要能够设置在flac文件中开始的位置。如何从CueSheet格式MM:SS:FF转
javascript - 计算 for 循环中输入值的总和
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。我有一个
使用输入和跨度字段的 Javascript 计算
4000 我需要上面字段 name="quantity" 和 id="price" 中的值，并使用 javascript 函数进行计算，并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总

首页

博学

6Ren·AI

商城

java - 在lucene中计算匹配字符串百分比