java - 无法在 Lucene+Tika 上返回带有重音符号的单词的结果-6ren

java - 无法在 Lucene+Tika 上返回带有重音符号的单词的结果

转载作者：行者123 更新时间：2023-12-01 18:29:44

实现Lucene和 Tika Apache 库包并设法使其能够很好地满足我的需求。但我在单词中遇到重音问题，它无法返回带重音单词的结果。

Indexador.java

package br.com.ir;

import org.apache.log4j.Logger;
import org.apache.lucene.analysis.br.BrazilianAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.SimpleFSDirectory;
import org.apache.lucene.util.Version;
import org.apache.tika.Tika;

import javax.swing.*;
import java.io.File;
import java.io.FilenameFilter;
import java.io.IOException;
import java.text.SimpleDateFormat;

class Indexador {
    private static final Logger logger = Logger.getLogger(Indexador.class);
    private IndexWriter writer;
    private Tika tika;
    private int qntArq = 0;

    public void iniciaIndexacao() {
        try {
            File diretorio = new File(ArquivoDeConfiguracao.retornaValorIndice());

            apagaIndices(diretorio);

            Directory d = new SimpleFSDirectory(diretorio);

            BrazilianAnalyzer analyzer = new BrazilianAnalyzer(Version.LUCENE_4_9);

            IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_9,
                    analyzer);

            writer = new IndexWriter(d, config);

            long inicio = System.currentTimeMillis();
            indexaArquivosDoDiretorio(new File(ArquivoDeConfiguracao.retornaValorFonte()));
            // Fecha o IndexWriter e comita as mudanças
            writer.commit();
            long fim = System.currentTimeMillis();
            JOptionPane.showMessageDialog(
                    null,
                    "Quantidade de arquivos indexados: " + qntArq + "\n"
                            + "Tempo para indexar: "
                            + String.valueOf((fim - inicio) / 1000) + "s"
            );
        } catch (IOException e) {
            logger.error(e);
        } finally {
            if (writer != null) try {
                writer.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    private void apagaIndices(File diretorio) {
        if (diretorio.exists()) {
            File arquivos[] = diretorio.listFiles();
            if (arquivos != null) {
                for (File arquivo : arquivos) {
                    arquivo.delete();
                }
            }
        }
    }

    void indexaArquivosDoDiretorio(File raiz) {
        FilenameFilter filtro = new FilenameFilter() {
            public boolean accept(File arquivo, String nome) {
                return nome.toLowerCase().endsWith(".pdf")
                        || nome.toLowerCase().endsWith(".odt")
                        || nome.toLowerCase().endsWith(".doc")
                        || nome.toLowerCase().endsWith(".docx")
                        || nome.toLowerCase().endsWith(".ppt")
                        || nome.toLowerCase().endsWith(".pptx")
                        || nome.toLowerCase().endsWith(".xls")
                        || nome.toLowerCase().endsWith(".xlsx")
                        || nome.toLowerCase().endsWith(".txt")
                        || nome.toLowerCase().endsWith(".rtf")
                        || nome.toLowerCase().endsWith("");
            }
        };

        for (File arquivo : raiz.listFiles(filtro)) {
            if (arquivo.isFile()) {
                try {
                    String textoExtraido = getTika().parseToString(arquivo);
                    indexaArquivo(arquivo, textoExtraido);
                    qntArq++;
                } catch (Exception e) {
                    logger.error(e);
                }
            } else {
                indexaArquivosDoDiretorio(arquivo);
            }
        }
    }

    private void indexaArquivo(File arquivo, String textoExtraido) {
        SimpleDateFormat formatador = new SimpleDateFormat("ddMMyyyy");

        String ultimaModificacao = formatador.format(arquivo.lastModified());
        Document documento = new Document();
        documento.add(new TextField("UltimaModificacao", ultimaModificacao,
                Field.Store.YES));
        documento.add(new TextField("Caminho", arquivo.getAbsolutePath(),
                Field.Store.YES));
        documento.add(new TextField("Texto", textoExtraido, Field.Store.YES));

        try {
            getWriter().addDocument(documento);
        } catch (IOException e) {
            logger.error(e);
        }
    }

    Tika getTika() {
        if (tika == null) {
            tika = new Tika();
        }
        return tika;
    }

    IndexWriter getWriter() {
        return writer;
    }
}

Buscador.java

package br.com.ir;

import org.apache.log4j.Logger;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.SimpleFSDirectory;
import org.apache.lucene.util.Version;

import javax.swing.*;
import java.io.File;

class Buscador {
    private final static Logger logger = Logger.getLogger(Buscador.class);
    public int totalDeOcorrencias;
    public String quantBusca;

    @SuppressWarnings({"unchecked", "rawtypes"})
    public Buscador(String parametro, DefaultListModel listModel) {
        try {
            Directory diretorio = new SimpleFSDirectory(new File(
                    ArquivoDeConfiguracao.retornaValorIndice()));
            // IndexReader: classe abstrata responsável por acessar
            // o índice;
            IndexReader leitor = DirectoryReader.open(diretorio);
            // IndexSearcher: implementa os métodos necessários para
            // realizar buscas em um índice;
            IndexSearcher buscador = new IndexSearcher(leitor);
            Analyzer analisador = new StandardAnalyzer(Version.LUCENE_4_9);
            // QueryParser/Query: representa a consulta do usuário. Outros
            // exemplos de query podem ser vistos no Javadoc;
            QueryParser parser = new QueryParser(Version.LUCENE_4_9, "Texto",
                    analisador);
            Query consulta = parser.parse(parametro);
            long inicio = System.currentTimeMillis();
            // Realiza a busca e armazena o resultado em um TopDocs;
            TopDocs resultado = buscador.search(consulta, 100);
            long fim = System.currentTimeMillis();
            totalDeOcorrencias = resultado.totalHits;
            quantBusca = String.valueOf((fim - inicio) / 1000);

            // ScoreDoc: representa cada um dos documentos retornados na busca.
            for (ScoreDoc sd : resultado.scoreDocs) {
                Document documento = buscador.doc(sd.doc);
                // Preenche o modelo
                listModel.addElement(documento.get("Caminho"));
            }
            leitor.close();
        } catch (Exception e) {
            logger.error(e);
        }
    }
}

Indexador.java 是在目录中搜索文件并在文件中对其进行索引的类。然后，我使用 Buscador.java 执行搜索，但是当我尝试搜索“plástico”或“coração”等单词(假设有包含这些单词的文件)时，它不会向我返回任何内容。

最佳答案

您在索引时使用 BrazilianAnalyzer ，我认为它对重音单词(以及词干分析器)有一些特定的处理，并且您在以下位置使用 StandardAnalyzer查询时间，没有那些特定于语言的增强功能。

要解决此问题，请使用相同的分析器。可能 BrazilianAnalyzer 是您想要的方式，因此，在 Buscador.java 中，更改为:

Analyzer analisador = new BrazilianAnalyzer(Version.LUCENE_4_9);
QueryParser parser = new QueryParser(Version.LUCENE_4_9, "Texto", analisador);

您通常应该使用相同的分析器、索引和搜索时间(除非您有充分的理由不这样做)。

关于java - 无法在 Lucene+Tika 上返回带有重音符号的单词的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24825662/

文章推荐： java - ArrayList>变量在Java中通过引用复制值？

文章推荐： java - 如何使用 gmail api 查询已发送的邮件？

文章推荐： ios - 基于一对多值的NSPredicate过滤器

文章推荐： java - 流口水正则表达式来匹配非 Alpha

lucene - Lucene 和 Lucene.Net 中的俄语分析器
Lucene 对俄语的支持很差。 RussianAnalyzer(lucene-contrib 的一部分)质量非常低。 Snowball 的 RussianStemmer 模块更糟糕。它不识别 Uni
lucene - Lucene 中的多字段搜索
我需要使用 Lucene 对 Books 数据库进行多字段级别搜索。例如:我的搜索条件类似于: (Author:a1 and title:t1) OR (Author:a2 and title:t
lucene - 在 Lucene/Lucene.net 搜索中，如何计算每个文档的点击次数？
在搜索一堆文档时，我可以轻松找到符合我的搜索条件的文档数量: Hits hits = Searcher.Search(query); int DocumentCount = hits.Length()
lucene - Lucene 索引的空间限制是什么？
我正在向 Lucene 索引添加数十亿行，每行几乎是 6000 字节。可以添加到 Lucene 索引的最大行数是否有限制？ Lucene 索引上 6000 字节的十亿行将占用多少空间。这个尺寸有限制吗
lucene - Lucene 搜索的复杂性
如果我编写使用 Lucene 执行搜索的算法，我该如何说明它的计算复杂度？我知道 Lucene 使用 tf*idf 评分，但我不知道它是如何实现的。我发现 tf*idf 具有以下复杂性: O(|D|+
lucene - 如何搜索特殊字符(+ !\? : ) in Lucene
我想在索引中搜索特殊字符。我转义了查询字符串中的所有特殊字符，但是当我在索引中的 lucene 上执行查询为 + 时，它会创建查询为 +()。因此它不搜索任何字段。如何解决这个问题呢？我的索引包
lucene - Lucene 中的规范是什么
我不明白它们是什么，我真的很感激一个简单的解释，展示它们给世界带来的值(value)，而没有太多关于它们如何工作的实现细节。最佳答案范数是计算分数的一部分。可以根据您的喜好计算标准，真的。使规范与
lucene - Lucene 对文本进行分词的过程
这可以被视为一般 Java 问题，但为了更好地理解，我使用 Lucene 作为示例。您可以在 Lucene 中使用不同的分词器来分词文本。有主要的抽象 Tokenizer 类，然后是许多扩展它的不同
lucene - Lucene 中的多个索引还是单个索引？
我必须索引应该一起搜索的不同类型的数据(文本文档、论坛消息、用户配置文件数据等)(即，单个搜索将返回不同类型数据的结果)。拥有多个索引(每种类型的数据一个)的优缺点是什么？以及对各种数据使用单一索
lucene - Lucene.Net搜索结果突出显示搜索关键字
我使用Lucene.Net为一些文档建立索引。我想向用户展示几行有关为什么该文档出现在结果集中的信息。就像您使用Google进行搜索一样，它会显示链接，然后是链接，其中有几行带有突出显示的关键字。有
lucene - Lucene 中的段是什么？
Lucene 中的段是什么？分段有什么好处？最佳答案 Lucene 索引被分割成更小的 block ，称为段。每个段都有自己的索引。 Lucene 按顺序搜索所有这些。当新的写入器打开以及写入器
lucene - Lucene 是如何工作的
我想了解 lucene 搜索如何运行得如此之快。我在网上找不到任何有用的文档。如果您有任何内容(除了 lucene 源代码)需要阅读，请告诉我。在我的例子中，使用带索引的 mysql5 文本搜索进行
lucene - Lucene 分析器的比较
有人可以解释一下 Lucene 中不同分析器之间的区别吗？我收到 maxClauseCount 异常，我知道可以通过使用 KeywordAnalyzer 来避免这种情况，但我不想在不了解分析器周围问题
lucene - Lucene 查询语言是否可以破解
显然它不能用来破坏索引或破解卡号、密码等(除非有人愚蠢到将卡号或密码放入索引中)。是否有可能因过于复杂的搜索而导致服务器瘫痪？我想我真正需要知道的是我是否可以将用户输入的 Lucene 查询直
lucene - 查找两个文档之间的相似性 Lucene
我已经索引了 400 个文档。然后我想给两个文档和 lucene 返回这两个文档之间的相似度。那可能吗？提前致谢。最佳答案简而言之。计算两个文档向量的余弦。 example code 关于luce
lucene - Lucene 中的文档必须包含相同的字段吗？
我正在考虑/致力于为我们公司的各种内容类型实现一个搜索引擎，并尝试着迷于 Lucene(特别是 .net 风格)。目前，我的主要问题是索引的文档是否必须包含相同的字段。例如: 文档1: 标题:“我
lucene - Lucene 评分问题
我对 Lucene 的评分功能有一个问题，我无法弄清楚。到目前为止，我已经能够编写这段代码来重现它。 package lucenebug; import java.util.Arrays; impor
lucene - Lucene。如何建立术语文档矩阵
我需要建立该矩阵，但找不到用于为每个单元格计算归一化tf-idf的方法。我要执行的归一化是余弦归一化，将tf-idf(使用DefaultSimilarity计算)除以1 / sqrt(列中的sumO
lucene - 在没有针对内容所用语言的分析器的情况下实现 Lucene？
有意义吗？对于我的客户来说，开发克罗地亚语分析器太昂贵了，我没有找到任何现有的分析器...所以我的问题是...我是否告诉他们放弃使用 Lucene 来处理克罗地亚语内容的想法？谢谢! 最佳答案 S
lucene - Lucene 索引多久更新一次？
频繁更新 lucene 索引(每隔几秒)可以吗？更新将同样是添加，更新和搜索将同时发生。最佳答案我将在这个答案前面加上“我只使用过 Java Lucene”，但这应该仍然适用:从一般意义上讲，按照

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 无法在 Lucene+Tika 上返回带有重音符号的单词的结果