java - 在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用-6ren

java - 在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用

转载作者：行者123 更新时间：2023-12-01 12:08:16

24

4

我在索引 PDF 时遇到问题，因此 Hibernate 搜索的全文搜索功能也出现问题。我正在尝试索引大约 3750 个对象。每个对象都有几个字段，包括 2 个我想要索引的字符串:

@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "ANZEIGENAME")
private String anzeigeName;                     //  VARCHAR2(250),  
@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "BESCHREIBUNG")
private String beschreibung;                //  VARCHAR2(512),

还有一个字节 [ ] 字段，我想为这些 PDF 上的全文搜索建立索引

@Field(index = Index.TOKENIZED, store = Store.YES)
@FieldBridge(impl = FieldBridgeConverter.class)
@Lob
@Column(name = "PDFDATA")
private byte[] pdfData;     //  BLOB;

这就是我的 PDF FieldBridge 的样子

public class FieldBridgeConverter implements StringBridge {    
        public String objectToString(final Object object) {    
            byte[] file = (byte[]) object;   
            return file.toString();
        }   
}

现在的问题是，这 3750 个对象的总大小为 3.5 GB。因此，在坚持一个又一个之后，我的索引文件夹的总大小为 1.5 mb，包含 3750 个对象。看起来有点奇怪，因为根据 http://lucene.apache.org/core/索引文件大约是文本大小的 20-30%。所以它至少应该在 500 mb 左右。

这是我的 persistence.xml :

<?xml version="1.0" encoding="UTF-8" ?>
<persistence xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://java.sun.com/xml/ns/persistence http://java.sun.com/xml/ns/persistence/persistence_2_0.xsd"
    version="2.0" xmlns="http://java.sun.com/xml/ns/persistence">
    <persistence-unit name="DlcHibernateDAO">
         <provider>org.hibernate.ejb.HibernatePersistence</provider>
         <jta-data-source>java:/DlcDS</jta-data-source>
    <!--    <class>servicepackage.DlcBO</class>-->
    <!--    <jta-data-source>java:/DownloadcenterDS</jta-data-source> -->
        <class>servicepackage.ClickBO</class>
        <class>servicepackage.DlcBO</class>
        <properties>
            <property name="hibernate.dialect" value="org.hibernate.dialect.Oracle10gDialect" />
            <property name="hibernate.show_sql" value="false" />
            <property name="hibernate.format_sql" value="false" />
            <property name="hibernate.use_sql_comments" value="false" />
            <property name="hibernate.generate_statistics" value="false" />
            <property name="hibernate.connection.characterEncoding"
                value="UTF-8" />
            <property name="hibernate.cache.provider_class" value="org.hibernate.cache.HashtableCacheProvider" />
            <!-- JBoss 7 uses Hibernate 3 module -->
            <property name="jboss.as.jpa.providerModule" value="org.hibernate:3" />
            <property name="hibernate.search.default.directory_provider"
                value="org.hibernate.search.store.FSDirectoryProvider" />
            <property name="hibernate.search.default.indexBase" value="C:/Temp/indexes" />

        </properties>
    </persistence-unit>
</persistence>

我没有收到任何异常，并且所有对象都在我的数据库中。我无法更新 Hibernate 搜索的版本，因为我必须使用 Hibernate 3。那么我哪里搞砸了？

最佳答案

我想第一步是查看索引。由于您正在使用文件系统目录并且正在存储索引值，因此您可以使用 Luke 之类的东西来检查索引。一旦你这样做了，如果你发现很多乱码，我不会感到惊讶。问题是您正在将二进制格式 (pdf) 传递给 Lucene。 Lucene 不知道如何处理 pdf 文件。它仅适用于字符串。如果您想索引 pdf、word、xml 等，您需要某种转换器程序来从文件/数据中提取可索引文本。 Apache Tika 就是这样一个工具，它可以处理许多不同的二进制数据格式，包括 pdf。

从 Hibernate Search 4.2 开始，实际上存在一个可以使用的内置 TikaBridge。但是，您需要升级。我认为 TikaBridge 代码可能会向后移植(使用自定义桥)，但我宁愿继续升级 Hibernate ORM 和搜索。为什么不能升级Hibernate？是什么让您选择 Hibernate 3？

如果您想尝试向后移植/自定义桥，请查看 TikaBridge来源。它向您展示了基本方法。

关于java - 在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27426034/

24

4

0

文章推荐： java - Spring Boot 应用程序无法 Autowiring XML 配置

文章推荐： clojure - 规范/有效期的评估时间？呈指数增长

文章推荐： java - PropertyPage - 通过“确定”按钮进行控制

java - 在 Java 中，关键字 `final` 、 `finally` 和 `finalize` 实现什么目的？
关闭。这个问题需要更多 focused .它目前不接受答案。想要改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 2 年前。 Improve this q
浅析final,finally,finalize 的区别
1.final final修饰类，说明这个类不能被继承，是以个顶级类。 final修饰变量，说明这个变量是常量。 final修饰方法，表示这个方法不能被重写，不过可以冲在final方法。比如有个
c++ - 干净地抑制 gcc 的 `final` 建议警告 (`-Wsuggest-final-types` 和 `-Wsuggest-final-methods` )
我喜欢使用 -Wsuggest-final-types 编译我的代码和 -Wsuggest-final-methods以便在可能使用 final 关键字以允许编译器更积极地优化的机会时收到警告。不过
java - 局部变量必须是 final 或有效的 final
我在 Java 8 中有一个异步操作，它返回一个 onError 回调或一个 onSuccess 回调。如果操作成功与否，我需要在我的方法内部返回。所以我返回一个 boolean 值来说明这个信息。我
java - 如果一个类被声明为 final 是否有必要将方法声明为 final
我正在阅读一些内容，需要对最终类和方法进行一些说明。我的理解是，将一个类声明为 final 会阻止该类被扩展。因此，是否有必要将最终类中的方法声明为最终的？在我看来，如果类不能扩展，则没有必要将方法声
java - finally 和 no finally 和有什么不一样？
有什么区别 try { // action A } catch(Exception e) { // action B } finally { // action C }
java - 从内部类引用的局部变量必须是 final 或有效的 final
这个程序是我类(class)的最终作业，我无法弄清楚为什么我收到错误“从内部类引用的局部变量必须是最终的或有效的最终”。该程序正在运行并发线程来对# 数组进行排序，然后找到该数组的高值和低值。当我在没
c++ - C++ final 是否在所有方面都暗示 final？
C++11 added final. 终于! 我了解 final 做了两件事: 使类不可继承。使类中的(虚拟)函数不可覆盖(在派生类中)。这两者似乎是相互独立的。但以以下为例: class Foo
react-final-form - 如何使用带有react-final-form的多个提交按钮？
我想使用具有多个提交按钮的react-final-form构建表单，其中每个提交按钮在表单中设置不同的值。本质上，我想创建一个在呈现的HTML中看起来像这样的表单: Are you over 1
java - static、final、static Final - 正确用法以及何时使用它们？
我想知道什么时候应该对变量和(或)方法使用静态、最终、静态最终参数。据我了解: final:类似于c++中的const参数。它基本上意味着值(或在方法中 - 返回值)不会改变。静态:这意味着值(或方
java - 在内部类中绕过 "final or effectively final"会给出非常随机的结果
我正在做一个编程类(class)项目，用于 400 行矩阵本身的矩阵乘法。我让它以顺序模式工作，该项目的目标是编写并行实现。我有以下代码，当然，当我尝试引用内部类中的计数器 j 时，我收到一个关于
java - 声明为 Final 的经典变量是否包含与非 Final 变量不同的内存段？
也许这是简单的问题，但我找不到答案。声明为final的经典变量是否包含与非final变量不同的内存段？最佳答案我想说，谈到局部变量，基于 this answer 是不行的。 : The trut
c++ - 为什么要将 final 添加到 final 类的成员函数中？
考虑以下代码: #include class B { virtual void f() { std::cout << "Base" << '\n'; } }; class D
Final 和有效 Final 变量的 JavaFX EventHandling
这个问题已经有答案了: java: Is it possible to set a lambda expression for an array of Buttons is a for loop? I
java - final 和非 final int 变量相乘有什么区别？
考虑这个代码片段 public class ConstantFolding { static final int number1 = 5; static final int numbe
java - Final 或 Effectively final 混淆
我确定在内部类中访问的变量应该声明为final 或有效final。但在下面的情况下我很困惑。不知道是不是我理解错了。 public class MyClass { private boolea
java - final 关键字并在 java 中将连接对象声明为 final
我必须将一个 java.sql.Connection 对象传递给一个匿名内部类，这意味着我必须对它进行 final 引用。但是，我担心任何资源泄漏。 public static String foo(
java - 为什么在覆盖 finalize() 方法时首选调用 super.finalize()？
我收到 SonarQube 错误:“强烈建议在此方法实现结束时调用 super.finalize()，以防父实现也必须释放一些系统资源。” 但我发现 Object 类没有实现 finalize方法。
java - 清理 finalize() 或 finally() 中的代码？
我一般认为资源清理是在 finally block 中完成的，最近我在一个类中发现了这个特定的代码片段，它覆盖了 Object 类'finalize()方法。 protected void fina
java - final 和非 final 方法参数，它们在确定方法重载或覆盖时是否被视为不同？
让我们在父类中使用这个方法: public void calculateSum(int a, final int b) { } 子类有: public void calculateSum(int a,

首页

博学

6Ren·AI

商城

java - 在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用