gpt4 book ai didi

java - 在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用

转载 作者:行者123 更新时间:2023-12-01 12:08:16 24 4
gpt4 key购买 nike

我在索引 PDF 时遇到问题,因此 Hibernate 搜索的全文搜索功能也出现问题。我正在尝试索引大约 3750 个对象。每个对象都有几个字段,包括 2 个我想要索引的字符串:

@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "ANZEIGENAME")
private String anzeigeName; // VARCHAR2(250),
@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "BESCHREIBUNG")
private String beschreibung; // VARCHAR2(512),

还有一个字节 [ ] 字段,我想为这些 PDF 上的全文搜索建立索引

@Field(index = Index.TOKENIZED, store = Store.YES)
@FieldBridge(impl = FieldBridgeConverter.class)
@Lob
@Column(name = "PDFDATA")
private byte[] pdfData; // BLOB;

这就是我的 PDF FieldBridge 的样子

public class FieldBridgeConverter implements StringBridge {    
public String objectToString(final Object object) {
byte[] file = (byte[]) object;
return file.toString();
}
}

现在的问题是,这 3750 个对象的总大小为 3.5 GB。因此,在坚持一个又一个之后,我的索引文件夹的总大小为 1.5 mb,包含 3750 个对象。看起来有点奇怪,因为根据 http://lucene.apache.org/core/索引文件大约是文本大小的 20-30%。所以它至少应该在 500 mb 左右。

这是我的 persistence.xml :

<?xml version="1.0" encoding="UTF-8" ?>
<persistence xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://java.sun.com/xml/ns/persistence http://java.sun.com/xml/ns/persistence/persistence_2_0.xsd"
version="2.0" xmlns="http://java.sun.com/xml/ns/persistence">
<persistence-unit name="DlcHibernateDAO">
<provider>org.hibernate.ejb.HibernatePersistence</provider>
<jta-data-source>java:/DlcDS</jta-data-source>
<!-- <class>servicepackage.DlcBO</class>-->
<!-- <jta-data-source>java:/DownloadcenterDS</jta-data-source> -->
<class>servicepackage.ClickBO</class>
<class>servicepackage.DlcBO</class>
<properties>
<property name="hibernate.dialect" value="org.hibernate.dialect.Oracle10gDialect" />
<property name="hibernate.show_sql" value="false" />
<property name="hibernate.format_sql" value="false" />
<property name="hibernate.use_sql_comments" value="false" />
<property name="hibernate.generate_statistics" value="false" />
<property name="hibernate.connection.characterEncoding"
value="UTF-8" />
<property name="hibernate.cache.provider_class" value="org.hibernate.cache.HashtableCacheProvider" />
<!-- JBoss 7 uses Hibernate 3 module -->
<property name="jboss.as.jpa.providerModule" value="org.hibernate:3" />
<property name="hibernate.search.default.directory_provider"
value="org.hibernate.search.store.FSDirectoryProvider" />
<property name="hibernate.search.default.indexBase" value="C:/Temp/indexes" />

</properties>
</persistence-unit>
</persistence>

我没有收到任何异常,并且所有对象都在我的数据库中。我无法更新 Hibernate 搜索的版本,因为我必须使用 Hibernate 3。那么我哪里搞砸了?

最佳答案

我想第一步是查看索引。由于您正在使用文件系统目录并且正在存储索引值,因此您可以使用 Luke 之类的东西来检查索引。一旦你这样做了,如果你发现很多乱码,我不会感到惊讶。问题是您正在将二进制格式 (pdf) 传递给 Lucene。 Lucene 不知道如何处理 pdf 文件。它仅适用于字符串。如果您想索引 pdf、word、xml 等,您需要某种转换器程序来从文件/数据中提取可索引文本。 Apache Tika 就是这样一个工具,它可以处理许多不同的二进制数据格式,包括 pdf。

从 Hibernate Search 4.2 开始,实际上存在一个可以使用的内置 TikaBridge。但是,您需要升级。我认为 TikaBridge 代码可能会向后移植(使用自定义桥),但我宁愿继续升级 Hibernate ORM 和搜索。为什么不能升级Hibernate?是什么让您选择 Hibernate 3?

如果您想尝试向后移植/自定义桥,请查看 TikaBridge来源。它向您展示了基本方法。

关于java - 在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27426034/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com