gpt4 book ai didi

java - Informix、MySQL 和 Oracle blob 包含

转载 作者:行者123 更新时间:2023-11-29 20:52:07 25 4
gpt4 key购买 nike

我们有一个可以与 IBM Informix、MySQL 和 Oracle 中的任何一个一起运行的应用程序,并且我们使用 Java 和 Hibernate 来连接到数据库。我们将在数据库(clob 列)内存储 XML、CSV 和其他基于文本的文件。 Java 中的实体是 byte[] 对象。

现在对应用程序的一项功能请求是“grep”数据内的内容。所以我需要找到所有具有特定内容的文件。

在常规 char/varchar 字段上,我可以使用 like '%xyz%',但这不适用于 byte[]/blob。

第一种方法是加载每个实体,将 byte[] 转换为字符串,并使用 Java 中的 contains 方法。如果用户在其他(非 clob)列上输入任何过滤器参数,我将在测试 clob 之前应用这些过滤器,以减少必须扫描的 blob 数量。

只要应用程序和数据库位于同一服务器上,这对于 100 个文件(clob)来说效果很好。但我认为如果数据库中有 1.000.000 个文件并且数据库并不总是位于同一个网络中,速度会变得非常慢。所以我认为这不是一个好主意。

我的下一个想法是创建一个数据库过程。但我不太确定这对于 Informix、MySQL 和 Oracle 是否可行。我不确定这是否可能。

最后但不受欢迎的方法是将数据内容存储在不存储在 clob 内的方法。也许我可以使用不同的数据类型?

有人知道如何实现这一点吗?我需要一个适用于所有三个 DBMS 的解决方案。应用程序知道它连接到哪种 DBMS。因此,如果我有三种不同的解决方案(每个 DBMS 一个),那就没问题了。

我完全愿意改变我使用的数据类型(BLOB、CLOB ...)——我可以根据需要进行修改。

注意:clob 的范围从大约 5 KiB 到大约 500 KiB,最大为 1 MiB。

最佳答案

查看 Apache Lucene 或其他文本索引库。 https://en.wikipedia.org/wiki/Lucene http://en.wikipedia.org/wiki/Full_text_search

如果您使用 Oracle Text Search 等特定于数据库的解决方案,则必须为每个数据库实现自定义解决方案。根据我的经验,我知道 Oracle Text 搜索需要大量时间来学习,并且需要进行大量调整才能恰到好处。

此外,如果您使用数据库解决方案,即使数据集相同,您也会在每个数据库中收到不同的结果(每个数据库都有自己的索引和检索数据的方法)。

通过使用 Lucene 等第 3 方解决方案 - 您只需学习一种解决方案,无论数据库如何,结果都将保持一致。

关于java - Informix、MySQL 和 Oracle blob 包含,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37951866/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com