- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们有一个可以与 IBM Informix、MySQL 和 Oracle 中的任何一个一起运行的应用程序,并且我们使用 Java 和 Hibernate 来连接到数据库。我们将在数据库(clob 列)内存储 XML、CSV 和其他基于文本的文件。 Java 中的实体是 byte[]
对象。
现在对应用程序的一项功能请求是“grep”数据内的内容。所以我需要找到所有具有特定内容的文件。
在常规 char/varchar 字段上,我可以使用 like '%xyz%'
,但这不适用于 byte[]/blob。
第一种方法是加载每个实体,将 byte[]
转换为字符串,并使用 Java 中的 contains
方法。如果用户在其他(非 clob)列上输入任何过滤器参数,我将在测试 clob 之前应用这些过滤器,以减少必须扫描的 blob 数量。
只要应用程序和数据库位于同一服务器上,这对于 100 个文件(clob)来说效果很好。但我认为如果数据库中有 1.000.000 个文件并且数据库并不总是位于同一个网络中,速度会变得非常慢。所以我认为这不是一个好主意。
我的下一个想法是创建一个数据库过程。但我不太确定这对于 Informix、MySQL 和 Oracle 是否可行。我不确定这是否可能。
最后但不受欢迎的方法是将数据内容存储在不存储在 clob 内的方法。也许我可以使用不同的数据类型?
有人知道如何实现这一点吗?我需要一个适用于所有三个 DBMS 的解决方案。应用程序知道它连接到哪种 DBMS。因此,如果我有三种不同的解决方案(每个 DBMS 一个),那就没问题了。
我完全愿意改变我使用的数据类型(BLOB、CLOB ...)——我可以根据需要进行修改。
注意:clob 的范围从大约 5 KiB 到大约 500 KiB,最大为 1 MiB。
最佳答案
查看 Apache Lucene 或其他文本索引库。 https://en.wikipedia.org/wiki/Lucene http://en.wikipedia.org/wiki/Full_text_search
如果您使用 Oracle Text Search 等特定于数据库的解决方案,则必须为每个数据库实现自定义解决方案。根据我的经验,我知道 Oracle Text 搜索需要大量时间来学习,并且需要进行大量调整才能恰到好处。
此外,如果您使用数据库解决方案,即使数据集相同,您也会在每个数据库中收到不同的结果(每个数据库都有自己的索引和检索数据的方法)。
通过使用 Lucene 等第 3 方解决方案 - 您只需学习一种解决方案,无论数据库如何,结果都将保持一致。
关于java - Informix、MySQL 和 Oracle blob 包含,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37951866/
我正在尝试从 Azure 容器中删除 blob。我能够连接到它并列出此问题中代码后面的所有 blob:Upload and Delete Azure Storage Blob using azure-
我正在尝试从 Azure 容器中删除 blob。我能够连接到它并列出此问题中代码后面的所有 blob:Upload and Delete Azure Storage Blob using azure-
运行我的 azure 函数(用于读取 azure blob 存储)后出现错误。 错误是 ID 0dad768d-36d4-4c1a-85ae-2a5122533b3c fail: Func
运行我的 azure 函数(用于读取 azure blob 存储)后出现错误。 错误是 ID 0dad768d-36d4-4c1a-85ae-2a5122533b3c fail: Func
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure,并将 Blob ID 存储在我们的数
我没有在网上看到任何有关如何获取位于 BlobContainerClient 内特定目录内的所有 blob 的示例。 以前,我使用的是 Microsoft.Azure.Storage 软件包,但这些软
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure,并将 Blob ID 存储在我们的数
我没有在网上看到任何有关如何获取位于 BlobContainerClient 内特定目录内的所有 blob 的示例。 以前,我使用的是 Microsoft.Azure.Storage 软件包,但这些软
我正在编写一些代码,允许用户使用麦克风录制自己的声音,然后将录音上传到 Azure Blob 存储。 为了录制音频,我使用类似于下面的代码 let recordedBlobs = []; this.m
当前使用:https://github.com/Azure/azure-sdk-for-go 概述:我当前正在从 azure blob 存储中下载一个 blob,解析该 blob,然后将转录的 blo
正在观看 this video about how to design Tinder ,在 06:50 提出了关于文件与 BLOBS 的观点。 我想知道大二进制文件和 BLOB(二进制大对象)之间有什
目前我有 hibernate JPA HSQLDB 来自动创建我的数据库表。 如何告诉 JPA 或 Hibernate 将字符串保存为 clob/blob 字段?即一个很长的字符串。到目前为止我找不
我有一个一维 NumPy 数组,其中包含一些“坏”值。我想剔除它们。 每个坏值的邻居只是“顽皮”,但我也想剔除它们。 对不良值的可靠测试是询问: arr<0.1 但是,(我能想到的)对于顽皮值的唯一可
查看有关获取 Blob 和获取 Blob 属性的 MSDN 文档。两个请求看起来相同 "https://myaccount.blob.core.windows.net/mycontainer/mybl
我有 2 个 Blob 存储,一个在 eastus,一个在 canadaeast,我想将一个 .vhd 从 eastus 复制到 canadaeast。我去了 eastus,在我想要复制的 blob
所以场景如下: 我有多个 Web 服务实例,用于将 blob 数据写入 Azure 存储。我需要能够根据收到的时间将 blob 分组到容器(或虚拟目录)中。偶尔(最坏的情况是每天)旧的 blob 会被
在 Azure Blobstorage 中,我有 100 个 Blob,但我只想列出前 10 个 Blob。我该怎么做? 我写的{maxResults:1}没有任何效果,它仍然列出了我所有的 Blob
我们当前的代码使用 Azure SDK 1.8,为了生成共享访问签名,它将首先调用 CloudBlobContainer.GetBlobReference(),然后调用 CloudBlob.GetSh
我有大量文件存储在公共(public) Azure blob 容器中,所有这些文件都通过我的 ASP.NET MVC Web 应用程序中的 HTML 直接引用。例如,blob 存储中一个图像的路径如下
我有一个 NodeJS 后端,它使用 Microsoft 的官方 Blob 存储库 (@azure/storage-blob) 来管理我的 Blob 存储: https://www.npmjs.com
我是一名优秀的程序员,十分优秀!