java - 我有哪些选择来存储和查询大量重复的数据？-6ren

java - 我有哪些选择来存储和查询大量重复的数据？

转载作者：搜寻专家更新时间：2023-11-01 01:39:29

24

4

我正在评估 Java 中高效数据存储的选项。数据集是带有命名主键的时间戳数据值。例如

Name: A|B|C:D
Value: 124
TimeStamp: 01/06/2009 08:24:39,223

可能是给定时间点的股票价格，所以我想这是一个经典的时间序列数据模式。但是，我确实需要一个通用的 RDBMS 解决方案，它可以与任何合理的 JDBC 兼容数据库一起使用，因为我想使用 Hibernate。因此，像 Oracle 这样的数据库的时间序列扩展并不是真正的选择，因为我希望实现者能够使用他们自己的支持 JDBC/Hibernate 的数据库。

这里的挑战只是可以在短时间内积累的海量数据。到目前为止，我的实现主要集中在定义定期汇总和清除计划，其中原始数据聚合到 DAY、WEEK、MONTH 等表中，但缺点是粒度的早期丢失以及存储在不同时间段之间的时间段不匹配带来的轻微不便聚合体。

挑战的选项有限，因为在保留数据原始粒度的同时可以物理压缩多少数据存在绝对限制，并且使用关系数据库和通用 JDBC 能力的指令加剧了这一限制一个。

借用经典数据压缩算法中的概念性概念，并利用相同命名键的许多连续值预期相同的事实，我想知道是否有办法通过合并来无缝减少存储记录的数量将值重复到一个逻辑行中，同时还存储一个计数器，该计数器有效地指示“接下来的 n 记录具有相同的值”。实现这一点似乎很简单，但代价是数据模型现在非常复杂，无法使用标准 SQL 进行查询，尤其是在使用任何类型的聚合 SQL 函数时。这显着降低了数据存储的实用性，因为只有复杂的自定义代码才能将数据恢复到“解压缩”状态，从而导致阻抗不匹配，数百种工具将无法正确呈现此数据。

我考虑过定义自定义 Hibernate 类型的可能性，这些类型基本上可以“理解”压缩数据集并将其备份并使用动态创建的合成行返回查询结果。 (除了严格控制的输入流之外，数据库将只对所有客户端读取)。除了原始 JDBC(例如 JasperReports)之外，我想到的一些工具将与 Hibernate/POJOS 集成，但这并没有真正解决聚合函数问题，可能还有很多其他问题。

因此，我正在部分地放弃自己可能不得不使用更专有的 [可能是非 SQL] 数据存储(任何建议表示赞赏)，然后专注于编写一个伪 JDBC 驱动程序的可能不那么复杂的任务，至少轻松与外部工具集成。

我听说有一种叫做“位压缩文件”的东西作为实现这种数据压缩的机制，但我不知道有任何数据库提供这种机制，我最不想做的事情(或者可以做，真的......)是写我自己的数据库。

有什么建议或见解吗？

最佳答案

Hibernate(或任何 JPA 解决方案)不适合这项工作。

JPA/Hibernate 不是一个轻量级的解决方案。在大容量应用程序中，开销不仅很大而且令人望而却步。你真的需要调查grid and cluster solutions .我不会在这里重复各种技术的概述。

我在金融市场信息系统方面拥有丰富的经验。你说的一些话让我印象深刻:

你有很多原始数据；
您想对该数据应用各种聚合(例如开盘价/高价/低价/收盘价每日摘要)；
高可用性可能是一个问题(在这类系统中总是如此)；和
低延迟可能是一个问题(同上)。

现在对于网格/集群类型的解决方案，我将它们松散地分为两类:

基于 map 的解决方案，例如 Coherence 或 Terracotta；和
基于 Javaspaces 的解决方案，例如 GigaSpaces。

我经常使用 Coherence，Map 解决方案可能不错，但也可能存在问题。 Coherence maps 上可以有监听器，你可以使用这种东西来做这样的事情:

市场价格提醒(用户可能希望在价格达到特定水平时收到通知)；
衍生品定价(例如，交易所交易的期权定价系统希望在标的证券的最后交易价格发生变化时重新定价)；
交易匹配/预订系统可能希望匹配收到的交易通知以进行对帐；
等等

所有这些都可以通过监听器来完成，但是在 Coherence 中，例如监听器必须是便宜的，这导致像 Map 具有监听器而不是向另一个 Map 写入内容的事情，这可以持续一段时间。此外，修改缓存条目可能会有问题(尽管也有处理此类问题的机制；我说的是关闭市场价格警报这样它不会触发第二次的情况)。

我发现 GigaSpaces 类型的网格解决方案对于此类应用程序更具吸引力。读取(或破坏性读取)操作是一种非常优雅且可扩展的解决方案，您可以获得亚毫秒级性能的事务性网格更新。

考虑两种经典的队列架构:

请求/响应:错误的消息可能会阻塞队列，虽然您可以有很多发送者和接收者(为了可扩展性)，但增加管道数量并不总是那么简单；和
发布/订阅:这分离了发送者和接收者，但缺乏可扩展性，因为如果您有多个订阅者，他们每个人都会收到消息(不一定是您想要的预订系统)。

在 GigaSpaces 中，破坏性读取就像一个可扩展的发布-订阅系统，而读取操作就像传统的发布-订阅模型。在网格之上构建了一个 Map 和 JMS 实现，它可以进行 FIFO 排序。

现在我听到你问关于持久性的问题是什么？坚持是决定所有其他事情的结果。对于这种应用程序，我喜欢 Persistence as a Service模型(具有讽刺意味的是关于 Hibernate 的文章，但它适用于任何事物)。

基本上这意味着您的日期存储命中是异步的，并且它可以很好地处理汇总数据。就像您可以让服务监听交易通知并只保留它感兴趣的通知(如果需要，在内存中聚合)。您可以通过这种方式设置开盘价/最高价/最低价/收盘价。

对于大量数据，您真的不想将其全部写入数据库。反正不是同步的。持久存储加数据仓库可能更适合您的选择，但这同样取决于需求、容量等。

这是一个复杂的话题，我只是真正接触过它。希望对您有所帮助。

关于java - 我有哪些选择来存储和查询大量重复的数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/416432/

24

4

0

文章推荐： java - 带有 Gui Designer 的小程序

文章推荐： javascript - jQuery Focusout 输入不起作用

文章推荐： javascript - 为什么有些js文件以(function() {

java - Java 方法如何检索属于该特定方法的方法对象？ ( java )
我正在编写一个具有以下签名的 Java 方法。 void Logger(Method method, Object[] args); 如果一个方法(例如 ABC() )调用此方法 Logger，它应该
java - (Java) Java 找不到我的图像文件
我是 Java 新手。我的问题是我的 Java 程序找不到我试图用作的图像文件一个 JButton。 (目前这段代码什么也没做，因为我只是得到了想要的外观第一的)。这是我的主课代码: packag
java - java Java 有手动垃圾回收吗？
好的，今天我在接受采访，我已经编写 Java 代码多年了。采访中说“Java 垃圾收集是一个棘手的问题，我有几个 friend 一直在努力弄清楚。你在这方面做得怎么样？”。她是想骗我吗？还是我的一生都
java - Java 之谜 - Java
我的 friend 给了我一个谜语让我解开。它是这样的: There are 100 people. Each one of them, in his turn, does the following
java - Java 字节码是否兼容不同版本的 Java？
如果我将使用 Java 5 代码的应用程序编译成字节码，生成的 .class 文件是否能够在 Java 1.4 下运行？如果后者可以工作并且我正在尝试在我的 Java 1.4 应用程序中使用 Jav
java - Java 缺少无符号原始类型是 Java 平台的特征还是 Java 语言的特征？
有关于why Java doesn't support unsigned types的问题以及一些关于处理无符号类型的问题。我做了一些搜索，似乎 Scala 也不支持无符号数据类型。限制是Java和S
java - Java 7 的 Java 字节码可以在其他版本的 Java 中工作吗
我只是想知道在一个 java 版本中生成的字节码是否可以在其他 java 版本上运行最佳答案通常，字节码无需修改即可在较新版本的 Java 上运行。它不会在旧版本上运行，除非您使用特殊参数 (
java -cp 。 test.java 与 java test.java
我有一个关于在命令提示符下执行 java 程序的基本问题。在某些机器上我们需要指定 -cp 。 (类路径)同时执行java程序 (test为java文件名与.class文件存在于同一目录下) jav
java - 使用 Java (Java EE/Java SE) 的数据库应用程序设计模式
我已经阅读 StackOverflow 有一段时间了，现在我才鼓起勇气提出问题。我今年 20 岁，目前在我的家乡(罗马尼亚克卢日-纳波卡)就读 IT 大学。足以介绍:D。基本上，我有一家提供簿记应用
java - Java 中的解析可在 Java 中访问
我有 public JSONObject parseXML(String xml) { JSONObject jsonObject = XML.toJSONObject(xml); r
java - Java 中的解释性语言以及对 Java 方法的调用
我已经在 Java 中实现了带有动态类型的简单解释语言。不幸的是我遇到了以下问题。测试时如下代码: def main() { def ks = Map[[1, 2]].keySet()
java - java 序数 - Java I 类
一直提示输入 1 到 10 的数字 - 结果应将 st、rd、th 和 nd 添加到数字中。编写一个程序，提示用户输入 1 到 10 之间的任意整数，然后以序数形式显示该整数并附加后缀。 public
java - 如何从 Java 执行 Java？
我有这个 DownloadFile.java 并按预期下载该文件: import java.io.*; import java.net.URL; public class DownloadFile {
java - 延迟不适用于 java gui(java)
我想在 GUI 上添加延迟。我放置了 2 个 for 循环，然后重新绘制了一个标签，但这 2 个 for 循环一个接一个地执行，并且标签被重新绘制到最后一个。我能做什么？ for(int i=0;
java - Java 类中的硬编码 Java 列表
我正在对对象 Student 的列表项进行一些测试，但是我更喜欢在 java 类对象中创建硬编码列表，然后从那里提取数据，而不是连接到数据库并在结果集中选择记录。然而，自从我这样做以来已经很长时间了，
java - java 幕后对象创建(java 对象实例化)
我知道对象创建分为三个部分: 声明实例化初始化 classA{} classB extends classA{} classA obj = new classB(1,1); 实例化它必须使用
java - 车辆跟踪系统[java/Java EE]
我有兴趣使用 GPRS 构建车辆跟踪系统。但是，我有一些问题要问以前做过此操作的人: GPRS 是最好的技术吗？人们意识到任何问题吗？我计划使用 Java/Java EE - 有更好的技术吗？如果
java - 逆数组(Java)//逆数组(Java)
我可以通过递归方法反转数组，例如:数组={1,2,3,4,5} 数组结果={5,4,3,2,1}但我的结果是相同的数组，我不知道为什么，请帮助我。 public class Recursion { p
java - Java/Java EE 的构建和集成环境
有这样的标准方式吗？包括 Java源代码-测试代码- Ant 或 Maven联合单元持续集成(可能是巡航控制)ClearCase 版本控制工具部署到应用服务器最后我希望有一个自动构建和集成环境。
java - 我将如何从 java 程序打印文本？ ( java )
我什至不知道这是否可能，我非常怀疑它是否可能，但如果可以，您能告诉我怎么做吗？我只是想知道如何从打印机打印一些文本。有什么想法吗？最佳答案这里有更简单的事情。 import javax.swin

首页

博学

6Ren·AI

商城

java - 我有哪些选择来存储和查询大量重复的数据？