gpt4 book ai didi

java - 从 Java 进行数据处理的工具

转载 作者:可可西里 更新时间:2023-11-01 16:33:17 26 4
gpt4 key购买 nike

我有一个遗留系统,它使用 SAS 从数据库中提取原始数据,对其进行清理和整合,然后对输出的文档进行评分。

我想转移到 Java 或类似的面向对象的解决方案,这样我就可以实现单元测试,以及更好的代码控制。 (我不是在谈论检修整个系统,而是在我可以的地方注入(inject) java)。

就数据大小而言,我们谈论的是大约 1 TB 的数据被摄取和创建。在扩展方面,这可能会增加 10 倍左右,但不太可能像全局 Web 项目那样大规模增加。

问题是 - 哪种工具最适合此类项目?

我在哪里可以找到这些信息 - 应该使用什么搜索词?

在 SQL 数据库上进行处理(根据需要创建和删除表、添加列)是合适的还是糟糕的解决方案?

我已经快速了解了 Hadoop - 但由于该项目的规模较小,Hadoop 是否会成为一个不必要的复杂问题?

是否有任何 Java 包在合并、连接、排序、分组数据集以及修改数据方面具有与 SAS 或 SQL 类似的功能?

最佳答案

根据您的问题陈述,我很难准确地规定您需要什么。

这听起来像是一个很好的数据库 API(即 native JDBC 可能是您所需要的一个好的开源数据库后端)

不过,我觉得你应该花点时间看看Lucene .这是一个很棒的工具,可以很好地满足您的评分需求。对您的问题采用搜索引擎索引方法可能会卓有成效。

关于java - 从 Java 进行数据处理的工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19308921/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com