Java ETL流程-6ren

Java ETL流程

转载作者：行者123 更新时间：2023-12-01 07:38:54

24

4

我面临新的挑战，从 Oracle 数据库加载约 100M 行并将它们插入远程 MySQL 数据库服务器。

我将问题分为两部分:

服务器端 REST 服务器，负责将数据加载到 MySQL 服务器中；
负责加载 Oracle 数据源的客户端 Java 应用。

在 Java 端，我使用普通 JDBC 来加载分页内容并将其通过线路传输到服务器。这种方法效果很好，但它使代码变得繁琐并且不太可扩展，因为我自己使用 Oracle 的 ROWNUM .....WHERE ROWNUM > x 和 ROWNUM < y 进行分页。

我现在已经尝试使用 Hibernate 的 StatelessSession 来使用通过注释映射的实体。代码可读性更强、更干净，但性能较差。

我听说过 ETL 工具和 SpringBatch，但不太了解。还有其他方法可以解决这个问题吗？

提前致谢。

更新

感谢您提出的宝贵建议。我选择使用 SpringBatch 从 Oracle 数据库加载数据，因为环境非常紧张，而且我无法访问 Oracle 的工具集。 SpringBatch 是事实。对于数据写入步骤，我选择使用 MySQL 的 LOAD DATA INFILE 写入记录 block ，正如你们所说的那样。 REST 服务位于中间，因为出于安全原因它们彼此隐藏。

最佳答案

100M 行已经很多了。您可以通过多种方式设计它:REST 服务器、JDBC 读取、Spring Batch , Spring integration 、 hibernate 、ETL。但底线是:时间。

无论您选择哪种架构，您最终都必须在 MySQL 中执行这些 INSERT 操作。您的里程可能会有所不同，但只是给您一个数量级:每秒 2K 插入，需要半天时间才能向 MySQL 填充 100M 行 ( source )。

根据同一来源LOAD DATA INFILE每秒可以处理大约 25K 插入(大约增加 10 倍，大约需要一个小时)。

鉴于如此大量的数据，我建议:

使用原生 Oracle 数据库工具转储 Oracle 表，生成人类可读的内容(或计算机可读的内容，但您必须能够解析它)
使用尽可能快的工具解析转储文件。也许 grep/sed/gawk/cut 就足够了？
生成与MySQL兼容的目标文件LOAD DATA INFILE(非常可配置)
使用上述命令将文件导入MySQL

当然，您可以在 Java 中使用漂亮且可读的、经过单元测试和版本控制的代码来完成此操作。但面对如此大量的数据，您需要务实。

这是初始加载。之后 Spring Batch 可能会是一个不错的选择。如果可以的话，尝试将应用程序直接连接到两个数据库 - 同样，这会更快。另一方面，出于安全原因，这可能是不可能的。

如果您想要非常灵活并且不直接将自己绑定(bind)到数据库中，请在 Web 服务后面公开输入 (Oracle) 和输出 (MySQL)(REST 也可以)。 Spring 集成会对你有很大帮助。

关于Java ETL流程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7941277/

24

4

0

文章推荐： jquery - 如何在字符串连接中使用 if 条件

文章推荐： scala - 为什么 Scala 标准库中的 `Numeric` 没有 `maxValue` ？

文章推荐： Emacs + 流浪汉 + plink

流程 - 流程图仍然是绘制图表的最佳方式吗？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
.NET ETL 流程
首先是一些背景；我们正在开发一个数据仓库，并对我们的 ETL 过程使用哪些工具进行一些研究。该团队非常以开发人员为中心，每个人都熟悉 C#。到目前为止，我已经看过 RhinoETL、Pentaho (
.net - 一键式部署如何发布多个应用程序/流程？
我需要具有管理员权限的进程。从this问题和答案来看，似乎没有比启动单独进程更好的方法了。因为我宁愿有一个专用于该过程的过程，而不是仅为此方法在第二个过程中启动我的原始应用程序–我以为我会在VS201
javascript - 无法弄清楚为什么某些部分功能没有被覆盖，流程
我有这个函数来压平对象 export function flattenObject(object: Object, prefix: string = "") { return Object.key
java - 是否有任何工具可用于动态创建一种序列图来描述系统组件之间的不同阶段/流程
我正在开发一个基于java的Web应用程序，它要求我使用来自SIP( session 启动协议(protocol))消息的输入生成序列图。我必须表示不同电话和相应服务器之间的调用流程。我可以利用任何工
java - 流程，如何使用Outputstream发送两次消息
这是我的代码: Process p=Runtime.getRuntime().exec("something command"); String s; JFrame frame = new JFram
Istio mTLS 流程
我对 istio 的 mTLS 流程有点困惑。在bookinginfo 示例中，我看到服务通过http 而不是https 进行调用。如果服务之间有 mTLS 那么服务会进行 http 调用吗？是否可
c - 避免死锁 - 流程
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
java - 交易卡牌游戏中卡牌效果的基本逻辑/流程
之前做过一个简单的纸牌游戏，对程序的整体流程有自己的想法。我最关心的是卡片触发器。假设我们有一张名为“Guy”的牌，其效果为“每当你打出另一张牌时，获得 2 点生命”。我将如何将其合并到我的代码中？
android - Activity 流程
我有 4 个 Activity 。 A、B、C 和 D。用户可以从每个 Activity 开始任何 Activity 。即 Activity A 有 3 个按钮来启动 B、C 和 D。以同样的方式
javascript - 流程，如何继承类函数类型？
我做了一个简单的路由器类，简化后看起来像这样 // @flow import { Container } from 'unstated' type State = { history: Objec
安卓 Activity 流程
我有两个 Activity ，比如 A1 和 A2。顺序为 A1->A2我从 A1 开始 A2 而没有在 A1 中调用 finish() 。在 A2 中按下后退按钮后，我想在 A1 中触发一个功能。但
测试 BPEL 流程？
我正在考虑在我的下一个项目中使用 BPEL。我试用了 Netbeans BPEL 设计器，我对它很满意。但在我决定使用 BPEL 之前，我想知道它对测试驱动开发的适用程度。不幸的是，我对那个话题知之甚
CSS 布局/流程
我需要将两个表格堆叠在一起，前后都有内容。我无法让后面的内容正常流动。堆叠的 table 高度可变。 HTML 结构: ... other content ...
java - hibernate 流程
我是 Hibernate 的新手。我无法理解 Hibernate 的流程。请澄清我的疑问。我有“HibernateUtil.java ”和以下语句 sessionFactory = new Anno
Ruby if/else 流程
早上好我开始使用 Ruby，想创建一个小工具来获取我的公共(public) IP 并通过电子邮件发送。我遇到了字符串比较和无法处理的 if/else block 的基本问题。代码非常简单(见下文)
Git 流程 - 摆脱一个特定的功能
我目前正尝试在我的团队中建立一个开发流程并阅读有关 GitFlow 的信息。它看起来很有趣，但我可以发现一些问题。让我们假设以下场景: 我们完成了 F1、F2 和 F3 功能，并将它们 merge
Git 流程 - 从另一个功能分支创建功能分支
我已经使用 git flow 有一段时间了。我很想了解一个特定的用例。对于我的一个项目，我有一张新网站功能的门票。此工单取决于许多子任务。我想为主工单创建一个功能分支，然后为每个子任务创建一个脱离父
一张图带你了解.NET终结(Finalize)流程
简介 "终结"一般被分为确定性终结(显示清除)与非确定性终结(隐式清除) 确定性终结主要提供给开发人员一个显式清理的方法，比如try-finally,using。
debugging - 故意添加错误以评估 QA 流程
你怎么知道在一个程序中已经发现并解决了尽可能多的错误？几年前我读过一篇关于调试的文档(我认为这是某种 HOWTO)。其中，该文档描述了一种技术，其中编程团队故意将错误添加到代码中并将其传递给 QA

首页

博学

6Ren·AI

商城

Java ETL流程