- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我面临新的挑战,从 Oracle 数据库加载约 100M 行并将它们插入远程 MySQL 数据库服务器。
我将问题分为两部分:
在 Java 端,我使用普通 JDBC 来加载分页内容并将其通过线路传输到服务器。这种方法效果很好,但它使代码变得繁琐并且不太可扩展,因为我自己使用 Oracle 的 ROWNUM .....WHERE ROWNUM > x 和 ROWNUM < y 进行分页。
我现在已经尝试使用 Hibernate 的 StatelessSession 来使用通过注释映射的实体。代码可读性更强、更干净,但性能较差。
我听说过 ETL 工具和 SpringBatch,但不太了解。还有其他方法可以解决这个问题吗?
提前致谢。
更新
感谢您提出的宝贵建议。我选择使用 SpringBatch 从 Oracle 数据库加载数据,因为环境非常紧张,而且我无法访问 Oracle 的工具集。 SpringBatch 是事实。对于数据写入步骤,我选择使用 MySQL 的 LOAD DATA INFILE 写入记录 block ,正如你们所说的那样。 REST 服务位于中间,因为出于安全原因它们彼此隐藏。
最佳答案
100M 行已经很多了。您可以通过多种方式设计它:REST 服务器、JDBC 读取、Spring Batch , Spring integration 、 hibernate 、ETL。但底线是:时间。
无论您选择哪种架构,您最终都必须在 MySQL 中执行这些 INSERT 操作。您的里程可能会有所不同,但只是给您一个数量级:每秒 2K 插入,需要半天时间才能向 MySQL 填充 100M 行 ( source )。
根据同一来源LOAD DATA INFILE
每秒可以处理大约 25K 插入(大约增加 10 倍,大约需要一个小时)。
鉴于如此大量的数据,我建议:
使用原生 Oracle 数据库工具转储 Oracle 表,生成人类可读的内容(或计算机可读的内容,但您必须能够解析它)
使用尽可能快的工具解析转储文件。也许 grep
/sed
/gawk
/cut
就足够了?
生成与MySQL兼容的目标文件LOAD DATA INFILE
(非常可配置)
使用上述命令将文件导入MySQL
当然,您可以在 Java 中使用漂亮且可读的、经过单元测试和版本控制的代码来完成此操作。但面对如此大量的数据,您需要务实。
这是初始加载。之后 Spring Batch 可能会是一个不错的选择。如果可以的话,尝试将应用程序直接连接到两个数据库 - 同样,这会更快。另一方面,出于安全原因,这可能是不可能的。
如果您想要非常灵活并且不直接将自己绑定(bind)到数据库中,请在 Web 服务后面公开输入 (Oracle) 和输出 (MySQL)(REST 也可以)。 Spring 集成会对你有很大帮助。
关于Java ETL流程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7941277/
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
首先是一些背景;我们正在开发一个数据仓库,并对我们的 ETL 过程使用哪些工具进行一些研究。该团队非常以开发人员为中心,每个人都熟悉 C#。到目前为止,我已经看过 RhinoETL、Pentaho (
我需要具有管理员权限的进程。从this问题和答案来看,似乎没有比启动单独进程更好的方法了。因为我宁愿有一个专用于该过程的过程,而不是仅为此方法在第二个过程中启动我的原始应用程序–我以为我会在VS201
我有这个函数来压平对象 export function flattenObject(object: Object, prefix: string = "") { return Object.key
我正在开发一个基于java的Web应用程序,它要求我使用来自SIP( session 启动协议(protocol))消息的输入生成序列图。我必须表示不同电话和相应服务器之间的调用流程。我可以利用任何工
这是我的代码: Process p=Runtime.getRuntime().exec("something command"); String s; JFrame frame = new JFram
我对 istio 的 mTLS 流程有点困惑。在bookinginfo 示例中,我看到服务通过http 而不是https 进行调用。如果服务之间有 mTLS 那么服务会进行 http 调用吗? 是否可
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
之前做过一个简单的纸牌游戏,对程序的整体流程有自己的想法。我最关心的是卡片触发器。 假设我们有一张名为“Guy”的牌,其效果为“每当你打出另一张牌时,获得 2 点生命”。我将如何将其合并到我的代码中?
我有 4 个 Activity 。 A、B、C 和 D。 用户可以从每个 Activity 开始任何 Activity 。 即 Activity A 有 3 个按钮来启动 B、C 和 D。以同样的方式
我做了一个简单的路由器类,简化后看起来像这样 // @flow import { Container } from 'unstated' type State = { history: Objec
我有两个 Activity ,比如 A1 和 A2。顺序为 A1->A2我从 A1 开始 A2 而没有在 A1 中调用 finish() 。在 A2 中按下后退按钮后,我想在 A1 中触发一个功能。但
我正在考虑在我的下一个项目中使用 BPEL。我试用了 Netbeans BPEL 设计器,我对它很满意。但在我决定使用 BPEL 之前,我想知道它对测试驱动开发的适用程度。不幸的是,我对那个话题知之甚
我需要将两个表格堆叠在一起,前后都有内容。我无法让后面的内容正常流动。堆叠的 table 高度可变。 HTML 结构: ... other content ...
我是 Hibernate 的新手。我无法理解 Hibernate 的流程。请澄清我的疑问。 我有“HibernateUtil.java ”和以下语句 sessionFactory = new Anno
早上好 我开始使用 Ruby,想创建一个小工具来获取我的公共(public) IP 并通过电子邮件发送。我遇到了字符串比较和无法处理的 if/else block 的基本问题。 代码非常简单(见下文)
我目前正尝试在我的团队中建立一个开发流程并阅读有关 GitFlow 的信息。它看起来很有趣,但我可以发现一些问题。 让我们假设以下场景: 我们完成了 F1、F2 和 F3 功能,并将它们 merge
我已经使用 git flow 有一段时间了。我很想了解一个特定的用例。 对于我的一个项目,我有一张新网站功能的门票。此工单取决于许多子任务。我想为主工单创建一个功能分支,然后为每个子任务创建一个脱离父
简介 "终结"一般被分为确定性终结(显示清除)与非确定性终结(隐式清除) 确定性终结主要 提供给开发人员一个显式清理的方法,比如try-finally,using。
你怎么知道在一个程序中已经发现并解决了尽可能多的错误? 几年前我读过一篇关于调试的文档(我认为这是某种 HOWTO)。其中,该文档描述了一种技术,其中编程团队故意将错误添加到代码中并将其传递给 QA
我是一名优秀的程序员,十分优秀!