pentaho - PDI 或 mysqldump 提取数据而不阻塞数据库也不会获得不一致的数据？-6ren

pentaho - PDI 或 mysqldump 提取数据而不阻塞数据库也不会获得不一致的数据？

转载作者：行者123 更新时间：2023-11-29 12:02:43

30

4

我有一个定期运行的 ETL 流程。我使用kettle(PDI)从源数据库中提取数据并将其复制到阶段数据库。为此，我使用表输入和表输出步骤进行多种转换。但是，我认为如果在此过程中修改源数据库，我可能会获得不一致的数据，因为这样我就无法获得数据的快照。另外，我不知道源数据库是否会被阻止。如果提取需要几分钟(并且确实需要几分钟)，这将是一个问题。 PDI 的优点是我可以只选择必要的列并使用时间戳来仅获取新数据。

另一方面，我认为带有 --single-transaction 的 mysqldump 允许我以一致的方式获取数据，并且不会阻塞源数据库(所有表都是 innodb)。缺点是我会得到不必要的数据。

我可以使用 PDI，还是需要 mysqldump？

PD:我需要从特定数据库读取特定表，所以我认为 xtrabackup 这不是一个好的选择。

最佳答案

However, I think I could get inconsistent data if the source database is modified during the process, since this way I don't get a snapshot of the data

我认为“表输入”步骤没有考虑您阅读时发生的任何修改。尝试一个简单的实验:

获取具有单个表输入和表输出的 .ktr 文件。尝试将数据加载到目标表中。在数据加载过程中，在源数据库中插入少量记录。你会发现那些记录没有读入目标表。 (注意我尝试使用 postgresql 数据库，读取的行数为:1000000)

现在，对于您的问题，我建议您使用 PDI，因为它可以让您在版本控制、序列、SCD 和所有 DWBI 相关事件方面更好地控制数据。 PDI 使加载到舞台环境变得更加容易。而不是简单地转储整个表。

希望有帮助:)

关于pentaho - PDI 或 mysqldump 提取数据而不阻塞数据库也不会获得不一致的数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32095059/

30

4

0

文章推荐： php - 将下拉列表中的值插入数据库

文章推荐： ios - 将字典对象与 Parse.com 中的数组进行比较 - iOS

文章推荐： sql - 如何使用子查询优化 sql 查询，也许通过横向连接？

java - 无法从 PDI 社区版中的 Spoon.bat 启动 PDI GUI
系统详细信息: Windows 7 Professional Processor :Intel Core i3 RAM: 3GB System Type : 32 Bit Operating Syst
browser - PDI hadoop文件浏览器无列表
我已经将hadoop单实例集群配置为在centos linux上使用某些IP地址(而不是localhost)运行。我能够正确执行示例mapreduce作业。这告诉我hadoop设置似乎很好。我还添加
PDI 中的 MySQLNonTransientConnectionException
我在 PDI (Kettle) 中遇到 MySQL 问题。该错误出现在通过输入表读取信息的过程中。即使所有数据都成功地从基数中给出，也会出现此错误，并且可能不会影响转换。 Error comittin
java - 如何检测文本是否包含 [FSI]*[PDI]
传入通知消息的 Android Studio logcat 显示如下 []message[]。我复制并粘贴到 .txt 文件，它显示 FSImessagePDI 。这种字符“FSI”和“PDI”是
mysql - 使用 PDI 保存更改历史记录
我希望获得与我的事实相关的每个字段的历史值(value)。我有四个字段，分别是 id、status、technical group 和 technicien。历史记录保存在另一个表中，包含 id、it
mysql - Excel 到一个数据库输出中的多个表 - PDI
我正在使用 Pentaho Data Integration 进行 ETL 流程...我有多个 Excel 文件，需要将它们合并并上传到一个数据库中。但是，我无法将这些字段分发到数据库中相应的表中。我
mysql - PDI(Kettle)循环作业步骤并行化
前言我已自动创建单个 .ktr 文件并编写脚本来处理源 (MySQL) 和目标 (InfoBright) 数据库之间的数据提取和同步。为每个表创建一个 .ktr 文件。我有一组 2 个作业和 2
html - 选择语句中的 PDI 参数
我想问一个关于Pentaho的问题。我正在使用 Pentaho 数据集成 (Kettle)。我想在 select 语句中使用参数。我搜索了各种论坛，但没有找到任何解决方案。我的问题是我想从不同的数据库
email - 使用 pentaho PDI 发送电子邮件
我想使用 PDI 发送电子邮件。我创建了一个工作并添加了“邮件”元素。有我的参数。 Server smtp.gmail.com Port: 587 Use Authentication User :
concat - Kettle PDI Concat 列值
我有一个执行 SQL 脚本的 PDI(Kettle)转换，脚本的输出是一列，如下所示: val1 val2 val3 val4 "more values"... 我需要像这样在一个 Excel 单元格
pentaho - PDI 或 mysqldump 提取数据而不阻塞数据库也不会获得不一致的数据？
我有一个定期运行的 ETL 流程。我使用kettle(PDI)从源数据库中提取数据并将其复制到阶段数据库。为此，我使用表输入和表输出步骤进行多种转换。但是，我认为如果在此过程中修改源数据库，我可能会获
hadoop - 无法使用 PDI 步骤连接到 HDFS
我已经在 Windows 8 系统的 Ubuntu 14.04 VM 中成功配置了 Hadoop 2.4。Hadoop 安装工作绝对正常，而且我能够从我的 Windows 浏览器查看 Namenode
arrays - PDI:同时从 MongoDB 展开两个数组
在 Spoon 中，我使用了 mongoDB 输入步骤。对于给定的表格文件.. {"Number": [ "4700100004" ], "Random": [ "unknown" ]
pentaho - 使用 Pentaho Kettle/PDI 将行列转换为行
Pentaho 全新(还有一张新手 SO 海报，所以要小心!) 我想使用 Kettle/PDI 来转换来自 RDBMS 的数据(例如): Question1 Question2 Questio
Pentaho PDI 无法加载 ESAPI.properties 作为类加载器资源
我正在运行全新安装的 Pentaho Data Integration 5.0.1.A Stable，来自: http://community.pentaho.com/projects/data-in
java - Kettle(PDI) 中出现 StackOverFlow 错误
大家，当我用kettle做循环时，出现了错误，kettle的内存是8G，我用了几百次循环，Kettle循环了1500次，当循环次数到700次左右时出现错误，请问如何解决解决它 ERROR (versi
testing - 从 pentaho pdi 中的输入表捕获执行的 sql
我正在使用 pentaho 进行数据迁移测试。我已经设置了一个“表输入”步骤，其中“表输入”中查询的许多部分都是变量。我一直在寻找一种在运行时执行后捕获该查询的方法。我想知道 sql 是否有任何特定的
java - 如何从 Java 使用数据库运行 PDI 转换？
我正在尝试从 Java 运行涉及数据库(任何数据库，但更喜欢 noSQL 数据库)的 PDI 转换。我试过使用 mongodb 和 cassandradb，但缺少插件，我已经在这里问过:Runnin
mongodb - PDI Kettle - 如何在 MongoDB 输出中为查询匹配指定 ObjectId
使用 PDI Kettle MongoDB 输出，我试图通过查询 _id (ObjectId) 字段来更新 mongodb 文档。如果我将 _id 变量作为字符串传递给 MongoDB 输出步骤，则创
PDI(Pentaho Kettle) Jar 文件的 Maven 依赖关系
我已经编写了 Java 代码来执行我的转换和作业，并且我已手动将 data-integration/lib 文件夹中存在的所有 Jar 文件添加到我的类路径中，并且一切工作正常。现在我想对我的项目进

首页

博学

6Ren·AI

商城

pentaho - PDI 或 mysqldump 提取数据而不阻塞数据库也不会获得不一致的数据？