- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个定期运行的 ETL 流程。我使用kettle(PDI)从源数据库中提取数据并将其复制到阶段数据库。为此,我使用表输入和表输出步骤进行多种转换。但是,我认为如果在此过程中修改源数据库,我可能会获得不一致的数据,因为这样我就无法获得数据的快照。另外,我不知道源数据库是否会被阻止。如果提取需要几分钟(并且确实需要几分钟),这将是一个问题。 PDI 的优点是我可以只选择必要的列并使用时间戳来仅获取新数据。
另一方面,我认为带有 --single-transaction 的 mysqldump 允许我以一致的方式获取数据,并且不会阻塞源数据库(所有表都是 innodb)。缺点是我会得到不必要的数据。
我可以使用 PDI,还是需要 mysqldump?
PD:我需要从特定数据库读取特定表,所以我认为 xtrabackup 这不是一个好的选择。
最佳答案
However, I think I could get inconsistent data if the source database is modified during the process, since this way I don't get a snapshot of the data
我认为“表输入”步骤没有考虑您阅读时发生的任何修改。尝试一个简单的实验:
获取具有单个表输入和表输出的 .ktr 文件。尝试将数据加载到目标表中。在数据加载过程中,在源数据库中插入少量记录。你会发现那些记录没有读入目标表。 (注意我尝试使用 postgresql 数据库,读取的行数为:1000000)
现在,对于您的问题,我建议您使用 PDI,因为它可以让您在版本控制、序列、SCD 和所有 DWBI 相关事件方面更好地控制数据。 PDI 使加载到舞台环境变得更加容易。而不是简单地转储整个表。
希望有帮助:)
关于pentaho - PDI 或 mysqldump 提取数据而不阻塞数据库也不会获得不一致的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32095059/
系统详细信息: Windows 7 Professional Processor :Intel Core i3 RAM: 3GB System Type : 32 Bit Operating Syst
我已经将hadoop单实例集群配置为在centos linux上使用某些IP地址(而不是localhost)运行。我能够正确执行示例mapreduce作业。这告诉我hadoop设置似乎很好。 我还添加
我在 PDI (Kettle) 中遇到 MySQL 问题。该错误出现在通过输入表读取信息的过程中。即使所有数据都成功地从基数中给出,也会出现此错误,并且可能不会影响转换。 Error comittin
传入通知消息的 Android Studio logcat 显示如下 []message[]。 我复制并粘贴到 .txt 文件,它显示 FSImessagePDI 。 这种字符“FSI”和“PDI”是
我希望获得与我的事实相关的每个字段的历史值(value)。我有四个字段,分别是 id、status、technical group 和 technicien。历史记录保存在另一个表中,包含 id、it
我正在使用 Pentaho Data Integration 进行 ETL 流程...我有多个 Excel 文件,需要将它们合并并上传到一个数据库中。但是,我无法将这些字段分发到数据库中相应的表中。我
前言 我已自动创建单个 .ktr 文件并编写脚本来处理源 (MySQL) 和目标 (InfoBright) 数据库之间的数据提取和同步。为每个表创建一个 .ktr 文件。 我有一组 2 个作业和 2
我想问一个关于Pentaho的问题。我正在使用 Pentaho 数据集成 (Kettle)。我想在 select 语句中使用参数。我搜索了各种论坛,但没有找到任何解决方案。我的问题是我想从不同的数据库
我想使用 PDI 发送电子邮件。我创建了一个工作并添加了“邮件”元素。有我的参数。 Server smtp.gmail.com Port: 587 Use Authentication User :
我有一个执行 SQL 脚本的 PDI(Kettle)转换,脚本的输出是一列,如下所示: val1 val2 val3 val4 "more values"... 我需要像这样在一个 Excel 单元格
我有一个定期运行的 ETL 流程。我使用kettle(PDI)从源数据库中提取数据并将其复制到阶段数据库。为此,我使用表输入和表输出步骤进行多种转换。但是,我认为如果在此过程中修改源数据库,我可能会获
我已经在 Windows 8 系统的 Ubuntu 14.04 VM 中成功配置了 Hadoop 2.4。Hadoop 安装工作绝对正常,而且我能够从我的 Windows 浏览器查看 Namenode
在 Spoon 中,我使用了 mongoDB 输入步骤。对于给定的表格文件.. {"Number": [ "4700100004" ], "Random": [ "unknown" ]
Pentaho 全新(还有一张新手 SO 海报,所以要小心!) 我想使用 Kettle/PDI 来转换来自 RDBMS 的数据(例如): Question1 Question2 Questio
我正在运行全新安装的 Pentaho Data Integration 5.0.1.A Stable,来自: http://community.pentaho.com/projects/data-in
大家,当我用kettle做循环时,出现了错误,kettle的内存是8G,我用了几百次循环,Kettle循环了1500次,当循环次数到700次左右时出现错误,请问如何解决解决它 ERROR (versi
我正在使用 pentaho 进行数据迁移测试。我已经设置了一个“表输入”步骤,其中“表输入”中查询的许多部分都是变量。我一直在寻找一种在运行时执行后捕获该查询的方法。我想知道 sql 是否有任何特定的
我正在尝试从 Java 运行涉及数据库(任何数据库,但更喜欢 noSQL 数据库)的 PDI 转换。 我试过使用 mongodb 和 cassandradb,但缺少插件,我已经在这里问过:Runnin
使用 PDI Kettle MongoDB 输出,我试图通过查询 _id (ObjectId) 字段来更新 mongodb 文档。如果我将 _id 变量作为字符串传递给 MongoDB 输出步骤,则创
我已经编写了 Java 代码来执行我的转换和作业,并且我已手动将 data-integration/lib 文件夹中存在的所有 Jar 文件添加到我的类路径中,并且一切工作正常。 现在我想对我的项目进
我是一名优秀的程序员,十分优秀!