gpt4 book ai didi

caching - Talend 中 thashoutput/input 和 tbufferoutput/input 之间的区别

转载 作者:行者123 更新时间:2023-12-02 18:53:42 28 4
gpt4 key购买 nike

我不太清楚在 Talend 中使用 tHash 和 tBuffer 组件之间的区别。

我正在考虑将 tMap 的结果存储在 Impala 表中,并将另一个副本存储在内存(缓存)中,并对其执行其他转换以最终写入表。

最佳答案

它们可用于类似的目的,但哈希和缓冲区组件之间存在一些明显的差异。

它们都通过将结果集存储在内存中来工作,但哈希组件允许您存储多个哈希对象并检索特定的哈希集。如果您需要临时存储多个结果集,然后以某种方式将它们连接回来,例如转换多个数据源,然后将数据以单个条目的形式写入目标,这会很有用。您还可以将一个散列的输出附加到另一个散列以写入同一数据集。

缓冲区组件只有一个仅附加选项,其中多个缓冲区输出将写入同一个共享缓冲区。这使得它不如哈希组件灵活,但对于许多任务仍然有用。

与哈希组件相比,缓冲区组件提供的额外功能是父作业可以读取缓冲区,以将数据发送回调用父作业。如果您想要将 Talend 作业部署为 Web 服务并从中返回数据,也可以使用相同的机制,如 this tutorial 中所示。 .

类似空间中的其他选项,但更多的是当您开始处理无法轻松在内存中处理的大量数据(但由于某种原因需要完全包含在内存中而不是迭代)时,可以使用tCache我知道这里的其他一些海报非常喜欢的组件系列(尽管我还需要)。这与哈希组件类似,但如果需要的话也会溢出到磁盘。

嵌入式 H2 数据库也可以在内存中运行,以提供类似的效果和更多的选项,但会增加工作的复杂性。

关于caching - Talend 中 thashoutput/input 和 tbufferoutput/input 之间的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27304990/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com