gpt4 book ai didi

amazon-web-services - AWS 胶水增量加载

转载 作者:行者123 更新时间:2023-12-05 00:46:49 25 4
gpt4 key购买 nike

我有一个 S3 存储桶,每天都在其中转储文件。 AWS 爬虫从这个位置爬取数据。在我的胶水作业运行的第一天,它会获取由 AWS 爬虫创建的表中存在的所有数据。例如,在第一天有三个文件。(即 file1.txt)。 txt,file2.txt,file3.txt) 和粘合作业在粘合作业执行的第一天处理这些文件。第二天,另外两个文件到达 S3 位置。现在在 S3 位置这些是存在的文件。(即 file1 .txt,file2.txt,file3.txt,file4.txt,file5.txt。我能否以某种方式设计我的 AWS 爬虫,使其在作业执行的第二天只读取两个文件(file4.txt,file5 .txt)?否则我如何编写 AWS 粘合作业来识别这些增量文件?

最佳答案

您需要为胶水启用 AWS 作业书签,它将能够保留已处理数据的状态。您可以引用以下链接了解如何操作。

aws glue job bookmark

关于amazon-web-services - AWS 胶水增量加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53577282/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com