gpt4 book ai didi

amazon-web-services - 抓取未在 S3 事件模式下运行

转载 作者:行者123 更新时间:2023-12-04 07:24:05 26 4
gpt4 key购买 nike

运行指向 S3 的 AWS Glue 爬网程序时,CloudWatch 中的第二个日志条目始终为:

Crawl is not running in S3 event mode


什么是 S3 事件模式?
这个名字听起来像是让 S3 在每个对象上传到前缀后调用 Glue 进行部分抓取的某种方式。但据我所知,这样的功能并不存在。那么这个日志条目指的是什么?
我在 Glue documentation 中找到的最接近的东西是 event based triggers for Glue jobs ,但 Glue Jobs 与 Glue Crawler 不同。
重现步骤
  • 创建一个胶水爬虫。选择任何配置。将其指向具有任何数据集(甚至是空数据集)的任何 S3 存储桶中的任何位置
  • 运行爬虫。爬行失败还是成功都没有关系
  • 打开该爬网的日志
  • 查看第二个日志条目
  • 2021-07-01T20:04:39.882+10:00
    [6588c8ba-57e2-46e3-94b4-1bc4dfc5957d] BENCHMARK : Running Start Crawl for Crawler my-crawler
    2021-07-01T20:04:40.200+10:00
    [6588c8ba-57e2-46e3-94b4-1bc4dfc5957d] INFO : Crawl is not running in S3 event mode

    最佳答案

    AWS Support 给了我答案。
    S3 事件模式是 AWS 内部可用的功能。正如我怀疑的那样,这意味着 S3 会为每个文件上传触发爬虫爬网。但此功能目前不公开。

    关于amazon-web-services - 抓取未在 S3 事件模式下运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68309438/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com