amazon-web-services - AWS Glue : Do I really need a Crawler for new content?-6ren

amazon-web-services - AWS Glue : Do I really need a Crawler for new content?

转载作者：行者123 更新时间：2023-12-03 13:51:04

我从AWS Glue文档中了解到的是一个craweler，它将有助于爬网和发现新数据。但是，我注意到，一旦爬网一次，如果新数据进入S3，则实际上当我从Athena查询数据目录时就已经发现了该数据。因此，可以说我不需要爬网程序每次添加新数据时都进行爬网，除非有新的架构？

实际上，如果我知道文件的架构，就可以手动创建表，而无需使用搜寻器，对吗？

最佳答案

如果数据被某些键分区(放置在子文件夹中，如/data/year=2018/month=11/day=2)，则您需要一个搜寻器在数据目录中注册新添加的分区(即/day=3)，以便能够通过Athena进行查询。

但是，如果数据未分区或进入已注册的分区，则无需运行搜寻器。

除了运行搜寻器之外，您还可以通过运行Athena command MSCK REPAIR TABLE <table> 或registering them manually来发现并注册新分区。

在数据目录中创建表的最简单方法是运行搜寻器。但是，如果您了解架构并耐心编写 CREATE TABLE Athena query或通过AWS Glue console填写所有字段，那么您也可以采用这种方式。

关于amazon-web-services - AWS Glue : Do I really need a Crawler for new content?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53127862/

文章推荐： r - 具有重复值的两个向量之间的“Set Difference”

文章推荐： npm - package.json 中的主键是必需的吗？

文章推荐： c# - 将 Serilog ILogger 添加到静态类

文章推荐： typescript - 如何键入检查内存中的 TypeScript 代码片段？

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

amazon-web-services - AWS Glue : Do I really need a Crawler for new content?