amazon-web-services - AWS 更新雅典娜元 : Glue Crawler vs MSCK Repair Table-6ren

amazon-web-services - AWS 更新雅典娜元 : Glue Crawler vs MSCK Repair Table

转载作者：行者123 更新时间：2023-12-03 16:23:36

25

4

当新分区添加到 Athena 表时，我们可以使用 Glue Crawler 或 MSCK REPAIR TABLE 来更新元信息。他们的成本是多少？哪一个是首选？

最佳答案

MSCK REPAIR TABLE命令要求您的 S3 key 将分区方案包含为 documented here .如果您的 S3 key 不包含分区方案，则 MSCK REPAIR TABLE命令将返回丢失的分区，但您仍然需要添加它们。另外一个区别是 MSCK REPAIR TABLE命令可以在 30 分钟后超时(默认 Athena 查询时间长度)，而胶水爬虫不会。

以下是定价信息:

Glue Crawler :

There is an hourly rate for AWS Glue crawler runtime to discover data and populate the AWS Glue Data Catalog. You are charged an hourly rate based on the number of Data Processing Units (or DPUs) used to run your crawler. A single Data Processing Unit (DPU) provides 4 vCPU and 16 GB of memory. You are billed in increments of 1 second, rounded up to the nearest second, with a 10-minute minimum duration for each crawl. Use of AWS Glue crawlers is optional, and you can populate the AWS Glue Data Catalog directly through the API.

Pricing

For all AWS Regions where AWS Glue is available: $0.44 per DPU-Hour, billed per second, with a 10-minute minimum per crawler run

Athena :

There are no charges for Data Definition Language (DDL) statements like CREATE/ALTER/DROP TABLE, statements for managing partitions, or failed queries.

但是，除了这两个命令之外，您仍然会产生 S3 成本。引用: AWS Athena: does `msck repair table` incur costs?

我的意见是，如果可以，最好在添加新数据后自己管理分区。

'ALTER TABLE database.table ADD
PARTITION (partition_name='PartitionValue') location 's3://bucket/path/partition'

如果被迫使用 Glue 或 Athena，我会评估哪种方式更适合您的流程。 MSCK REPAIR TABLE命令可能更易于管理，但如果分区中有大量数据或未正确分区，则可能会遇到麻烦。此外，您必须有一种方法来自动运行命令。 Glue Crawler 可以配置触发器。

关于amazon-web-services - AWS 更新雅典娜元 : Glue Crawler vs MSCK Repair Table，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56281554/

25

4

0

文章推荐： macos - NSView 自动调整大小以适应内容 View

文章推荐： google-chrome-extension - 在网上商店更新谷歌浏览器扩展

文章推荐： macos - 如何在沙盒应用程序中添加快速查看生成器？

文章推荐： android-studio - 在 Android Studio 中检查元素

web-crawler - 什么是好的 Web Crawler 工具
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
web-crawler - 面试问题: Honeypots and web crawlers
我最近在准备面试时读了一本书，并遇到了以下问题: 当你的爬虫遇到一个蜜 jar 并生成一个无限子图供你漫步时，你会怎么做？我想找到这个问题的一些解决方案。就我个人而言，我会采用某种形式的深度有限搜索
web-crawler - 分类网站
我需要抓取一千个共享相同结构的网站:它们都有一个菜单、一个标题、一些文本和一个评级，很像一个博客。不幸的是，它们的编码也非常不同，有些是手动的，所以我不能重新利用 CSS 选择器，甚至可能不依赖它们。
web-crawler - 哪个网络爬虫用于从大约一千个网站中提取和解析数据
我正在尝试抓取大约一千个网站，其中我只对 html 内容感兴趣。然后我将 HTML 转换为 XML 以使用 Xpath 进行解析以提取我感兴趣的特定内容。我已经使用 Heritrix 2.0 爬虫
web-crawler - 网络爬虫更新策略
我想从某些网站抓取有用的资源(如背景图片..)。这不是一项艰巨的工作，尤其是在一些很棒的项目(如scrapy)的帮助下。这里的问题是我不仅只想抓取这个网站一次。我还想保持我的爬网长时间运行并爬网更新
web-crawler - 运行nutch爬虫时爬取的数据存放在哪里？
我是 Nutch 的新手。我需要抓取网页(比如几百个网页)，读取抓取的数据并进行一些分析。我点击了链接 https://wiki.apache.org/nutch/NutchTutorial (并且
web-crawler - 我实际抓取网站的速度有多快？
我要爬一个网站以获取一些信息。它大约有 170 000 多页。那么，我可以提出多少请求？我要提取直到 HTML 并获取一些信息。这是一个已经很受欢迎的网站，所以我认为如果只是快速浏览所有页面它不会死.
web-crawler - 不抓取相同的内容两次
我正在构建一个小型应用程序，它将抓取内容不断增长的站点(如在 stackoverflow 上)，不同之处在于一旦创建的内容很少被修改。现在，在第一遍中，我抓取了站点中的所有页面。但接下来，该站点的
web-crawler - 哪个开源爬虫最好？
我在比较这四个 Nutch/Heritrix/OpenPipeLine/Apache Tika 哪一个最好？各自的优缺点是什么？我想要一些可扩展的爬虫，它可以爬取网站列表，并且可以根据需要进行修改。
web-crawler - 从文章中提取作者
正如标题所说，我一直在努力爬取文章，剩下的就是作者。下面是我的代码，使用pyquery编译段落和作者，只有作者返回空白目标站点:http://business.transworld.net/153
web-crawler - 旅游搜索引擎和聚合器如何获取源数据？
我正在为旅游搜索引擎考虑一些想法，我想知道这些网站是如何获取它们的源数据的。他们是否从航空公司主页上抓取了所有内容？考虑到航空公司等的数量，这似乎是一项艰巨的工作。是否有每个航空公司也遵守的 API
web-crawler - 测试网络爬虫的好网站
我正在测试一个新的网络爬虫，我正在寻找一些可能会绊倒它的好网站(重定向、框架、任何东西)。有人知道一些非常复杂的网站，或者可能会出错的网站吗？谢谢最佳答案如果你在 Alexa 前 1000 名左右
web-crawler - 如何从谷歌的索引中排除网页的一部分？
有一种方法可以从 google 的索引中排除完整的页面。但是有没有办法专门从谷歌的抓取中排除网页的某些部分？例如，排除通常包含不相关内容的侧边栏？最佳答案您可以使用 IFRAME 标记包含要在 G
web-crawler - 如何使用scrapy提取网站的链接图？
给定一个起始 URL start (以及关于可允许域等的一些规则)我想生成一个有向图(V，E)，其中 V 中的节点是否可以从 start 访问页面，并且有一条弧线 (u,v)在 E每当页面上有超链接时
web-crawler - 在爬网中获得超过请求的限制
我正在开发一个Web爬网程序，该爬网程序可以为不想被索引的网站编制索引。我的第一次尝试: 我编写了一个C#搜寻器，它遍历每个页面并下载它们。这导致我的IP在10分钟内被其服务器阻塞。我将其移至A
web-crawler - 用于抓取和挖掘网站数据的最佳开源库或应用程序
我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫属性(property)机构，我想从多个站点获取信息并将它们聚合到我自己的站点中。为此，我需要抓取网站并提取属性(p
web-crawler - 确定使用技术构建的最佳爬虫？
Builtwith.com 和类似服务提供(收费)使用特定技术(如 SalesForce 或 NationBuilder)构建的域列表。有一些我感兴趣的技术 builtwith 没有扫描，可能是因为它
web-crawler - 在scrapy中动态start_urls
我正在使用scrapy 来抓取站点上的多个页面。变量 start_urls用于定义要抓取的页面。我最初会从第一页开始，从而定义 start_urls = [1st page]在文件中 exampl
web-crawler - 如何爬取数十亿页面？
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 8年前关闭。 Improve this questi
web-crawler - 如何让搜索爬虫正确索引无限滚动的页面？
我有一个实现无限滚动的网站:当用户到达页面末尾时，会进行 AJAX 调用并将新内容附加到页面底部。然而，这意味着搜索爬虫无法获取第一个“分页符”之后的所有内容。例如，我有一个页面列出了所有带有“信息图

首页

博学

6Ren·AI

商城

amazon-web-services - AWS 更新雅典娜元 : Glue Crawler vs MSCK Repair Table