gpt4 book ai didi

amazon-s3 - 使用 Glacier 作为网络爬虫的后端

转载 作者:行者123 更新时间:2023-12-03 08:23:49 26 4
gpt4 key购买 nike

我将在几个月内从 EC2 抓取数百万个 URL,我正在考虑应该将这些数据存储在何处。我的最终目标是分析它,但分析可能不会立即进行(尽管出于其他原因我现在想抓取它)并且我可能希望最终将数据的副本传输出去以存储在我拥有的本地设备上.我估计数据将在 5TB 左右。

我的问题:我正在考虑为此使用 Glacier,我的想法是我将运行一个多线程爬虫,在本地(在 EB 上)存储爬取的页面,然后使用一个单独的线程将数据组合、压缩和穿梭到冰川。我知道 Glacier 上的传输速度不一定好,但由于这个过程没有在线元素,这似乎是可行的(特别是因为我总是可以增加本地 EBS 卷的大小,以防我爬得比我快存储到 Glacier)。

我的方法是否存在缺陷,或者任何人都可以建议一种更具成本效益、更可靠的方法来做到这一点?

谢谢!

最佳答案

Redshift 似乎比 Glacier 更相关。 Glacier 是关于卡住/解冻的,您必须在进行任何分析之前移动数据。

Redshift 更多的是将数据添加到一个大型、廉价的数据仓库中并对其运行查询。

另一种选择是将数据存储在 EBS 中并将其留在那里。完成爬网后,拍摄快照以将卷推送到 S3 并停用卷和 EC2 实例。然后,当您准备好进行分析时,只需从快照创建一个卷即可。

这种方法的好处是它是所有文件访问(没有正式的数据存储),这对您来说可能更容易。

就个人而言,我可能会将数据推送到 Redshift 中。 :-)

--克里斯

关于amazon-s3 - 使用 Glacier 作为网络爬虫的后端,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16364843/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com