gpt4 book ai didi

google-app-engine - 为谷歌应用引擎上的选定站点运行网络爬虫?

转载 作者:太空宇宙 更新时间:2023-11-03 15:33:53 25 4
gpt4 key购买 nike

我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。

我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。

也许我可以尝试使用 Nutch 为我做这件事。

这种完成方式的可行性如何?

1) 在谷歌基础设施上托管一个爬虫2) Nutch + App Engine- 有可能吗?

最佳答案

只是浏览了 nutch docs ,我看到评论如“[t]his is the second release of Nutch entirely based on the underlying Hadoop platform”这让我怀疑这不会在 App Engine 上运行. App Engine 应用程序在 Python 中运行或 Java沙盒。

也就是说,您应该能够在 App Egnine 上组合一个基本的爬虫。我的基本实现可能涉及启动 tasks使用 urlfetch抓取页面,然后,可选地,插入额外的任务来处理文档链接到的链接。您可以使用 scheduled tasks 开始爬网.

关于google-app-engine - 为谷歌应用引擎上的选定站点运行网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4364950/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com