gpt4 book ai didi

web-crawler - 确定使用技术构建的最佳爬虫?

转载 作者:行者123 更新时间:2023-12-04 02:30:35 25 4
gpt4 key购买 nike

Builtwith.com 和类似服务提供(收费)使用特定技术(如 SalesForce 或 NationBuilder)构建的域列表。有一些我感兴趣的技术 builtwith 没有扫描,可能是因为它们的市场占有率太小。

如果我们知道网页的某些签名表明某网站使用了某种技术,那么识别尽可能多的这些网站的最佳方法是什么?我们预计有 1000 个,我们对流量排名前 1000 万的网站感兴趣。 (我们认为最大的网站不会使用这项技术。)

我有一份开源网络爬虫列表 - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - 但我的用例似乎与爬虫的许多常规标准不同,因为我们只想保存具有此签名的域的“命中”。所以我们不需要很快,但我们确实需要检查站点的所有页面直到找到匹配项,只使用负责任的抓取实践等。什么是最好的?

或者不是调整爬虫并运行它,有没有办法让 Google 或其他搜索引擎找到页面特征而不是用户可见的内容,这将是更好的方法?

最佳答案

您确实可以调整一个开源网络爬虫。您发布的链接提到了大量资源,但是一旦您删除了未维护的资源和未分发的资源,您将不会留下很多资源。根据定义,您不知道哪些站点包含您要查找的签名,因此您必须获得前 1000 万个站点的列表并对其进行爬网,这是一项重要的操作,但使用诸如Apache Nutch 或 StormCrawler (未在您发布的链接中列出)[免责声明我是 Nutch 的提交者和 SC 的作者]

另一种更便宜、更快捷的方法是处理 CommonCrawl datasets .他们每月提供大量网络抓取数据,并为您完成抓取网络的工作——包括礼貌等……当然,他们的数据集不会有完美的覆盖范围,但这和你得到的一样好如果您要自己运行爬网。这也是检查您的初始假设和用于检测超大数据签名的代码的好方法。我通常建议在开始网络大小的爬网之前处理 CC。 CC 网站包含有关库和处理它的代码的详细信息。

当我为我的客户处理 CC 时,大多数人(包括我自己)所做的是使用 MapReduce 实现处理并在 AWS EMR 上运行它。成本当然取决于处理的复杂性,但硬件预算通常在数百美元。

希望对你有帮助

编辑:DZone此后重新发布了我的一篇关于使用 CommonCrawl 的博文。

关于web-crawler - 确定使用技术构建的最佳爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43058874/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com