gpt4 book ai didi

python - 编写更快的 Python 蜘蛛

转载 作者:太空狗 更新时间:2023-10-29 22:01:20 29 4
gpt4 key购买 nike

我正在用 Python 编写蜘蛛来抓取网站。问题是,我需要检查大约 250 万页,所以我真的需要一些帮助来优化它的速度。

我需要做的是检查一定数量的页面,如果找到就记录该页面的链接。蜘蛛非常简单,它只需要对很多页面进行排序。

我完全不熟悉 Python,但之前使用过 Java 和 C++。我还没有开始编码,所以任何关于要包含的库或框架的建议都会很棒。也非常感谢任何优化提示。

最佳答案

你可以使用 MapReduce就像谷歌一样,要么通过Hadoop (特别是 Python:12 ),Disco , 或 Happy .

传统的思路,是用标准的Python写你的程序,如果你觉得太慢了,profile it ,并优化特定的慢点。您可以使用 C/C++ 下降到 C 来加快这些慢点的速度。扩展甚至 ctypes .

如果您只抓取一个站点,请考虑使用 wget -r ( an example )。

关于python - 编写更快的 Python 蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1853673/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com