gpt4 book ai didi

python - 从许多网页中获取数据的最佳方式(线程/事件驱动)

转载 作者:太空宇宙 更新时间:2023-11-03 16:10:07 25 4
gpt4 key购买 nike

我不想以任何理由进行圣战,只是为了获得建议并继续开发。

我需要写一些类似爬虫的东西,它必须能够从 URL 列表中获取一些数据并对其进行解析。

我将使用 Ruby(mechanize + nokogiri)或 Python(mechanize + beautifulsoup)。

但我需要进行并行数据处理以提高效率。这对我来说是个大问题。

据我所知,Mechanize(对于两种语言)不是线程安全的,使用线程也不是许多程序员所说的“良好做法”。从另一方面来说,我不知道事件驱动的编程技术以及如何在我的案例中使用它。

感谢任何帮助。谢谢。

最佳答案

我一直在使用 Scrapy取得了巨大的成功。它非常简单,同时允许多个爬虫。输出到 json、xml 等或直接输出到数据库。绝对值得一看。

关于python - 从许多网页中获取数据的最佳方式(线程/事件驱动),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5834698/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com