python - 需要为将要解析 800 万个页面的高效网络爬虫提供设计建议

python - 需要为将要解析 800 万个页面的高效网络爬虫提供设计建议 - Python

转载作者：太空宇宙更新时间：2023-11-03 11:10:06

25

4

关闭。这个问题需要更多focused .它目前不接受答案。

想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post .

2年前关闭。

Improve this question

我将开发一个小爬虫，它会从同一个网站上获取很多页面，所有的请求都是更改 url 的 ID 号。

我需要把我解析的所有数据保存成一个csv(没什么特别的)，最多我会爬取大约6M-8M的页面，其中大部分不包含我想要的数据，我知道大约有400K我需要解析的页面，它们的结构都相似，我无法避免抓取所有的 url。

这就是我获取数据时页面的外观 - http://pastebin.com/3DYPhPRg

那是我没有得到数据的时候 - http://pastebin.com/YwxXAmih

数据保存在 td 内的跨度中 -

I need the data between ">" and "</span>".

<span id="lblCompanyNumber">520000472</span></td>
<span id="lblCompanyNameHeb">חברת החשמל לישראל בעמ</span></td>
<span id="lblStatus">פעילה</span></td>
<span id="lblCorporationType">חברה ציבורית</span></td>
<span id="lblGovCompanyType">חברה  ממשלתית</span></td>
<span id="lblLimitType">מוגבלת</span></td>
etc'

从文档中解析出来并不难。

问题是获取url并解析它们需要几天时间，它会消耗大量内存，我认为它会在这里崩溃，这对我来说非常危险，除非它崩溃它不能再运行了。

我想过——

 - fetching a url (urllib2)
      - if there's an error - move next (if it'll happen 5 times - I stop and save errors to log)
 - parse the html (still don't know whats best - BeautifulSoup \ lxml \
    scrapy \ HTMLParser etc')
      - if it's empty (lblCompanyNumber will be empty) save the ID in the emptyCsvFile.csv
 - else: save the data to goodResults.csv

问题是——

我应该使用哪些数据类型以提高效率和速度(对于我解析的数据和获取的内容)？

我应该使用哪个 HTML 解析库？也许正则表达式？ span id 是固定的，当有数据时不会改变(再次，高效，速度，简单)

保存到文件，保持文件句柄这么长时间等等' - 有没有一种方法可以占用更少的资源并且更有效地保存数据？ (至少 40 万行)

我还没有想过和需要处理的其他任何事情，也许还有一些优化技巧:)

我想到的另一个解决方案是使用 wget，将所有页面保存到磁盘，然后删除所有与空文档具有相同 md5sum 的文件，唯一的问题是我没有保存空 ID。

顺便说一下，我需要使用 py2exe 并用它制作一个 exe，所以像 scrapy 这样的东西在这里很难使用(众所周知，它会导致 py2exe 出现问题)。

谢谢!

最佳答案

我将 httplib2 用于这种事情，因为 Python 标准库例程中应该存在内存泄漏。此外，httplib2 可以配置为保留缓存，如果您必须重新启动和重做某些页面，这可能很有用。

我只运行了 170 万页加上来自另一台服务器的大约 200000 页，因此我无法评论您期望的数量。

但是我使用带有主题交换和持久消息队列(delivery_mode=2)的 AMQP 来插入这一切。这将 ny id 输入到使用 httplib2 的 worker 中，并确保检索到每个 id。我使用内存缓存跟踪它们，该内存缓存使用磁盘上的东京暴君哈希表持久化。我能够关闭并重新启动 worker 并在机器之间移动它们而不会丢失任何 ID。在我杀死它以修补它之前，我已经让 worker 一次运行了两个三周。

另外，我使用 lxml 来解析响应，因为它很快。

哦，在成功检索和处理页面后，我将 id 作为消息发布到已完成的队列。然后我手动从该队列中复制消息并将其与输入列表进行比较以确保整个过程是可靠的。

对于 AMQP，我使用 amqplib 和 RabbitMQ 作为代理。现在，我建议您查看 AMQP 的 haigha。尽管它的文档很少，但它的模型严格遵循 AMQP 0.9.1 规范文档，因此您可以使用它们来找出选项等。

@YSY:我无法剪切和粘贴代码，因为我是在工作中完成的，但这没什么特别的。只是一个带有 try: except: 的循环，包裹在 http 请求中。像这样的东西:

retries = 5
while retries > 0:
    requestSucceeded = True # assume the best
    try:
        resp, content = h.request("http://www.example.com/db/1234567")
        if resp is None:
            requestSucceeded = False
            log.warn ("1234567: no http response")
        elif resp.status != 200:
            requestSucceeded = False
            log.warn ("1234567: replied with {0:d}".format(resp.status))
    except Exception as e:
        requestSuceeded = False
        log.warn("1234567: exception - " + str(e)) 
    if not requestSucceeded:
        time.sleep(30)
        retries -= 1
    else:
        retries = 0
if requestSucceded:
    process_request()
    ack_message()

llop 处理两种类型的失败，一种是 HTTP 服务器与我们交谈但不返回回复，另一种是出现异常，可能是网络错误或其他任何事情。您可以更复杂，并以不同的方式处理不同的故障情况。但这通常有效。调整 sleep 时间并重试，直到成功率超过 90%，然后再处理其余的。我相信我现在正在使用半小时 sleep 和 3 次重试，或者可能是 15 分钟的 sleep 。真的不重要。

完整运行后，我处理结果(日志和已完成消息列表)以确保它们同意，以及任何未能检索到的文档，我在放弃之前再次尝试。当然，如果我能想出办法，我会扫描日志寻找类似的问题并调整我的代码来处理它们。

或者你可以谷歌“scrapy”。那可能对你有用。就个人而言，我喜欢使用 AMQP 来控制整个过程。

关于python - 需要为将要解析 800 万个页面的高效网络爬虫提供设计建议 - Python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6751306/

25

4

0

文章推荐： Python和excel读取文件问题

文章推荐： c# - 何时使用 ISourceBlock 或 IObservable

文章推荐： c# - 使用 MVP 模式编写用户界面设置类

文章推荐： python - 如何包含要查找的列，但将其从 GROUP BY 中排除？

javascript - 在父选项卡(页面)上显示叠加层，直到打开其所有子选项卡(页面)
假设我有父页面。当我单击“打印”时，会打开一个新选项卡(页面)以进行打印预览。我想要的是，当我单击“打印”时，父选项卡(页面)上应显示覆盖层，以停止进一步的工作，直到子选项卡关闭。 Because
javascript - 如何从 HTTPS 页面 POST 数据到 HTTP 页面
我知道这是不可能的，但我想我还是会问这个问题。我有一个 HTTPS 页面，并且正在动态创建一个表单。我想将表单发布到 HTTP 页面。在浏览器不弹出警告的情况下这可能吗？当我在 IE8 上执行此操作
javascript - 将 .aspx 页面 html 渲染/调用到另一个 .aspx 页面
在我的应用程序中，我实现了ajax 4.0客户端模板目前我的模板位于同一个.aspx页面上。 (例如 Main.aspx) 但我想将它们外部化。(即所有 HTML 都会放在另一个页面上) 为此，我使
javascript - 锁定/卡住导航栏/整个 html 页面，直到加载其他 html 页面
我目前正在构建自己的网络应用程序。在此应用程序的标题中有一个导航栏。我将相同的导航栏添加到我的所有 html 页面，以便在页面之间导航时保持可见，并将导航元素设置为事件到我现在所在的页面。我的
iis-7 - Windows 身份验证不适用于经典 ASP 页面(但适用于同一站点中的 ASP.Net 页面)
我们有一个在集成管道下运行的 IIS7 Intranet 站点，该管道主要是 ASP.Net，带有一些传统的经典 ASP 页面。该站点允许匿名访问大多数区域，但使用 Windows 身份验证来保护某些
c# - 如何将长 HTML 文件拆分为单独的相互链接的页面，例如页面 1、页面 2、页面 3
有一个要求，我需要根据 div 标签的高度超过 700 像素的条件将大型 HTML 页面拆分为多个页面。我还可以根据字数拆分页面。下面的示例根据 HTML 标签分割页面，而我需要根据 div 高度
html - 如何在不使用 jquery 的情况下在另一个 html 页面 div 中显示 html 页面
有两个 html 页面，如果在第一个页面中单击特定图像，它将转到第二个 html 页面。如果在第二个 html 页面上的任何地方单击它应该返回到第一页并将第二页完全显示在第一页的一个 div 中 1s
haskell - Servant 中的 Html 页面——如何结合 REST API 和静态 html 页面？
我有一个简单的 hello world Servant 应用程序。我需要向它添加一些静态或动态的 html 页面。我怎样才能做到这一点？在文档中没有提到它。注意我不想在 Haskell 代码中创建 h
javascript - jQuery 将外部 html 页面 <title> 插入另一个 html 页面
我有两个文件 index.html 和 index2.html。这两个文件都在本地机器上的同一目录中(无法访问 PHP 等)。我正在努力 Page Title 使用 jQuery 从 index.h
java - 为一个 Servlet 创建一个动态前端 JSP 页面，同时将 Servlet 的输出显示到 JSP 页面
假设我有一个 JSP 页面 index.jsp User id:
javascript - 页面 A 将值发布到页面 B，页面 B 使用 cURL 向页面 C 发送另一个帖子，并将响应返回到页面 A
我面临着一个对我来说非常陌生的情况。我会尽力让事情变得简单来解释它一步一步来。 1)在页面 A(用户表单)中，我从字段中获取一些值并将其作为 jQuery AJAX POST 发送到页面 B。这是主要
javascript - JQuery 函数点击 html 页面 1 上的按钮，影响 html 页面 2 的列
我正在尝试弄清楚如何从 buttons.html 获取用户按钮点击动态切换第二个列的可见性 userinput.html 。我正在使用 DataTables userinput.html表并认为我有
asp.net-mvc - angularjs 仅带有 cshtml 页面，而不是带有 web api 2 的 html 页面
我有asp。净 mvc4 项目。 Angularjs 已集成。我已经按照以前的要求构建了 HTML 页面和 WEB API 2。现在出于某种原因，我必须使用 CSHTML 页面。以前我只有 web
WordPress 页面 - 未找到页面
我的网站包含大约 18 个不同的页面。以管理员身份登录后，我单击“页面”。我看到了以下内容 All (20) | Mine (19) | Published (19) | Draft (1) No
Haskell "man"页面？
Haskell 中每个函数都有手册页吗？换句话说，我可以在某处输入 man fst 并获取有关该函数的手册或帮助页面吗？我发现大量的功能势不可挡! 我正在使用 GHC 和 GHCi。最佳答案我不知
Github 页面 - 禁用除单个站点之外的所有站点的自定义域重定向？
我一直在用github pages很长一段时间以来，并使用自定义域重定向功能来重定向我的 user website来自 prahladyeri.github.io到我自己的域名 https://www
显示旧代码的 Github 页面
我对 Github 有一个基本的了解:我知道如何创建、添加、提交、推送和克隆存储库。我也开始探索 Github 页面来托管我的项目。我的最新项目于 3 月开始并将其推送到 gh-page。从那以后，我
Airflow Ooops 页面
在尝试查看日志时，Airflow 会抛出一个带有以下消息的 oops 页面: File "/Users/user/.pyenv/versions/3.5.2/lib/python3.5/locale.
GitHub 页面 - 网址重写支持
我已经按照此处列出的步骤 (https://pages.github.com/) 为我正在处理的网站设置了一个 GitHub 页面我设置的站点当前托管在 IIS 下，并使用 URL Rewrite
将域重定向到 Openshift 页面
我想将我的 domain.com 重定向到 openshift 页面 (openshift-app.rhcloud.com)。我已经按照描述完成了 here它有效。唯一的问题是，在任何网站上，我都不会

首页

博学

6Ren·AI

商城

python - 需要为将要解析 800 万个页面的高效网络爬虫提供设计建议 - Python