gpt4 book ai didi

import.io - 运行爬虫不会得到与训练时相同的数据

转载 作者:行者123 更新时间:2023-12-04 11:22:51 27 4
gpt4 key购买 nike

在训练我的爬虫抓取 Yelp 页面时,它在我不做任何事情的情况下获取了所有信息,但是当我运行爬虫时,地址无法识别,也没有记录。

最佳答案

从 Yelp 获取公司数据

在这种情况下,我们希望从网站 www.yelp.com 获取旧金山公司的地址。

网站分析

我们可以从此页面获得以字母“A”开头的公司列表:

http://www.yelp.com/sm/san-francisco-ca-us/a/1

此目录页面告诉我们“A”有 42 页结果,每页最多 80 个结果。

这是个好消息。

创建 API

我现在将创建一个 API 来从第一页获取数据,然后使用批量提取将 URL 列表传递到所有 42 个页面。

使用 Magic,我只需点击几下即可生成 API:
  • 转至 Magic.import.io
  • 将 URL 粘贴到 Yelp 页面(上面的链接)
  • 点击“提取数据”
  • 点击“获取API”
  • 单击“将此复制到我的数据”

  • 现在我们有了一个 API!

    (请注意,如果您需要更多地控制从 API 中包含或排除的内容,您可以使用提取器)

    生成 URL 列表

    要生成允许我们从第 1 页到第 42 页获取数据的 URL 列表,我将使用托管在以下位置的外部服务:

    http://texttool.blogspot.co.uk/

    找到“生成数字列表”工具并生成一个 URL 列表:
    http://www.yelp.com/sm/san-francisco-ca-us/a/1
    http://www.yelp.com/sm/san-francisco-ca-us/a/2
    http://www.yelp.com/sm/san-francisco-ca-us/a/3
    http://www.yelp.com/sm/san-francisco-ca-us/a/4
    http://www.yelp.com/sm/san-francisco-ca-us/a/5
    http://www.yelp.com/sm/san-francisco-ca-us/a/6
    http://www.yelp.com/sm/san-francisco-ca-us/a/7
    http://www.yelp.com/sm/san-francisco-ca-us/a/8
    http://www.yelp.com/sm/san-francisco-ca-us/a/9
    http://www.yelp.com/sm/san-francisco-ca-us/a/10
    http://www.yelp.com/sm/san-francisco-ca-us/a/11
    http://www.yelp.com/sm/san-francisco-ca-us/a/12
    http://www.yelp.com/sm/san-francisco-ca-us/a/13
    http://www.yelp.com/sm/san-francisco-ca-us/a/14
    http://www.yelp.com/sm/san-francisco-ca-us/a/15
    http://www.yelp.com/sm/san-francisco-ca-us/a/16
    http://www.yelp.com/sm/san-francisco-ca-us/a/17
    http://www.yelp.com/sm/san-francisco-ca-us/a/18
    http://www.yelp.com/sm/san-francisco-ca-us/a/19
    http://www.yelp.com/sm/san-francisco-ca-us/a/20
    http://www.yelp.com/sm/san-francisco-ca-us/a/21
    http://www.yelp.com/sm/san-francisco-ca-us/a/22
    http://www.yelp.com/sm/san-francisco-ca-us/a/23
    http://www.yelp.com/sm/san-francisco-ca-us/a/24
    http://www.yelp.com/sm/san-francisco-ca-us/a/25
    http://www.yelp.com/sm/san-francisco-ca-us/a/26
    http://www.yelp.com/sm/san-francisco-ca-us/a/27
    http://www.yelp.com/sm/san-francisco-ca-us/a/28
    http://www.yelp.com/sm/san-francisco-ca-us/a/29
    http://www.yelp.com/sm/san-francisco-ca-us/a/30
    http://www.yelp.com/sm/san-francisco-ca-us/a/31
    http://www.yelp.com/sm/san-francisco-ca-us/a/32
    http://www.yelp.com/sm/san-francisco-ca-us/a/33
    http://www.yelp.com/sm/san-francisco-ca-us/a/34
    http://www.yelp.com/sm/san-francisco-ca-us/a/35
    http://www.yelp.com/sm/san-francisco-ca-us/a/36
    http://www.yelp.com/sm/san-francisco-ca-us/a/37
    http://www.yelp.com/sm/san-francisco-ca-us/a/38
    http://www.yelp.com/sm/san-francisco-ca-us/a/39
    http://www.yelp.com/sm/san-francisco-ca-us/a/40
    http://www.yelp.com/sm/san-francisco-ca-us/a/41
    http://www.yelp.com/sm/san-francisco-ca-us/a/42

    批量提取

    现在,您可以使用批量提取一次性从每个 URL 中获取数据。

    去做这个:
  • 转到 Yelp API 上的“配置”选项卡
  • 从下拉菜单中选择批量提取
  • 粘贴到 42 个 URL 列表中
  • 点击“运行查询”

  • 注意:您可能会收到一些失败的查询。通过单击“X URLs failed”文本,您可以重试失败的查询。

    导出

    您现在可以将此数据以 HTML 或 JSON 格式导出到电子表格。

    进一步阅读

    http://support.import.io/knowledgebase/articles/669784-getting-company-data-from-yelp

    关于import.io - 运行爬虫不会得到与训练时相同的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31395343/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com