gpt4 book ai didi

javascript - 如何在 NodeJS 中制作一个简单的网络抓取工具?

转载 作者:搜寻专家 更新时间:2023-11-01 00:33:46 25 4
gpt4 key购买 nike

我正在尝试创建一个简单的网络抓取工具,它执行如下操作:

  1. 转到 yellowpages.com
  2. 选择第一个尚未抓取的类别
  3. 点击它尚未抓取的第一个业务
  4. 抓取企业的名称、电话号码和描述
  5. 将其抓取的数据附加到 .csv 文件(或数据库)中
  6. 回到第一步

我认为 Node.js/jQuery 最容易实现这样的目标。任何人都可以为我指出教程或快速组合一些东西吗?

最佳答案

昨天刚刚在 Hacker News 上读了一篇关于 scraping with NodeJS and Chimera 的文章.同一作者在 Enhanced web scraping with NodeJS 上写了一篇较早的文章.

Chimera 看起来很酷,因为它使用 headless Web 浏览器 (QtWebkit),因此您可以让页面加载它们使用 JS 加载的任何内容,我在工作中构建的爬虫需要它。

关于javascript - 如何在 NodeJS 中制作一个简单的网络抓取工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14142353/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com