- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我是前 python 开发人员,我已经使用 BS4 几年了现在我正在使用 node 进行开发,是的,cheerio 包非常好,但是我需要像 BS4 这样的东西来在 node 中进行抓取
cheerio 有什么替代品吗?谢谢!
最佳答案
我建议您查看 x-ray node package .它本质上是cheerio 之上的一个抽象层,它使“构建任何网站”所需的代码更加简洁。
它在样式上具有可组合的语法,并且支持分页、限制/节流、延迟、抓取集合等。
关于javascript - BeautifulSoup 像 nodejs 的刮刀,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32667219/
我正在使用lxml.html模块 from lxml import html page = html.parse('http://directory.ccnecommunity.org/repor
我正在使用以下 python 脚本从亚马逊抓取信息 pages . 在某些时候,它停止返回页面结果。脚本正在启动,浏览关键字/页面,但我只得到标题作为输出: Keyword Rank Title AS
因此,我尝试使用 jsoup 来抓取 Reddit 中的图像,但是当我抓取某些子 Reddits(例如/r/wallpaper)时,我收到 429 错误,并且想知道如何解决此问题。完全理解这段代码很糟
我正在尝试在 Apache Nutch 中构建爬虫和抓取工具,以查找包含讨论特定单词主题(例如“选举”、“选举”、“投票”等)部分的所有页面。 一旦我进行了抓取,Nutch 就会清除 HTML 中的停
概念: 使用带有 Python 和 Selenium 的 AWS Lambda 函数,我想通过传递 headless chrome test 创建一个无法检测到的 headless chrome 刮板
我是一名优秀的程序员,十分优秀!