gpt4 book ai didi

Node.js 上的 HTML 解析器

转载 作者:IT老高 更新时间:2023-10-28 11:06:23 25 4
gpt4 key购买 nike

有没有类似 Ruby 的 nokogiri在nodejs上?我的意思是一个用户友好的 HTML 解析器。

我在 Node.js 模块页面上看到了一些解析器,但我找不到漂亮和新鲜的东西。

最佳答案

如果你想构建 DOM您可以使用 jsdom .

还有cheerio ,它有 jQuery接口(interface),它比旧版本的 jsdom 快得多,尽管现在它们的性能相似。

您可能想看看 htmlparser2 ,这是一个流式解析器,根据它的基准,它似乎比其他的更快,并且默认没有 DOM。它还可以生成 DOM,因为它还与创建 DOM 的处理程序捆绑在一起。这是cheerio使用的解析器。

parse5看起来也是一个不错的解决方案。它相当活跃(自本次更新的最后一次提交以来 11 天),符合 WHATWG,并在 jsdom 中使用, Angular , 和 Polymer .

如果您要抓取的网站是 dynamic那么你应该使用 headless browser喜欢 phantomjs .也看看casperjs ,如果你正在考虑 phantomjs。您可以使用 SpookyJS 从 Node 控制 casperjs .

在 phantomjs 旁边有 zombiejs .与不能嵌入nodejs的phantomjs不同,zombiejs只是一个node模块。

有一个 nettuts+ toturial对于后一种解决方案。

关于Node.js 上的 HTML 解析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7977945/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com