gpt4 book ai didi

javascript - 用于提取网页内容的 Node.Js 模块?

转载 作者:搜寻专家 更新时间:2023-10-31 22:56:26 24 4
gpt4 key购买 nike

有人可以推荐一个 Node.Js 模块或 Javascript 库(不基于可读性),它们可用于从网页和 RSS 提要中提取内容吗?

我找到了一个很好的 PHP 库来完成这项工作 - http://fivefilters.org/content-only/ - 但正在寻找可以执行相同操作的 Node.Js 模块。

谢谢!

最佳答案

我专门为此目的编写了一个名为“unfluff”的 Node.js 模块:

https://github.com/ageitgey/node-unfluff

希望这能解决您的问题。

Unfluff 基于流行的“python-goose”和“goose”(Scala) 页面提取库,如果您熟悉的话。

关于javascript - 用于提取网页内容的 Node.Js 模块?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22565081/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com