gpt4 book ai didi

javascript - 从 URL 中抓取文本和媒体

转载 作者:行者123 更新时间:2023-11-28 08:39:34 25 4
gpt4 key购买 nike

我正在 ruby​​ 中寻找一些有用的 gems 以用于抓取目的。基本上,我希望能够从页面上抓取主体。也就是说,只有主体及其媒体(图像)。没有侧边栏或页脚或导航栏类型的东西。

我知道抓取需要很多细节,比如知道类和 ID 等等。所以我想知道是否有一个工具可以做这样的事情?

一个很好的例子是在 iOS 上的 safari 中的“Reader View Available”选项。它只显示页面的原始内容。带有必需的标题和段落。

最佳答案

使用Nokogiri

您还可以使用 Css Selector Gadget找到你的类(class)。这应该有助于找到合适的标题和正文类或 ID。

Reader View 不节省带宽

关于javascript - 从 URL 中抓取文本和媒体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27871462/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com