gpt4 book ai didi

javascript - 剪辑网页*内容*的可靠方法是什么?

转载 作者:数据小太阳 更新时间:2023-10-29 08:05:52 25 4
gpt4 key购买 nike

我想知道如何(或多或少)从一个随机网站可靠地剪辑内容(使用 Ruby 或 JavaScript,并不重要)。

很像 Evernote 和 Flipboard。

确定页面中实际内容的位置的最佳方法是什么?

目的:给定一个 URL - 检索该页面的实际内容,并忽略所有布局和其他无关信息

例如:

只需使用 Evernote 的“剪辑整页”选项即可准确理解我的意思。

谢谢。

最佳答案

我最初的想法是DOM解析页面,然后遍历DOM树到特定div的内容。并显示(通过 XPath 等)。对于没有明确定义的部分的页面,无论您使用哪种方法,都会很困难。 AutoPager Firefox 和 Chrome 的插件实现了 XPath 解析行为。获取最新版本并打开.xpi看看他是怎么做到的。这是一个 JavaScript 实现。

通过让某人输入来选择 div,根据 URL/站点方案,id 是什么或 class内容div是。对于您的 ninemsn 示例,包含文章标题、分享按钮、作者图像和帖子内容的 div 是

<div class="post">

真正的正文是

<div class="postBody txtWrap" section="txt">

所以有人会输入您需要解析第一个 h1来自 <div class="post">这就是文章标题,然后从 <div class="postBody"> 中获取所有文本并使其成为文章内容(您可能需要以可以同时匹配 postBodytxtWrap 的方式解析类)。

另一个例子(有趣):Stack Overflow。问题的标题包含在

<div id="question-header">

问题的文本比较棘手,因为它在 div 中与相同class作为答案的文本,没有 id .你需要匹配 <div id="question">然后向下遍历到

<div class="post-text">

同样对于答案,每个<div id="answer-[UINTEGER]">包含 <div class="post-text">及其各自的文本。

在这两种情况下,你都可以遍历那些顶级questionanswer- <div class="user-details"> 的 div获取用户名、声誉和徽章计数等。

关于javascript - 剪辑网页*内容*的可靠方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7382289/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com