javascript - 剪辑网页*内容*的可靠方法是什么？-6ren

javascript - 剪辑网页内容的可靠方法是什么？

转载作者：数据小太阳更新时间：2023-10-29 08:05:52

25

4

我想知道如何(或多或少)从一个随机网站可靠地剪辑内容(使用 Ruby 或 JavaScript，并不重要)。

很像 Evernote 和 Flipboard。

确定页面中实际内容的位置的最佳方法是什么？

目的:给定一个 URL - 检索该页面的实际内容，并忽略所有布局和其他无关信息。

例如:

给出http://ninemsn.com/ => 位于内容中间部分的主要新闻主题的 HTML。
鉴于http://news.cnet.com/8301-1035_3-20104048-94/a-beginners-guide-to-telecom-jargon-part-7 => 主要文章的 HTML。

只需使用 Evernote 的“剪辑整页”选项即可准确理解我的意思。

谢谢。

最佳答案

我最初的想法是DOM解析页面，然后遍历DOM树到特定div的内容。并显示(通过 XPath 等)。对于没有明确定义的部分的页面，无论您使用哪种方法，都会很困难。 AutoPager Firefox 和 Chrome 的插件实现了 XPath 解析行为。获取最新版本并打开.xpi看看他是怎么做到的。这是一个 JavaScript 实现。

通过让某人输入来选择 div，根据 URL/站点方案，id 是什么或 class内容div是。对于您的 ninemsn 示例，包含文章标题、分享按钮、作者图像和帖子内容的 div 是

<div class="post">

真正的正文是

<div class="postBody txtWrap" section="txt">

所以有人会输入您需要解析第一个 h1来自 <div class="post">这就是文章标题，然后从 <div class="postBody"> 中获取所有文本并使其成为文章内容(您可能需要以可以同时匹配 postBody 和 txtWrap 的方式解析类)。

另一个例子(有趣):Stack Overflow。问题的标题包含在

<div id="question-header">

问题的文本比较棘手，因为它在 div 中与相同class作为答案的文本，没有 id .你需要匹配 <div id="question">然后向下遍历到

<div class="post-text">

同样对于答案，每个<div id="answer-[UINTEGER]">包含 <div class="post-text">及其各自的文本。

在这两种情况下，你都可以遍历那些顶级question和 answer- <div class="user-details"> 的 div获取用户名、声誉和徽章计数等。

关于javascript - 剪辑网页*内容*的可靠方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7382289/

25

4

0

文章推荐： ruby - Chef shell 脚本未运行

文章推荐： ruby - 无法加载 ruby gem，在 IRB 中使用 require 方法

剪辑 [EXPRNPSR3] 缺少人员的函数声明
; template person (deftemplate person (slot name (type STRING)) (slot gender (type SYMBOL)(allowed-s
Android AudioRecord 剪辑
我正在尝试使用 AudioRecord 从麦克风录制一些音频。录音有效，但音量太大，而且我的剪报很糟糕。我尝试使用 AutomaticGainControl，但它在我的设备上不可用。有没有其他方法可以
angularjs - 如何修复具有动态背景位置的移动设备上的滞后/剪辑？
我正在开发一个小应用程序，用户可以在其中用手指在屏幕上移动背景。 background-position 由手指的位置定义。我用的是angular，所以我有这种标签: 在我的 Cont
ag-grid 上下文菜单被切断(剪辑)
拥有 ag-grid v8.20 的 ag-grid(Angular 组件) 不幸的是，如果上下文菜单大于网格，它会被剪裁: (截图应该在这里，但我不能上传它，imgur bug？) 有没有办法让上下
即使不需要剪辑，WPF 剪辑 - 如何将其关闭？
我需要从 ListBox 中浮出一些内容如 DataTemplate 中指定的那样对于 ListBox.ItemTemplate .我正在使用 RenderTransform但内容被剪掉了 ListB
剪辑 "Expected the beginning of a construct"
我有这个作业(我是学生)，在 CLIPS 中，但是我无法取得任何进展，尽管在谷歌上搜索并花了一些时间。 (clear) (deftemplate book (multislot surname
html - 具有圆形路径的图像上的 CSS 剪辑
我正在尝试在具有圆形路径的图像上使用“剪辑路径”。我知道有可能使用 svg 剪辑路径，但我认为它不可能让它真正响应 - 所以我决定在图像下方的 div 上使用 svg 图形 - 但我仍然有移动 Vie
html - 具有圆形路径的图像上的 CSS 剪辑
我正在尝试在具有圆形路径的图像上使用“剪辑路径”。我知道有可能使用 svg 剪辑路径，但我认为它不可能让它真正响应 - 所以我决定在图像下方的 div 上使用 svg 图形 - 但我仍然有移动 Vie
MySql 剪辑 TIME 值
背景我们有一个 TIME 数据类型的列来指示耗时。问题当我们尝试插入大于 24 的小时数时，例如“25:00:00”，MySQL 会将此值裁剪为“01:00:00”，这不是我们想要的。尝试的解
iOS UIImageView 剪辑/蒙版图像
基本上，我正在创建一个包含两个图像的 View 。图像一显示在占据 View 左上角的直角三角形中，图像二显示在占据 View 右下角的直角三角形中。想象一下沿对角线切割正方形，结果的每一半中存在不
html - 全宽 SVG 剪辑
我目前正在为单页网站制作剪切路径: http://grafomantestsite3.be/ 如您所见，这适用于 chrome，但不适用于 firefox、opera 等。我做了一个代码笔来说明我的
等效的 CSS 剪辑/剪辑路径
我的 CSS 文件中有一行: clip: rect(0 0 0 0); 我看到 clip 现在已贬值，所以我尝试使用 clip-path。 clip-path 的等价物是什么？是吗: clip-pa
javascript - 剪辑 div 也剪辑滚动
我有两个 div，子 div 在父 div 中。 div child 比他的 parent 大。所以我决定在 div 父级中放置一个滚动条，因为我可以更好地看到 div 子级的内容。问题是现在我需要
CSS 剪辑 : unset; on Safari
我正在为全屏背景图像在 WordPress 中编写 CSS。为了摆脱左侧的黑色矩形(菜单/侧边栏)，我使用了下面的 CSS。它在 chrome、IE 和移动设备上运行良好，但在 mac/safa
lisp - 剪辑 : variable has no value
我想制作一个用户程序，它提取元素 a，其中元素 b(由参数给定)作为列表中的一对。比如，如果我将 c 作为参数并列出 ((c a) (c b) (d f) (d g))，结果应该是 'a' 'b';
Android 剪辑 canvas.drawBitmap
我是 Android 新手，我有两张图片，一张是空图片，另一张是代表进度条的完整图片。如何使用 canvas.drawBitmap 只绘制整个图像的一部分？我不想每次都调整位图图像的大小。最佳答
ios - 无法制作 UILabel 剪辑
我调整了我的字符串的大小以最大限度地适应高度(1 行)，以便截断任何过大的宽度(如在字形中间)，lineBreakMode:UILineBreakModeClip 应该这样做。相反，文本似乎通过仅绘制
ios - UINavigationController 剪辑 subview
我使用的导航 Controller 略微偏离屏幕边缘。当我尝试为导航 Controller 框架之外的 subview 设置动画时，它们会被剪裁。我试过设置: navigationController
css - 动画 CSS 剪辑
我正在尝试使用 CSS3 转换为 CSS clip 设置动画，但没有成功。图像只是剪辑而没有过渡。我错过了什么？ #clipped { position:absolute; widt
ios - 带有三个点的 UITextview 剪辑？
我有一个 UITextView 显示一些大小可以变化的动态内容。textview 不允许滚动，它的大小与内容无关。考虑到它的自动布局约束，例如， TextView 在 iphone5 和 iPhone

首页

博学

6Ren·AI

商城

javascript - 剪辑网页内容的可靠方法是什么？