- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我想知道如何(或多或少)从一个随机网站可靠地剪辑内容(使用 Ruby 或 JavaScript,并不重要)。
很像 Evernote 和 Flipboard。
确定页面中实际内容的位置的最佳方法是什么?
目的:给定一个 URL - 检索该页面的实际内容,并忽略所有布局和其他无关信息。
例如:
只需使用 Evernote 的“剪辑整页”选项即可准确理解我的意思。
谢谢。
最佳答案
我最初的想法是DOM解析页面,然后遍历DOM树到特定div
的内容。并显示(通过 XPath 等)。对于没有明确定义的部分的页面,无论您使用哪种方法,都会很困难。 AutoPager Firefox 和 Chrome 的插件实现了 XPath 解析行为。获取最新版本并打开.xpi
看看他是怎么做到的。这是一个 JavaScript 实现。
通过让某人输入来选择 div,根据 URL/站点方案,id
是什么或 class
内容div
是。对于您的 ninemsn 示例,包含文章标题、分享按钮、作者图像和帖子内容的 div 是
<div class="post">
真正的正文是
<div class="postBody txtWrap" section="txt">
所以有人会输入您需要解析第一个 h1
来自 <div class="post">
这就是文章标题,然后从 <div class="postBody">
中获取所有文本并使其成为文章内容(您可能需要以可以同时匹配 postBody
和 txtWrap
的方式解析类)。
另一个例子(有趣):Stack Overflow。问题的标题包含在
<div id="question-header">
问题的文本比较棘手,因为它在 div
中与相同class
作为答案的文本,没有 id
.你需要匹配 <div id="question">
然后向下遍历到
<div class="post-text">
同样对于答案,每个<div id="answer-[UINTEGER]">
包含 <div class="post-text">
及其各自的文本。
在这两种情况下,你都可以遍历那些顶级question
和 answer-
<div class="user-details">
的 div获取用户名、声誉和徽章计数等。
关于javascript - 剪辑网页*内容*的可靠方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7382289/
; template person (deftemplate person (slot name (type STRING)) (slot gender (type SYMBOL)(allowed-s
我正在尝试使用 AudioRecord 从麦克风录制一些音频。录音有效,但音量太大,而且我的剪报很糟糕。我尝试使用 AutomaticGainControl,但它在我的设备上不可用。有没有其他方法可以
我正在开发一个小应用程序,用户可以在其中用手指在屏幕上移动背景。 background-position 由手指的位置定义。 我用的是angular,所以我有这种标签: 在我的 Cont
拥有 ag-grid v8.20 的 ag-grid(Angular 组件) 不幸的是,如果上下文菜单大于网格,它会被剪裁: (截图应该在这里,但我不能上传它,imgur bug?) 有没有办法让上下
我需要从 ListBox 中浮出一些内容如 DataTemplate 中指定的那样对于 ListBox.ItemTemplate .我正在使用 RenderTransform但内容被剪掉了 ListB
我有这个作业(我是学生),在 CLIPS 中,但是我无法取得任何进展,尽管在谷歌上搜索并花了一些时间。 (clear) (deftemplate book (multislot surname
我正在尝试在具有圆形路径的图像上使用“剪辑路径”。我知道有可能使用 svg 剪辑路径,但我认为它不可能让它真正响应 - 所以我决定在图像下方的 div 上使用 svg 图形 - 但我仍然有移动 Vie
我正在尝试在具有圆形路径的图像上使用“剪辑路径”。我知道有可能使用 svg 剪辑路径,但我认为它不可能让它真正响应 - 所以我决定在图像下方的 div 上使用 svg 图形 - 但我仍然有移动 Vie
背景 我们有一个 TIME 数据类型的列来指示耗时。 问题 当我们尝试插入大于 24 的小时数时,例如“25:00:00”,MySQL 会将此值裁剪为“01:00:00”,这不是我们想要的。 尝试的解
基本上,我正在创建一个包含两个图像的 View 。图像一显示在占据 View 左上角的直角三角形中,图像二显示在占据 View 右下角的直角三角形中。 想象一下沿对角线切割正方形,结果的每一半中存在不
我目前正在为单页网站制作剪切路径: http://grafomantestsite3.be/ 如您所见,这适用于 chrome,但不适用于 firefox、opera 等。 我做了一个代码笔来说明我的
我的 CSS 文件中有一行: clip: rect(0 0 0 0); 我看到 clip 现在已贬值,所以我尝试使用 clip-path。 clip-path 的等价物是什么? 是吗: clip-pa
我有两个 div,子 div 在父 div 中。 div child 比他的 parent 大。所以我决定在 div 父级中放置一个滚动条,因为我可以更好地看到 div 子级的内容。 问题是现在我需要
我正在为全屏背景图像在 WordPress 中编写 CSS。为了摆脱左侧的黑色矩形(菜单/侧边栏),我使用了下面的 CSS。 它在 chrome、IE 和移动设备上运行良好,但在 mac/safa
我想制作一个用户程序,它提取元素 a,其中元素 b(由参数给定)作为列表中的一对。 比如,如果我将 c 作为参数并列出 ((c a) (c b) (d f) (d g)),结果应该是 'a' 'b';
我是 Android 新手,我有两张图片,一张是空图片,另一张是代表进度条的完整图片。 如何使用 canvas.drawBitmap 只绘制整个图像的一部分? 我不想每次都调整位图图像的大小。 最佳答
我调整了我的字符串的大小以最大限度地适应高度(1 行),以便截断任何过大的宽度(如在字形中间),lineBreakMode:UILineBreakModeClip 应该这样做。相反,文本似乎通过仅绘制
我使用的导航 Controller 略微偏离屏幕边缘。当我尝试为导航 Controller 框架之外的 subview 设置动画时,它们会被剪裁。我试过设置: navigationController
我正在尝试使用 CSS3 转换为 CSS clip 设置动画,但没有成功。图像只是剪辑而没有过渡。 我错过了什么? #clipped { position:absolute; widt
我有一个 UITextView 显示一些大小可以变化的动态内容。textview 不允许滚动,它的大小与内容无关。考虑到它的自动布局约束,例如, TextView 在 iphone5 和 iPhone
我是一名优秀的程序员,十分优秀!