- objective-c - iOS 5 : Can you override UIAppearance customisations in specific classes?
- iphone - 如何将 CGFontRef 转换为 UIFont?
- ios - 以编程方式关闭标记的信息窗口 google maps iOS
- ios - Xcode 5 - 尝试验证存档时出现 "No application records were found"
有人知道从网页中提取内容的算法吗?喜欢instapaper ?
最佳答案
Instapaper 有两个步骤:
要查找内容 block (通常是一些 html block 元素,如包含关键页面文本内容的 div)Instapaper 使用的算法与 readability 使用的算法非常相似。 .你可以看看source of readability.js看看发生了什么,但它的核心是试图找到页面上文本/链接比率最高的区域,尽管它也有一些其他简单的评分指标(例如,在我的脑海中,诸如文本比率之类的东西到启发式中的逗号、段落元素等)。
一旦确定了根节点元素和相关内容,就需要对其进行格式化,如果需要,您可以将包含文本的节点元素从源文档中拉出并将其插入到您的文档中,但是实际上,您可能希望删除现有样式并应用您自己的样式,以获得标准的外观和感觉。如果你想输出漂亮的纯文本,你可以使用 Jericho 的 Renderer .
update1:我还应该提一下 Instapaper 做的其他事情 - 跟随“分页”链接(“下一个”或“1”、“2”、“3”链接) 到文章的结论,这样一篇可能跨越原文中许多页的文章将作为单个文档呈现给您。
update2 我最近遇到了这个 comparison of text extraction algorithms
关于html - 类似 Instapaper 的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4283418/
元素置于
我正在尝试制作一个小书签,其功能类似于 Instapaper 的功能。我需要小书签来发送用户正在访问的页面的 URL 和用户的 token (以便服务器识别用户)。如何才能做到这一点?您建议我发送 P
有人知道从网页中提取内容的算法吗?喜欢instapaper ? 最佳答案 Instapaper 有两个步骤: 找到页面上的主要内容 block (不包括页眉、页脚、菜单等) 从此内容 block 中提
如果我想在用户已将用户名和密码放入 UITextField 并使用 AFNetworking 登录的应用程序中登录 Instapaper ( http://www.instapaper.com/use
我正在尝试将所有旧的已加星标的项目从 Google 阅读器导入 Pocket。我有 JSON 文件,我使用 grep 将其转换为列出所有 URL 的简单文本文件(感谢 PaulProgrammer:R
我试图找到一种将 YouTube 视频嵌入我的应用程序的好方法。我真的很喜欢 Instapaper 嵌入它们的方式,但我不知道使用的是什么 YouTube 播放器。 最佳答案 您应该尝试使用以下代码在
我正在尝试使用 instapaper API,但我的请求一直收到 403 错误。这是代码: consumer_key='...' consumer_secret='...' access_token_
我今天大部分时间都在尝试实现 Instapaper 的 XAuth API。我什至还没有获得 oauth token 。 知道我做错了什么吗? 我正在使用 node.js 和 oauth 模块。据我了
我在使用 Overbyte 的 ICS 套件从 Instapaper api 获取访问 token 时遇到问题。奇怪的是我能够使用 Indy 获得访问 token 。我正在使用 Delphi XE2
我正在尝试使用 full Instapaper API通过AFOAuth2Client library但我不断收到错误代码 401。我不知道我的代码出了什么问题。当我从电子邮件中复制并粘贴它们时,我绝
我正在构建一个单页网站,其中包含一个 javascript“计算器”,让用户可以输入自定义值并立即查看输出。 如果我的页面被诸如 instapaper 之类的服务抓取供用户稍后从 kindle 阅读(
我很想知道如何清理 html 页面并很好地呈现它——去除所有的困惑并将主要文本重新格式化为一种非常可读的格式——比如 http://lab.arc90.com/experiments/readabil
我是一名优秀的程序员,十分优秀!