gpt4 book ai didi

html - 如何实现类似 Arc90 的 Readability 或 Instapaper 的 html 页面洗涤器?

转载 作者:搜寻专家 更新时间:2023-10-31 22:01:42 25 4
gpt4 key购买 nike

我很想知道如何清理 html 页面并很好地呈现它——去除所有的困惑并将主要文本重新格式化为一种非常可读的格式——比如 http://lab.arc90.com/experiments/readability或 Instapaper。

它是一个简单的页面解析和删除不在

内的元素吗?

这是否在其他地方讨论过?

最佳答案

Readability 不是一个简单的解析器,它使用复杂的算法来仅检索所需的组件,如果您不是编程高手,我建议您使用他们在下面突出显示的免费服务。

您可以从可读性 (http://www.readability.com/publishers/api) 请求开发者 api

如果您请求解析器,它将完全按照您的要求进行操作,即从网站中提取内容。请记住给他们一个足够好的理由让您使用他们的 API。

对其解析服务的查询如下所示

https://www.readability.com/api/content/v1/parser?url={url to be parsed here}&token={your api key here}

请求将返回如下响应:

HTTP/1.0 200 OK { "domain": "blog.readability.com", "author": "Richard Ziade", "url": "http://blog.readability.com/2011/02/step-up-be-heard-readability-ideas/",

"short_url": "http://rdd.me/kbgr5a1k",
"title": "Step Up & Be Heard: Readability Ideas",
"total_pages": 1,
"word_count": 175,
"content": "<div>\n \n<div class=\"entry\">\n\t<p>When we launched Readability [snip] ...</div>\n</div>",
"date_published": "2011-02-22 00:00:00",
"next_page_id": null,
"rendered_pages": 1 }

对于那里的硬核人员,从这里检查可读性 nodeJS、ruby 和 python 端口 http://arrix.blogspot.com/2010/11/server-side-readability-with-nodejs.html

快乐编码

关于html - 如何实现类似 Arc90 的 Readability 或 Instapaper 的 html 页面洗涤器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3724619/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com