gpt4 book ai didi

java - 制作 Safari Reader 风格的应用程序

转载 作者:太空宇宙 更新时间:2023-11-04 13:24:20 26 4
gpt4 key购买 nike

我受到 Safari 阅读器功能的启发,它可以让您忽略网页上除故事之外的所有内容(构成页面要点的所有文本、链接和图像,但没有任何标记、前因、或结果)。我想制作一个基于 Java 的版本作为轻量级“浏览器”。

我的问题在这里:我不知道如何辨别主要内容。检查读者识别的页面,如 MSN articlesfan fictions ,我意识到 Reader 识别的实际文本不仅很难找到,而且不一致并且被看似随机的标签打断了。例如,新闻链接以 <div class="postBody"> 开头。每一段都在<p> s,链接的小说以<div class="chapter_content" id="chapter_container">开头每段都以<br /><div style='float:left; height:1.0em; width:3.0em;'></div>开头但不在其自己的容器内。

因为 Safari 支持这个“阅读器”界面,显然有一种方法可以做到这一点,所以我不会问它是否存在。相反,我想知道:什么是好的、快速的、Java 支持的算法,用于提取网页上故事的标题和正文,无论页面本身如何,构造?

对于上下文,我已经创建了一个以 JEditorPane 作为窗口的基本浏览器,其 EditorKit 设置为 HTMLEditorKit,并且正在使用 setPage(URL page)显示目标页面的方法,但这可以根据需要进行更改。

最佳答案

如果您愿意使用某项服务,您应该查看 InstapaperReadability蜜蜂;否则,你可以窥视arc90 lab's JavaScript proof-of-concept implementation可读性。您还可以找到 several ports of Readability到 Java 和 several other languages在 GitHub 上。

关于java - 制作 Safari Reader 风格的应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11195643/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com