gpt4 book ai didi

java - 通过Java提取HTML中两个链接之间的文本

转载 作者:行者123 更新时间:2023-11-29 22:26:45 25 4
gpt4 key购买 nike

我正在尝试使用 Java 从 ePub 文件中检索文本数据。 ePub 文件的文本位于格式如下的 HTML 文件中 -

<h2 id="pgepubid00001">Chapter I</h2>

<p>Some text</p>
<p>Another line of Text</p>

<br/>

<h2 id="pgepubid00001">Chapter II</h2>

etc..

在打开这个文件之前,我已经知道我需要提取的章节的id,并且也可以找到下一章的id。因此,我认为一个合乎逻辑的方法是尝试在 SAX 解析器中解析它并提取每个段落中的文本,直到我到达下一章的链接。但这被证明是一项艰巨的任务。

当然,一切都是动态的,所以没有设置链接等。HTML 是半严格格式的,所以我没想到解析会成为如此大的问题。谁能推荐一种提取所需文本的好方法?

解决方案必须是JAVA ONLY,不能使用其他语言。我希望在 Android 设备中实现这一点

最佳答案

好吧,你知道章节的 ID,为什么不使用 String.indexOf 呢?

start = text.indexOf("<h2 id=\"pgepubid00001\">");
end = text.indexOf("<h2 id=\"pgepubid00002\">");

whatYoureLookingFor = text.substring(start, end-start)

保持简单。

关于java - 通过Java提取HTML中两个链接之间的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5690219/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com