gpt4 book ai didi

java - 从页面的无元素部分提取文本

转载 作者:行者123 更新时间:2023-11-29 09:13:56 26 4
gpt4 key购买 nike

我目前有以下来自网页的 HTML 代码部分:

<td class="movieclass">
<b>Cinema 1</b>
10.30 AM. + 12.45 + 3.00 + 5.15 + 7.30 + 9.45 + 12.00 MN.
<br />

<b>Cinema 2</b>
3.00 + 5.15 + 7.30 + 9.45 + (12.00 MN. THRS./FRI.)
<br />

<b>Cinema 3</b>
2.30 + 4.45 + 7.00 + 9.15 + (12.15 PM. + 11.30 PM. THRS./FRI.)
<br />

<b>Cinema 4</b>
11.30 AM. + 2.00 + 4.30 + 7.00 + 9.30 + 12.00 MN.
<br />

<b>Cinema 5</b>
10.30 AM. + 1.00 + 3.30 + 6.00 + 8.30 + 11.00 PM.
<br />
</td>

我正在尝试使用 jsoup 来尝试提取时间,但针对特定的电影院。我假设时间线是否在段落(p 标签)内,我可以使用以下内容进行提取:

Elements movieTime = doc.select("a:contains(Cinema 3) + p");

但是,在上面的代码中,带有时间的行周围没有标记。有没有办法提取某个电影院的时间线?

最佳答案

如果您提供的文档始终保持相同的结构,那么总有一种方法可以手动执行此操作。然后你可以简单地将所有文档读取到某种列表中。例如数组列表。

然后遍历该列表并使用 if 语句进行检查

if (line.get(0).equals("Cinema 1")) {
timeOfCinema1 = line.get(1);
}

但这是执行此操作的最简单但不是“好”的方法。您可以使用 Map<String, String>映射线条,或创建一个对象来保存文档的结构。

希望这对您有所帮助。

关于java - 从页面的无元素部分提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10658898/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com