gpt4 book ai didi

java - 从 html 中提取所有可见文本

转载 作者:行者123 更新时间:2023-11-30 07:19:49 24 4
gpt4 key购买 nike

我正在尝试在 google chrome 中创建搜索功能。给定一个字符串,它将突出显示包含该字符串的所有区域。我用的是java。我

为此,我首先需要提取所有可见文本。我尝试分析 html 页面,以便找出如何仅提取文本。

对于看起来像这样的部分,似乎

为此,我计划使用 jsoup。我不知道如何从看起来像这样的部分中提取文本。 (这是一条 YouTube 评论,带有“阅读更多”链接和“显示更少”链接)。

从本节中,我尝试提取“不会撒谎,那只狗很可爱”和(“Les mer”或“Vis mindre”,具体取决于它们中的哪一个是可见的)。

<div class="comment-renderer-text" tabindex="0" role="article">
<div class="comment-renderer-text-content">Not gonna lie, dat dog is ADORABLE</div>
<div class="comment-text-toggle hid">
<div class="comment-text-toggle-link read-more">
<button class="yt-uix-button yt-uix-button-size-default yt-uix-button-link" type="button" onclick="return false;">
<span class="yt-uix-button-content">Les mer
</span>
</button>
</div>
<div class="comment-text-toggle-link show-less hid">
<button class="yt-uix-button yt-uix-button-size-default yt-uix-button-link" type="button" onclick="return false;">
<span class="yt-uix-button-content">Vis mindre
</span>
</button>
</div>
</div>
</div>

最佳答案

我假设给定的 html 代码已经在名为 doc 的文档中。

String text = doc.select("div.comment-renderer-text-content").first().text();

doc.select 命令获取包含指定 HTML 查询的元素。然后我得到第一个并将其转换为文本。

更多内容可以在这里阅读:Jsoup Selector

编辑:

您可以使用此代码来获取可见文本而不是每个类:

String text = doc.body().text();

关于java - 从 html 中提取所有可见文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37778188/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com