gpt4 book ai didi

Java HTML 解析(存储为字符串)

转载 作者:行者123 更新时间:2023-12-02 03:58:43 27 4
gpt4 key购买 nike

我正在解析一个网页,但遇到了一些问题,该页面包含很多这样的元素:

<div class="tweet">
<a href="https://twitter.com/Sweden" target="_blank" class="tweet__link">@sweden</a>
<span class="tweet__timestamp"><a href="https://twitter.com/sweden/status/694285861026926594" target="_blank" class="tweet__permalink">Feb. 1, 2016, 11:27 p.m.</a></span>
<p class="tweet__content"><a href='http://twitter.com/UnbatedFlunky' target='_blank'>@UnbatedFlunky</a> Good to know. :)</p>
</div>

<div class="tweet">
<a href="https://twitter.com/Sweden" target="_blank" class="tweet__link">@sweden</a>
<span class="tweet__timestamp"><a href="https://twitter.com/sweden/status/694285696140513280" target="_blank" class="tweet__permalink">Feb. 1, 2016, 11:26 p.m.</a></span>
<p class="tweet__content">RT <a href='http://twitter.com/UnbatedFlunky' target='_blank'>@UnbatedFlunky</a>: .<a href='http://twitter.com/sweden' target='_blank'>@sweden</a> exactly the kind of content I'd want representing my country. 10/10</p>
</div>

我想将每个推文类中的内容放在单独的字符串中,到目前为止我有以下代码:

Document doc = Jsoup.connect("http://curatorsofsweden.com/curator/aleksandra-boscanin/").get();
Element e = doc.select("div").first();
String text = doc.getElementsByClass("tweet").text();

但通过这种方式,我将所有内容存储在一个字符串中,但我的问题是如何将它们分开,例如让我们说字符串数组:/也许这是一个愚蠢的问题,但我无法使其工作:/

最佳答案

doc.getElementsByClass("tweet") 返回一个数组,您应该迭代该数组并为每个 tweet 元素创建一个数组条目。例如

List<String> stringList = new ArrayList<>();
List<Element> tweets = doc.getElementsByClass("tweet");
for(Element tweet : tweets){
stringList.add(tweet.text());
}

文本将位于stringList列表中。

关于Java HTML 解析(存储为字符串),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35152059/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com