gpt4 book ai didi

java - 如何使用 Jaunt 库从网站上抓取数据?

转载 作者:太空宇宙 更新时间:2023-11-04 11:26:48 25 4
gpt4 key购买 nike

我想从这个网站获取标题:http://feeds.foxnews.com/foxnews/latest

喜欢这个例子:

<title><![CDATA[SUCCESSFUL INTERCEPT Pentagon confirms it shot down ICBM-type target]]></title>

它将显示如下文本:

“成功拦截五角大楼确认击落了洲际弹道导弹型目标五角大楼表示,美国成功进行了导弹拦截试验”

这是我的代码。我使用过 jaunt 库。

我不知道为什么它只显示文本“foxnew.com”

import com.jaunt.JauntException;
import com.jaunt.UserAgent;

public class p8_1
{

public static void main(String[] args)
{
try
{
UserAgent userAgent = new UserAgent();
userAgent.visit("http://feeds.foxnews.com/foxnews/latest");
String title = userAgent.doc.findFirst
("<title><![CDATA[SUCCESSFUL INTERCEPT Pentagon confirms it shot down ICBM-type target]]></title>").getText();
System.out.println("\n " + title);


} catch (JauntException e)
{
System.err.println(e);
}

}

}

最佳答案

搜索元素类型,而不是值。

尝试以下操作来获取提要中每个项目的标题文本:

public static void main(String[] args) {
try {
UserAgent userAgent = new UserAgent();
userAgent.visit("http://feeds.foxnews.com/foxnews/latest");

Elements items = userAgent.doc.findEach("<item>");
Elements titles = items.findEach("<title>");

for (Element title : titles) {
String titleText = title.getComment(0).getText();
System.out.println(titleText);
}
} catch (JauntException e) {
System.err.println(e);
}
}

关于java - 如何使用 Jaunt 库从网站上抓取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44276707/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com