gpt4 book ai didi

Java,Jsoup,从html页面读取内容

转载 作者:行者123 更新时间:2023-12-01 13:54:43 24 4
gpt4 key购买 nike

我正在尝试使用此代码从网页读取内容,我想使用 Java 阅读我的数据库或某些 doc 文件的链接、链接下方的作者姓名以及右侧的 PDF 或 HTML 链接。

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HTMLParserExample1 {

public static void main(String[] args) {

Document doc;
try {
// need http protocol
doc = Jsoup.connect("http://scholar.google.com/scholar? l=en&q=visualization&btnG=&as_sdt=1%2C4&as_sdtp=").userAgent("Chrome").get();

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
System.out.println("\nLinHREF: "+linkHref);
System.out.println("linktext: "+linkText);
}


} catch (IOException e) {
e.printStackTrace();
}
}
}

上面是我的代码,早些时候它给了我 403 错误,但是当我输入 useragent("Mozilla") 时,它给了我空指针异常。

Exception in thread "main" java.lang.NullPointerException
at HTMLParserExample1.main(HTMLParserExample1.java:20)
Java Result: 1
BUILD SUCCESSFUL (total time: 1 second)

请帮忙。

最佳答案

如果我从网址中删除空格,它对我有用http://scholar.google.com/scholar?l=en&q=visualization&btnG=&as_sdt=1%2C4&as_sdtp=就很好了。我强烈建议使用 Google API 进行网络搜索,而不是直接进行 google 解析。 Here some info about Gdata API .

关于Java,Jsoup,从html页面读取内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19677080/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com