gpt4 book ai didi

java - 提取维基百科信息框数据

转载 作者:行者123 更新时间:2023-11-30 09:08:55 26 4
gpt4 key购买 nike

我想从维基百科信息框中提取数据,并在 Wikipedia infobox extraction in Java 中找到了代码这表明了一种使用 java 进行此操作的方法。我不像使用 python 那样使用 java,所以我在我的 eclipse 中使用 wikixmlj-r43.jar 代码:

import edu.jhu.nlp.wikipedia.*;
public class InfoboxParser {

public static void main(String[] args) throws Exception{
WikiXMLParser parser = WikiXMLParserFactory.getSAXParser("/home/siddhartha/Documents/wiki/enwiki-latest-pages-articles.xml");
parser.setPageCallback(new PageCallbackHandler() {
public void process(WikiPage page) {
InfoBox infobox=page.getInfoBox();
//do something with info box
}
});
parser.parse();
}

}

我收到以下错误:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/tools/bzip2/CBZip2InputStream
at edu.jhu.nlp.wikipedia.WikiXMLParserFactory.getSAXParser(WikiXMLParserFactory.java:15)
at parser.InfoboxParser.main(InfoboxParser.java:7)
Caused by: java.lang.ClassNotFoundException: org.apache.tools.bzip2.CBZip2InputStream
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
... 2 more

我已经在 eclipse 中的属性 > java 构建路径 > 库下添加了 JAR。我得到的是它无法找到 CBZip2InputStream 类。

请帮忙。

最佳答案

    Response res = Jsoup.connect("http://en.wikipedia.org/wiki/Carbon")
.execute();

String html = res.body();

Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();
Elements tables = body.getElementsByTag("table");// hasClass("infobox bordered");

for (Element table : tables) {

if (table.className().equalsIgnoreCase("infobox bordered")) {
System.out.println(table.outerHtml());
break;
}

关于java - 提取维基百科信息框数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23293325/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com