gpt4 book ai didi

java - 如何从维基百科中提取标题标题和相应的文本

转载 作者:太空宇宙 更新时间:2023-11-04 07:27:08 26 4
gpt4 key购买 nike

我正在尝试使用 Jsoup 从维基百科文章中提取文本。

我的想法是简单地提取每个标题及其各自的文本段落。

我无法理解如何仅获取每个部分的特定文本,这就是我所拥有的:

public static void main(String[] args) {

String url = "http://en.wikipedia.org/wiki/Albert_Einstein";
Document doc;

try {
doc = Jsoup.connect(url).get();
doc = Jsoup.parse(doc.toString());

Elements titles = doc.select(".mw-headline");
PrintStream out = new PrintStream(new FileOutputStream("output.txt"));
System.setOut(out);

for(Element h3 : doc.select(".mw-headline"))
{
String title = h3.text();

String titleID = h3.id();

Elements paragraphs = doc.select("p#"+titleID);

//Element nextEle=h3.nextElementSibling();

System.out.println(title);
System.out.println("----------------------------------------");
System.out.println(titleID);
System.out.print("\n");
System.out.println(paragraphs.text());
System.out.print("\n");
}

} catch (IOException e) {
System.out.println("deu merda");
e.printStackTrace();
}

有了这个,我可以提取每个标题,但我不知道如何从每个部分获取文本以相应地打印它。我想也许有标题的 ID,但没有骰子。

感谢您的帮助!

最佳答案

根据页面的标签结构(如果有),这可能会很复杂。更好的选择可能是迭代所有元素,检测标题。每次您检测到新标题(或到达元素末尾)时,都意味着一个新标题。到目前为止的所有元素都属于前一个标题(如果没有前一个标题,则属于文章的“标题”)。

关于java - 如何从维基百科中提取标题标题和相应的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18371132/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com