java - 如何使用 Wikipedia API 提取/解析我要查找的链接？-6ren

java - 如何使用 Wikipedia API 提取/解析我要查找的链接？

转载作者：行者123 更新时间：2023-12-01 12:00:33

40

4

在维基百科中，95% 的链接都指向哲学页面。我正在尝试用 Java 编写一个程序，该程序获取维基百科上的任何链接并单击第一个链接(不是引用/声音/无关链接，并且还会忽略 parent 指定的链接。)

例如，如果您从此网址 http://en.wikipedia.org/wiki/Dutch_people 开始，应该单击族裔组 http://en.wikipedia.org/wiki/Ethnic_group依此类推，直到达到哲学

您应该看到这个 Getting_to_Philosophy检查http://xefer.com/wikipedia (输入任何单词)看看它是如何工作的。

我已经编写了将数据存储在数据库中的后端，分三列 Unique_URL_Id URL_Link Next_URL_Id所以后者打印整个路径会更容易。

后端工作正常(如果我只给它一个要跟踪的链接列表)。然而，提取并查找第一个链接却无法正常工作。

这是我编写的示例代码，只是为了使用 jSoap API 从 URL 中提取

public static void extractWikiPage(String title) throws IOException{

        Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Europe").get();
        //int titles = doc.toString().indexOf("(");

        //Get the first paragraph where the main body contents starts
        String body = doc.getElementsByTag("p").first().toString();
        System.out.println(body);                   
            Document doc2= Jsoup.parse(body);
            Elements href=doc2.getElementsByTag("a");
            int x="".indexOf("");
            for(Element h: href){
                System.out.println(h.toString());
            }
            //System.out.println(linkText);
            System.exit(1);

        }

我只是找到第一次出现的 '<p>'因为 95% 的下一页链接都是从那里开始的。在该段落中，我试图获取所有链接，但我需要第一个满足我上面写的条件的链接。

如何使用 Wikipedia API 来解决提取我正在查找的数据的问题。非常感谢您的帮助。

最佳答案

/w/api.php?action=query&prop=revisions&format=json&rvprop=content&rvlimit=1&rawcontinue=&titles=Dutch_people 是返回该页面的 wiki 文本的查询。

您必须解析该结果才能获取您想要的数据。您将寻找 [[双方括号]] 内的第一件事(可能在 /\{\{Infobox(.*?)\}\}/i 之后 或类似的内容，以排除信息框中的链接以及页面上可能存在的任何维护标签)，这些链接不以“某事:”开头，以消除所有跨维基链接和类别以及文件/媒体页面。

关于java - 如何使用 Wikipedia API 提取/解析我要查找的链接？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28008125/

40

4

0

文章推荐： java - 解析 string.xml 文件时出现 XmlPullParserException

文章推荐： java - 为什么这个程序不能正确运行？

文章推荐： c - 有没有办法控制宏扩展顺序

文章推荐： java - 处理多个 Intent 并同步数据

wikipedia - 在 Wikipedia Dump 中查找和下载图像
我正在尝试在维基百科上找到所有图像的完整列表，然后我可以将其过滤到公共(public)领域的图像。我已经从这里下载了 SQL 转储: http://dumps.wikimedia.org/enwiki
wikipedia-api - 拉萨 : ModuleNotFoundError: No module named 'wikipedia'
我正在学习使用 rasa 语言。为了使目标的答案多样化，我决定使用 Wikipedia api。为了创建我的工作环境，我使用带有以下命令的 anaconda: conda create --name
wikipedia - wikipedia Pageid 到 wikidata id 映射是否有任何转储？
本页:http://wikidata.dbpedia.org/downloads/20160111/ 有一个名为 wikidatawiki-20160111-page-ids.ttl.bz2 的转储
wikipedia-api - 如何通过 MediaWiki API 从 Wikipedia 文章中获取信息框？
这个问题已经有答案了: How to get the Infobox data from Wikipedia? (8 个回答) 已关闭 3 年前。维基百科文章可能有信息框模板。通过以下调用，我可以获
wikipedia-api - 如何从 Wikipedia API 获得超过默认的 10 个结果？
我正在使用 Wikipedia API，在其中获取我输入的某些字符串的图像。它总是返回 10 个结果，但我想要超过大约 50 个。 https://en.wikipedia.org/w/api.ph
wikipedia - 从 dbpedia(或 wikipedia)提取 "external links"数据的最快方法是什么？
我需要从 jquery(首选)或 php 数组中的特定维基百科文章获取“外部链接”链接。我已经浏览了维基百科 api，但似乎没有办法做到这一点。看起来 dbpedia 有一种方法可以做到这一点(dbp
python-2.7 - 使用 python Wikipedia API 访问 Wikipedia Infobox 图像
我想在 python 程序中访问给定文章标题的维基百科信息框图像。有人可以告诉我如何获得吗？以下截图提供了页面中所有图像的列表。我只想访问信息框图像。我该怎么做？ import wikipedia
wikipedia - 如何从维基百科页面中提取所有引用数据？
给定维基百科上的任何页面，例如 Coffee 的页面，我试图弄清楚如何提取页面上所有引用(包括任何元数据)的列表。乍一看，这似乎很容易，因为大多数页面都将它们全部列在称为“引用”的部分下。但是，当您检
wikipedia - 如何下载和使用维基百科数据转储？
我想计算特定语言的 wiki 转储中的实体/类别，比如英语。对于初学者来说，很难找到/遵循官方文档。到目前为止我所了解的是我可以下载一个 XML 转储(我从所有可用的不同文件中下载什么)，并解析它(？
wikipedia - 如何仅使用页面链接找到维基百科页面的类别？
是否有任何 API 可以使用该页面的标题或页面 ID 或 url 获取页面的所有类别？我尝试在网上搜索，但我能找到的只是获取特定类别的转储。任何形式的帮助将不胜感激。谢谢最佳答案您正在寻找的 A
wikipedia - 什么是在Wikipedia上创建几何图形的工具
Closed. This question is off-topic。它当前不接受答案。想要改善这个问题吗？ Update the question，所以它是用于堆栈溢出的on-topic。 9年前
wikipedia - 如何建立维基百科类别层次结构？
我正在尝试构建维基百科文章及其类别的树形图。我需要做什么？从这个站点(http://dumps.wikimedia.org/enwiki/latest/)，我下载了: enwiki-latest-p
wikipedia - 如何使用维基百科api中的page_id获取页面实际内容？
我使用 Wikipedia API 检索给定类别的页面列表。然而，页面由它们的 page_id 表示。如何使用 Wikipedia API 通过 page_id 获取页面的实际文本内容最佳答案 AF
wikipedia - 从Wikipedia检索音乐艺术家数据？
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
wikipedia - 如何将Freebase查询转换为Wikidata查询？
以这个Freebase查询为例，如何使用Wikidata API运行相同的查询？ [{ "id": null, "name": null, "type": "/film/film",
wikipedia - 如何按给定日期检索维基百科文章的历史版本？
有没有一种方法可以使用 MediaWiki API 或任何其他工具自动检索使用大概日期的维基百科文章的先前版本(不知道 'oldid' 值)？例如，我如何检索 history version of
wikipedia - 我如何从Wikipedia中获取有关人员的所有文章？
从Wikipedia获取有关人员的所有文章的最简单方法是什么？我知道我可以下载所有页面的转储，但是然后如何过滤这些页面并仅获取有关人员的页面？我需要尽可能多的东西（最好超过一百万），因此使用任何一种A
wikipedia - 如何从维基百科信息框中提取信息？
有这个花哨的infobox在中。如何获得的值？最佳答案错误的方法:尝试解析 HTML Use (cURL/jQuery/file_get_contents/requests/wget/mor
wikipedia - 以编程方式检索所有维基百科语言的列表
我需要检索某个 wiki 项目的所有现有语言的列表。例如，所有 Wikivoyage或全部Wikipedia语言，就像他们的登陆页面一样。如果可能的话，我更喜欢通过 MediaWiki API 来完
wikipedia - 如何找到旧的维基百科转储
我需要访问非常旧的法语维基百科转储(维基百科的备份)。我成功地从 archive.org 找到了 2010 年的备份，现在我正在搜索 2006 年甚至更早的版本。我知道在最新的转储中包含以前的所有数据

首页

博学

6Ren·AI

商城

java - 如何使用 Wikipedia API 提取/解析我要查找的链接？