mediawiki - 维基百科 API : Excluding References From Parse Request-6ren

mediawiki - 维基百科 API : Excluding References From Parse Request

转载作者：行者123 更新时间：2023-12-04 00:43:23

我正在尝试按照页面上显示的顺序或合理接近的顺序从特定页面获取链接。我相信我使用解析请求找到了正确的 API 调用，但是我注意到我得到了很多我认为是“垃圾”的链接，这些链接实际上是在引用中完成的链接。例如，对于 Albert Einstein，我执行请求 ( http://en.wikipedia.org/w/api.php?action=parse&format=json&page=Albert%20Einstein&redirects=&prop=links )，我将获得出现在 E. T. Whittaker 和 JSTOR 等引用文献中的链接。出于我的目的，引用中的这些链接是“垃圾”。

或者，我查看了查询命令，但发现带有 prop=link 的查询命令最终只会给我按字母顺序排列的链接，这会丢失我想要查看的部分信息。此外，此 API 查询还包括来自引用中的这些“垃圾”链接。

我是否可以告诉解析命令忽略引用标签内的链接，或者我是否需要使用 API 检索文本，然后自己在客户端进行解析？

最佳答案

我也不认为有一种方法可以准确地获得您正在寻找的东西。如果您要求 MediaWiki 解析页面，它将在返回之前解析所有模板引用。如果我需要做你想做的事，我会直接获取页面的原始维基文本:

http://en.wikipedia.org/w/api.php?action=parse&format=json&page=Albert%20Einstein&redirects=&prop=wikitext

然后使用它进行我自己的解析。使用正则表达式查找所有 wiki 链接应该很容易。从页面中删除所有模板也很容易。

关于mediawiki - 维基百科 API : Excluding References From Parse Request，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16259946/