gpt4 book ai didi

wikipedia - 如何从维基百科页面中提取所有引用数据?

转载 作者:行者123 更新时间:2023-12-05 03:11:58 30 4
gpt4 key购买 nike

给定维基百科上的任何页面,例如 Coffee 的页面,我试图弄清楚如何提取页面上所有引用(包括任何元数据)的列表。乍一看,这似乎很容易,因为大多数页面都将它们全部列在称为“引用”的部分下。但是,当您检查这些页面的维基文本时,您会发现 References 只是一个指向 ref 的指针。模板,我相信它会根据页面上文本中的所有条目动态生成它们。

当我检查与每个引用文献相关的文本部分的维基文本时,我发现它们包含在 <ref></ref> 中。标签。这些标签之间的内容取决于引用类型。

所以一种策略是查询页面的所有内容并进行我自己的解析以找到所有 <ref></ref>对。但是,我认为必须有一种方法可以在我找不到的 Mediawiki API 中执行此操作。有办法吗?我宁愿从 wikitext 或其他东西中提取所有这些而不是最终的 HTML,因为我希望前者会更稳定。

最佳答案

我不知道你在 <ref> 中寻找什么信息的,但如果你只需要外部链接,你真的可以使用 MediaWiki API使用操作“解析”:

https://en.wikipedia.org/w/api.php?action=parse&page=Coffee&prop=externallinks

关于wikipedia - 如何从维基百科页面中提取所有引用数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35469473/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com