xpath - 区分维基百科消歧和普通页面-6ren

xpath - 区分维基百科消歧和普通页面

转载作者：行者123 更新时间：2023-12-01 05:02:16

27

4

目前，我正在尝试将给定维基百科页面的内容检索到纯文本文件中。使用 XPath，我的代码可以完美地做到这一点。然而，只有一个简单的问题:维基百科上的一些页面是消歧页面。

现在，这本身并不是戏剧性的。我编写了一个 XPath 表达式来检索维基百科消歧页面的第一个链接:(/html/body/div[@id='content']/div[@id='bodyContent']//a[开始于(@href, '/wiki')]/@href)[1]。这意味着我可以只使用第一个链接作为我试图从中检索内容的页面。

不，真正的问题是我还没有找到任何方法来知道何时使用该代码(从消歧页面检索第一个链接的代码)或另一段代码(直接从感兴趣的页面获取内容的，非消歧的)。事实上，我似乎无法找到一种方法来区分已消除歧义的页面和正常页面。

到目前为止，我已经尝试过:

查看已消除歧义的页面的来源并将其与正常页面进行比较:我找不到任何区别。

查看两种类型页面上的内容:在这里，唯一的区别是有些页面在顶部显示“This page may refer to”。然而，并不是所有的页面都提到了这一点。

一个简单的解决方案是查看页面的标题(例如 http://en.wikipedia.org/wiki/Boston_(disambiguation ))。但是，并非所有已消除歧义的页面都在其标题中包含“消除歧义”一词:http://en.wikipedia.org/wiki/Freedom .

总而言之，有谁知道区分维基百科消歧页面和具有实际内容的维基百科页面的方法吗？

编辑:这实际上与问题无关，但我正在用 Objective-C 编程。

最佳答案

现在可以使用 ?action=query&prop=pageprops 直接从 API 获取类别，而不是依赖类别

示例:http://en.wikipedia.org/w/api.php?action=query&prop=pageprops&format=json&titles=Ekeby将返回:

{"query":{"pages":{"24789600":{"pageid":24789600,"ns":0,"title":"Ekeby","pageprops":{"消歧义":"","wikibase_item":"Q410694"}}}}}

关于xpath - 区分维基百科消歧和普通页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8159353/

27

4

0

文章推荐： jquery - 当 jQuery 菜单在 iPad 上滑出时图像会被拉伸(stretch)

文章推荐： ruby-on-rails - 从 around_action 回调渲染 Controller Action 的 View

文章推荐： bower - Yeoman composeWith : change directory?

普通 lisp 的授权库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 5 年前。
sql - 普通 SQL 与方言
DBMS 供应商使用 SQL 方言特性来区分他们的产品，同时声称支持 SQL 标准。 'Nuff 说。您编写的任何 SQL 示例是否无法转换为 SQL:2008 标准 SQL？具体来说，我说的是
c - 普通 C 中的快速随机洗牌功能
多年来，我一直在考虑这个问题，但从未成功实现过。我说的是一个快速、高效的 C 函数，它在输入中接受一个整数值(例如 16 位)，并在输出中给出完全不同的相同位大小的数字，但“考虑到”所有数字已经给出了
iphone - 普通 iPhone 应用程序的游戏引擎使用情况
当标准 iPhone UI 控件变得过于平淡，并且您希望简单的记分应用程序通过颜色、动画、非标准 GUI 字体和背景壁纸等流行时。，为这样的事情集成游戏引擎有意义吗？我对 Unity3D 和 To
iPhone 普通 TableView 部分标题图像并获取两行文本
这是我的第一个问题，所以如果我没有正确地标记标签，我很抱歉。我尝试过...这是我的问题:我希望有人能告诉我如何为普通的表格 View 创建 2 行节标题。我遇到的问题是:1)我找不到可以模仿默认 1
javascript - 普通 JavaScript 计算器
所以我一直在开发一个仅使用普通 JavaScript 的“非常简单”的计算器。但我不知道为什么它现在起作用了。这是我的 JavaScript 和 HTML 代码: (function() { "
javascript - 普通 for 循环和 for...in 之间的区别？
我正在尝试编写一个函数来满足以下要求: 给定一个对象和一个键，“getElementsThatEqual10AtProperty”返回一个数组，其中包含位于给定键处等于 10 的数组的所有元素。注释
javascript - 单击父级时如何不解雇其子级？ (普通 JavaScript)
[最终编辑:我觉得有必要做出回应，因为我从这篇文章中学到了很多东西(主要是通过你们，我花了更多的时间来理解CSS..但最后，我真的不知道如何为了使这项工作有效..除了真正破坏html的基本结构..我不
javascript - 普通 JavaScript 中的单击并按住事件
我希望能够将一个函数附加到一个元素上，该函数只有在该元素上单击指定时间后才会运行。有几个( 1 、 2 、 3 )与在 javascript 中处理鼠标保持相关的问题；但这些问题要么使用 jQuer
methods - 普通 lisp 中的匿名方法
我想将泛型函数保存为变量: (defvar *gf* (make-instance 'standard-generic-function) 但是在添加方法时，我必须自己定义call-next-meth
c - 普通 C 的可增长缓冲区
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
iOS 普通 tableview 行出现在标题后面
我有一个普通的 tableView——一个部分——当我滚动时，行出现在标题后面。像这样: 有没有简单的方法来防止这种情况？我认为它与 contentInset 有关，但这也会移动标题，这不是我想要的。
javascript - 如何在淡出后立即淡入元素(普通/纯javascript)
你好，我有一个ajax表单，它返回一个控制“发送”动画的脚本。然而，当淡入开始时，它会停止在 0.1 不透明度。我不确定脚本中有什么问题。任何帮助将不胜感激。 quote_form = documen
javascript - 普通 JavaScript 中的滚动动画仅适用于导航链接
这是演示我的问题的代码笔:http://codepen.io/PiotrBerebecki/pen/yaWQwZ 目标是当用户点击时有滚动动画顶部导航链接，以及 Back to Top 按钮在右下角
java - 普通 Java 中类似主题的并发队列
在我重新发明轮子之前，纯Java中有类似主题的并发队列吗？我有以下要求: 多个读者/消费者多名作家/制片人每条消息都必须由每个(活跃的)消费者消费在每个消费者阅读一条消息后，它应该变成垃圾(即不
mysql - 普通 Key 应该包括主键吗？
这个问题与 Do MySQL tables need an ID? 有一个无意义的auto_incremental ID作为一个表的PRIMARY KEY，那么我创建其他KEY时，我是否应该在KEY中
ios - 普通 TableView 分隔符未删除
我有一个普通 UITableView 并且我想隐藏分隔符。为了隐藏它，我尝试使用以下属性: 我也在 viewDidLoad 中设置了它。 self.tableView.separatorStyle =
javascript - 普通 javascript - 获取选中复选框的值
var vettore = document.getElementById(id_form).elements; for (var i = 0; i '+vettore_nomi_file[i]; 最
javascript - 普通 Javascript 轮播问题
我已经构建了一个非常简单的轮播，但有一个问题。在我的轮播中，我有三张幻灯片，一个上一个按钮和一个下一个按钮。我想要的是当我单击下一个按钮并在最后一张幻灯片上转到第一张幻灯片时。此外，当我单击上一个按钮
javascript - 普通 Javascript 插件在控制台中返回错误
我是 javascript 的新手，所以我需要一些帮助。我正在尝试制作一个简单的插件(当然只是为了学习，以便更好地理解事物)，但我遇到了一些麻烦，我将不胜感激。我的插件是基本的，我正在尝试为 sc

首页

博学

6Ren·AI

商城

xpath - 区分维基百科消歧和普通页面