sql - 按 pageid 的维基百科页面到页面链接-6ren

sql - 按 pageid 的维基百科页面到页面链接

转载作者：行者123 更新时间：2023-12-04 21:47:10

24

4

什么？:
我正在尝试通过 page_id 获取维基百科页面的页面到页面链接映射(矩阵)以下格式:

from1 to1 to2 to3 ...
from2 to1 to2 to3 ...
...

为什么？:
我正在寻找数据集(来自维基百科的页面)来试用 PageRank。

问题:
在 dumps.wikimedia.org可以下载 pages-articles.xml 这是具有这种格式的 XML:

<page>
  <title>...</title>
  <id>...</id>          // pageid
  <text>...</text>
</page>

我将用于检索文章( text )，然后还基于每页数据( page.sql )，其中包含有关页面的一些详细信息 page_id最后一个似乎与我相关的是 pagelinks.sql 包含页到页链接记录。问题是 pagelinks表有以下字段: pl_from , pl_namespace和 pl_title .

思路:创建临时数据库，导入 page和 pagelinks表并使用 pagelinks 创建此矩阵表和检索 page_id s 根据 pl_title s。可能的解决方案:

SELECT pl_from, GROUP_CONCAT(page_id SEPARATOR ' ') FROM pagelinks
    JOIN page ON 
        pl_title = page_title AND pl_namespace = page_namespace
GROUP BY pl_from

或获取“反向链接”的 map ( to1 from1 from2 from3 ... ，而不是 from1 to1 to2 to3 ... ):

SELECT page_id, GROUP_CONCAT(pl_from SEPARATOR ' ') FROM pagelinks
    JOIN page ON 
        pl_title = page_title AND pl_namespace = page_namespace
GROUP BY page_id

题:
有没有地方可以通过 page_id 获得这种页面到页面链接的矩阵？这样我就不需要自己创建它了？
或者，如果没有，有没有比我指出的解决方案更快的方法来获得这种矩阵？

最佳答案

我认为将两个表导入数据库并使用它可能是最简单的方法(并且您不需要 pages-articles.xml)。

另一种选择是手动解析这两个 sql 文件而不将它们导入数据库。我实际上创建了 a library to do exactly that in .Net .

关于sql - 按 pageid 的维基百科页面到页面链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12672008/

24

4

0

文章推荐： sql - 在 SQL Server 2008 Management Studio 中查找存储过程

文章推荐： assembly - 如何在 AT&T 程序集中正确定位变量？

文章推荐： django - 为什么我们需要 uwsgi 来在 nGINX 上托管 Django

文章推荐： .net - EF4 无法将具体类型转换为接口(interface)

Sharepoint 维基
好吧，我看过一些帖子提到其他一些关于不使用 SP wiki 的帖子，因为它们很糟糕。既然我们正在考虑在 SP 中创建 wiki，我需要知道为什么我们不应该让 6 名自动化开发人员来记录各种自动化流程
git - 差异 GitLab 维基
在 GitLab Wiki 部分，可以查看保存更改的历史记录。但是，当您单击提交链接时，它将显示该保存中存在的整个文件。有谁知道一种方法来区分提交以仅获取两个提交之间的差异？这类似于它在 merge
javascript - 维基 API 请求不起作用
我使用了 Wiki API 文档中的一些示例代码，但是当我输入搜索项时，没有任何反应。控制台中没有错误，什么也没有。如果我将 URL 输入到浏览器中，URL 本身就会起作用，所以我认为代码中的某些内容
wiki - BitBucket 维基 : Create a hierarchy structure?
我想在我的 wiki 中创建一个层次结构，如下所示: General FooPages Foo1 Foo2 Foo3 ODP Bar Baz 我想创建这些页
python - Python 维基 map API (PyMapia)
我正在尝试使用为 Python 制作的 Wikimapia 的 pymapia API，但无法理解如何正确使用它。 import pymapia as PyMapia a = PyMapia.PyMa
ios - OS X 维基/博客服务器 API
我正在开发适用于 iOS 的客户端应用程序，用于在 Mac OS X 服务器(Snow Leopard 和 Lion)上编辑内置的 Wiki/Blog。看来我们可以使用 MetaWeblog 、At
url-rewriting - 哪种 URL 重写方案更可取？维基/博客风格？
我正在编写一些 URL 重写软件，我想从多个角度了解哪种 URL 方案更可取: 博客风格:my-chemistry-answer -- 为什么？ -- (不可取，技术性) Wiki 风格:My_Che
azure-devops - Azure DevOps 维基 : How can I link the subpages in the parent page?
我一直试图找到一种方法来在 Azure DevOps Wiki 中创建子页面的目录。我从其他 wiki 服务中找到了方法。在 Confluence 中，他们有一个用于“ child 显示”的宏我为

首页

博学

6Ren·AI

商城

sql - 按 pageid 的维基百科页面到页面链接