mediawiki - 了解维基媒体转储-6ren

mediawiki - 了解维基媒体转储

转载作者：行者123 更新时间：2023-12-04 08:49:55

25

4

我正在尝试解析 latest wikisource dump .更具体地说，我想获取Category:Ballads 下的所有页面。页。为此，我下载了 https://dumps.wikimedia.org/enwikisource/latest/enwikisource-latest-pages-articles.xml.bz2倾倒。在此转储中，相关页面包含除实际链接之外的所有内容:

<page>
    <title>Category:Ballads</title>
    <ns>14</ns>
    <id>115796</id>
    <revision>
      <id>4753508</id>
      <parentid>4003780</parentid>
      <timestamp>2014-01-25T16:21:08Z</timestamp>
      <contributor>
        <username>EmausBot</username>
        <id>983607</id>
      </contributor>
      <minor />
      <comment>Bot: Migrating 2 interwiki links, now provided by [[Wikipedia:Wikidata|Wikidata]] on [[d:Q8286819]]</comment>
      <model>wikitext</model>
      <format>text/x-wiki</format>
      <text bytes="51" xml:space="preserve">[[Category:Song lyrics]]
[[Category:Poems by form]]</text>
      <sha1>43eusqpjj6kaqcp6nl1tcmo4ass36ia</sha1>
    </revision>
  </page>
  <page>

我的问题是，如何获取实际的页面内容以及该页面中的所有链接？
谢谢!

最佳答案

您下载了错误版本的转储。如果您对分类链接感兴趣，需要下载https://dumps.wikimedia.org/enwikisource/latest/enwikisource-latest-categorylinks.sql.gz ，例如。
如果您需要 XML 格式，则需要自己从原始 wikitext 中解析此信息。为此，您可以使用 https://dumps.wikimedia.org/enwikisource/latest/enwikisource-latest-pages-meta-current.xml.bz2 .
编辑每个评论:enwikisource-latest-pages-meta-current.xml不包含有关类别的机器可读信息，它只包含有关当前页面内容的信息。您需要查找文本 XML 元素，其中包含存储在页面中的原始 wikitext。通常，在内容的末尾，它是这样的:

[[Category:American Civil War]]
[[category:American speeches]]

这表明该页面属于“美国内战”和“美国演讲”类别。
如果您想要解析的信息，则需要处理 .sql 文件 AFAIK。

关于mediawiki - 了解维基媒体转储，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64143707/

25

4

0

文章推荐： xaml - Xamarin 表单在 TabbedPage 中添加按钮

文章推荐： java - 处理语言中的翻转

html - 媒体=全部 vs 媒体=屏幕
似乎最近我看到越来越多的人开始在他们的样式表中使用 media="all" 而不是 media="screen"。我的问题是什么时候应该使用 media="all" 而不是 media="scree
instagram - 媒体 Instagram 端点不起作用 - 媒体 ID 无效
我正在尝试使用 https://www.instagram.com/developer/endpoints/media/ ，但对于我使用的每个媒体 ID，我总是得到相同的结果: { "meta
HTML/CSS @媒体
哟，我正在为服务器制作一个 MOTD 供最终用户阅读。但是，对于使用较小显示器的用户来说，它看起来非常压缩，例如，当分辨率为 1280x1040 时，它会被拉低。我不熟悉 CSS 中的 @media
CSS 媒体查询(@媒体)
我在我的 CSS 文件中使用了 @media screen 而不是 (-webkit-min-device-pixel-ratio:0)。我的问题是关于指定的值，即在这种情况下为“0”。值的变化将如何
机器人:媒体 Controller
我正在播放 Activity 中的视频，我需要显示/隐藏顶部栏 View 以及媒体 Controller 。所以当媒体 Controller 在屏幕上时，我的顶部 View 应该是可见的，当媒体 Co
小部件中的 Wordpress 媒体 uploader
我在我的 WordPress 主题中创建了一个小部件来显示图像。到目前为止，小部件可以工作，我可以输入值并在前端显示这些值。当我选择一个小部件并将其放入小部件区域时，媒体上传按钮不起作用。在 Wor
iphone - 标记内的MWFeedParser标记(媒体:缩略图)
我正在使用MWFeedParser从此处读取Youtube原子供稿:here xml代码: 我如何获取媒体的网址:缩略图？我试图更改MWFeedParser.m 由此: else if ([cu
Instagram API/媒体/搜索最大计数参数？
当使用 Python 向 Instagram API 发出 GET 请求时，传递所需的变量，如下所示 photos = api.media_search(lat=latitude, lng=longi
Android 媒体 Controller 在失去焦点时隐藏
我正在使用与媒体播放器关联的媒体 Controller 来播放声音。问题是媒体 Controller 一旦失去焦点就会隐藏起来。我有一个按钮，按下时会播放声音，媒体 Controller 会出现在屏幕
android - 媒体 Controller 隐藏但媒体播放器继续播放
我有一个媒体播放器并与它关联了一个媒体 Controller 。控件工作正常。我遇到了两个问题: 当媒体 Controller 获得焦点时，即用户触摸它然后触摸屏幕的另一部分时，媒体 Control
java - 媒体 Controller 不工作
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
对话框中的 Android 媒体 Controller
我在对话框中显示一个 VideoView 并向其附加一个媒体控件。但是当我尝试点击媒体控件(播放、搜索栏等)时，对话框会消失。媒体控制按钮不会被点击，而是将点击注册为 Dialog 的 Outsi
html - 打印时隐藏 HTML 媒体
我目前正在使用 HTML 编写可打印文档，它将显示从数据库中提取的数据。我的想法是我将使用 HTML/CSS 使文档看起来不错，但它将专门用于打印。文档的布局使用表格来控制数据库中数据的显示方式。
css - 媒体 ="print"外部链接不起作用
我需要在网络应用程序中打印我的报告。我有在我的代码中。但它不应用任何样式。另一方面，如果我使用在文档中编写 print.css 代码一切正常。怎么了？最佳答案也许你在主样式之前插入打印样式
jquery - css 媒体 - 屏幕宽度不一致
CSS html{ overflow-y:scroll; } js function showW(){ var a=($(window).width()); $('#
css - 媒体 ="all"CSS 是否会覆盖所有内容？
我编写了一个 Chrome 扩展程序，其中一个功能是您可以在您所在的页面中调出一个帮助面板，其中包含其使用指南。这个帮助面板是通过JS插入到页面中的，它的CSS都是通过$('#selector_for
linux - 模拟 WORM 媒体
我需要为 WORM 媒体开发归档软件。这种类型的媒体允许通常的访问操作:读取、写入，但文件一旦写入，就无法修改或删除。因为这样的媒体可能很昂贵，我想知道如何在开发阶段为测试创建一个假的 WORM
Android 媒体 Controller 短时间显示
下面的这个 Activity 工作正常，但 mediaController 仅在我单击屏幕时显示。第二个问题是媒体 Controller 只显示 3 秒。我应该怎么做才能消除这个问题？ public
android - 媒体 Controller 定位
我正在使用 VideoView 播放本地 mp4，我也在使用 MediaController。媒体控制栏未显示在我的视频剪辑下方，而是显示在屏幕中间。我使用 setAnchorView 将其附加到我的
android - 媒体 Controller 不工作
我的布局包含 videoView 还有java代码中的Medicontrolleri: final MediaController mediaCont

首页

博学

6Ren·AI

商城

mediawiki - 了解维基媒体转储