gpt4 book ai didi

perl - 我应该使用哪个模块将 mediawiki 文本解析为 Perl 数据结构?

转载 作者:行者123 更新时间:2023-12-04 06:55:41 26 4
gpt4 key购买 nike

我只需要将 wikitext 解析为 Perl 哈希数组。我找到了几个模块。 Text::MediawikiFormat似乎是我需要的,但它返回 HTML,我想要一个 Perl 数据结构。我还看了:

  • Parse::MediaWikiDump
  • Text::WikiText
  • Convert::Wiki
  • 最佳答案

    几年前我写了一些代码来做这件事,但它从未发布,因为从语义上解析 mediawiki wikitext 基本上是不可能的。问题在于 mediawiki 允许您自由地将 wikitext 结构与 HTML 结构混合在一起,并且 mediawiki 中的官方解析器通过将 wikitext 逐步转换为 HTML 来工作(主要使用一组极其复杂的正则表达式替换)。

    基本上我认为mediawiki wikitext除了被翻译成HTML之外不适合任何目的,如果你想从中解析出任何东西,你可能最好使用一段将其翻译成HTML的代码,然后解析它HTML。

    后记:Parse::MediaWikiDump是我的一个好 friend 的一个优秀模块,但它实际上根本不解析 wikitext;它读取 wikimedia 转储文件并提取页面文本和标题、修订信息以及类别和链接数据库等内容。它可以为您提供页面的 wikitext,但不会将该 wikitext 转换为其他任何内容。

    关于perl - 我应该使用哪个模块将 mediawiki 文本解析为 Perl 数据结构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2588795/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com