gpt4 book ai didi

wiki - 如何使用维基下载的索引文件中提供的信息?

转载 作者:行者123 更新时间:2023-12-04 06:36:16 25 4
gpt4 key购买 nike

我正在尝试使用维基数据对中国人进行一些研究。除了使用dbpedia(因为与zh.wikipedia.org相比,关于中国人的信息有点有限),我发现我可以直接从zhwiki下载http://download.wikipedia.com/zhwiki/20150301/ .

我看到有一个索引文件,从文件中我可以看到如下行:
966576:291:人物

我认为这是一个查找键?有人能告诉我如何使用这个查找键来搜索主文件或数据库吗?

最佳答案

有两个文件

  • zhwiki-20150301-pages-articles-multistream.xml.bz2 1.1 GB - 它有
    多个 bz2 流,每个流 100 页
  • zhwiki-20150301-pages-articles-multistream-index.txt.bz2 18.8 MB - 索引文件

  • 索引文件有行
  • offset1:pageId1:title1
  • offset1:pageId2:title2
  • ..
  • offset2:pageId101:title101
    等等。

  • offset 是 bz2 流的起始偏移量。您需要从 bz2 文件中从 offset1 到 offset2 读取字节并将它们传递给 bz2 解码器,它将为您提供来自该流的 100 页的 xml 转储

    关于wiki - 如何使用维基下载的索引文件中提供的信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29020732/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com