gpt4 book ai didi

wikipedia - 有多少维基数据是有机的(用户输入独立于维基百科)?

转载 作者:行者123 更新时间:2023-12-04 09:10:05 25 4
gpt4 key购买 nike

我试图弄清楚维基数据的条目中有多少是“有机的”,即人类输入的数据并且独立于维基百科。

  • Wikidata introduction page说“自动化机器人也会将数据输入维基数据。”有没有关于机器人输入了多少维基数据数据的统计数据?
  • 我知道 Wikidata 是一个独立于 Wikipedia 的组织。有没有关于有多少维基数据条目来自维基百科的统计数据? (例如,一个人阅读了一篇 Wikipedia 文章,发现了一个不在 Wikidata 中的事实,然后使用该 Wikipedia 文章作为引用将该事实输入到 Wikidata。)

  • 我熟悉 Wikidata 的 SPARQL API,可以查找任何可能需要的东西来解决这些问题。

    最佳答案

    当您查看 "recent changes" (并停用“仅限人类”过滤器)或任何特定页面/项目的历史记录,机器人都标有一个小“b”,它们的名称也以“...Bot”结尾。
    如果仅通过“语句数量”来衡量,机器人可能会添加大部分数据。如果按重要性/观看次数来衡量,人类可能领先。
    您没有提到但可能很重要的一组是“介于两者之间”:人们使用 OpenRefine或 QuickStatements 半手动匹配(“协调”)一些外部数据集并导入它。例如,计算生物学社区确实以这种形式使用 Wikidata 作为一种枢纽。
    来自 Wikipedia 的导​​入提供了很多结构,因为每个页面都有它的 wikidata 项(并且只有一个)。但大部分数据来自其他公共(public)数据集。
    由于我无法理解的原因,一些维基百科和维基数据之间的关系并不总是完美的。而且因为每个项目在这些事情上都有很大的自由度,所以有些人已经不再使用维基数据作为存储结构化信息的后端,而是在做自己的事情。发生这种情况时,要么有人至少在一个方向上继续同步它。或者数据开始发散。例如,最近,英文维基百科决定使用一些本土方法来管理短页面描述。
    (编辑,回答评论中的问题:)机器人数据的质量控制通常与其他编辑相同,除了机器人编辑(和类似的,例如使用 QuickStatement 的编辑)被标记为这样。
    最近页面的概述会引起对任何更改的注意,将项目添加到您的个人监视列表的能力也是如此。还有一个人工智能系统(与 en.wikipedia.org 上的相同)可以预测恶意和低质量的编辑,这些编辑被标记为这样,在更改中突出显示,并在过滤器中可用。同一用户的相关编辑也合并到“编辑组”中,this page显示最近的。属性也有许多限制条件,例如要求出生和死亡日期是过去的日期,要求“公民”属性的对象是人,等等。违反这些约束的行为在项目页面上用 (!) 标记,也在各种列表中。所以属性"awards received"需要 object to be a person/creative work/organisation/etc.大约 8000 次违规是 listed here ,然后单击一个显示 a case where a person is missing声明“是一个:人”。

    关于wikipedia - 有多少维基数据是有机的(用户输入独立于维基百科)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63367956/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com