gpt4 book ai didi

annotations - 使用 MASI 距离的 NLTK 协议(protocol)的低 alpha

转载 作者:行者123 更新时间:2023-12-04 17:50:02 25 4
gpt4 key购买 nike

当我在 NLTK 中使用 MASI 作为距离函数计算一致性时,我得到的 Krippendorff 的 alpha 值非常低。

三个编码员(Inky、Blinky 和 ​​Sue)被指示根据文本的内容为两个文本(text01 和 text02)分配主题标签(爱情、礼物、粘液或游戏)。每篇文章可以涉及多个主题,因此编码人员可以为每篇文章分配多个标签。用于进行计算的数据和代码如下所示:

import nltk
from nltk.metrics import agreement
from nltk.metrics.distance import masi_distance
from nltk.metrics.distance import jaccard_distance

#(coder, item, label)
data = [('inky','text01',frozenset(['love','gifts'])),
('blinky','text01',frozenset(['love','gifts'])),
('sue','text01',frozenset(['love','gifts'])),
('inky','text02',frozenset(['slime','gaming'])),
('blinky','text02',frozenset(['slime'])),
('sue','text02',frozenset(['slime','gaming']))]

jaccard_task = nltk.AnnotationTask(distance=jaccard_distance)
masi_task = nltk.AnnotationTask(distance=masi_distance)
tasks = [jaccard_task, masi_task]
for task in tasks:
task.load_array(data)
print("Statistics for dataset using {}".format(task.distance))
print("C: {}\nI: {}\nK: {}".format(task.C, task.I, task.K))
print("Pi: {}".format(task.pi()))
print("Kappa: {}".format(task.kappa()))
print("Multi-Kappa: {}".format(task.multi_kappa()))
print("Alpha: {}".format(task.alpha()))
print()

当我运行代码时,我得到以下结果:

Statistics for dataset using <function jaccard_distance at 0x09D26DB0>
C: {'inky', 'sue', 'blinky'}
I: {'text01', 'text02'}
K: {frozenset({'slime'}), frozenset({'love', 'gifts'}), frozenset ({'gaming', 'slime'})}
Pi: 0.7272727272727273
Kappa: 0.7777777777777777
Multi-Kappa: 0.7499999999999999
Alpha: 0.75

Statistics for dataset using <function masi_distance at 0x09D26DF8>
C: {'inky', 'sue', 'blinky'}
I: {'text01', 'text02'}
K: {frozenset({'slime'}), frozenset({'love', 'gifts'}), frozenset({'gaming', 'slime'})}
Pi: 0.8172727272727272
Kappa: 0.8511111111111113
Multi-Kappa: 0.8324999999999998
Alpha: -1.5

我的问题是,与 Jaccard 相比,为什么使用 MASI 距离函数时 alpha 如此低?

最佳答案

在运行提供的代码时,我无法重现错误并获得了 Krippendorff 的 alpha 与 MASI 距离的正确值。我使用了 Python 3.5.2、NumPy 1.18.2、NLTK 3.4.5。因此,最可能的答案是需要更新 NLTK。

关于annotations - 使用 MASI 距离的 NLTK 协议(protocol)的低 alpha,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45741934/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com