gpt4 book ai didi

elasticsearch - 当原始数据缺少信息时测量精度和召回率

转载 作者:行者123 更新时间:2023-12-04 12:01:34 26 4
gpt4 key购买 nike

尝试改进我的聊天应用程序:

使用来自我的域的先前(预处理)聊天交互,我构建了一个工具,为用户提供 5 种可能的给定聊天上下文的话语,例如:

Raw: "Hi John."



语境 :嗨 [[USER_NAME]]
言论 : [你好,你好,你好吗,你好,你好]

当然,结果并不总是相关的,例如:

Raw: "Hi John. How are you? I am fine, are you in the office?"



语境 : 嗨 [[USER_NAME]] 你好吗 我很好 你在办公室吗
言论 : [是,否, 您好 ,是的,我是, 你好吗 ]

我正在使用 Elasticsearch使用 TF/IDF 相似性模型和如下结构的索引:
{
"_index": "engagements",
"_type": "context",
"_id": "48",
"_score": 1,
"_source": {
"context": "hi [[USER_NAME]] how are you i am fine are you in the office",
"utterance": "Yes I am"
}
}

问题:我确信对于上下文“嗨 [[USER_NAME]] 你好吗,我很好,你在办公室吗?”话语“是的,我是”是相关的,但是"is",“否”也是相关的,因为它们出现在类似的上下文中。

尝试使用此 excellent video , 作为起点

问:如果我所知道的(从我的原始数据)只是一个真实的话语,我如何衡量准确率和召回率?

最佳答案

我认为主要问题是是否有任何可接受的答案比其他答案更好? (是否有相关性顺序?)如果没有,那么可接受答案列表中的任何答案都是 TP。如果存在某种相关性顺序,您可以将其合并为 TP 度和 FP 度:
答案:A < B < C < D
D——最好; A - 最差但仍然可以接受
分配给 TP 的贡献:
A - 0.5 + 1/4*(1-0.5) = 0.625
D - TP:1.0; FP:0.0
A - 目标价:0.625; FP:1-0.625 = 0.375
在这种情况下,任何不是最好的答案都是部分错误的,但由于它仍然在正确的集合中,对 TP 的相关贡献不应小于 0.5(因为它的补充对 FP 有贡献,甚至边缘正确答案应该不被视为比“好”更“坏”)。
正如你在上面看到的,我正在线性地处理订单惩罚。如果第一个答案特别好于其他答案,您当然可以在此处引入您认为合适的任何惩罚函数,等等。

关于elasticsearch - 当原始数据缺少信息时测量精度和召回率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40339530/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com