- VisualStudio2022插件的安装及使用-编程手把手系列文章
- pprof-在现网场景怎么用
- C#实现的下拉多选框,下拉多选树,多级节点
- 【学习笔记】基础数据结构:猫树
这是 人工评估 系列文章的第三篇《技巧与提示》,全系列包括
- 基础概念
- 人工标注员
- 技巧与提示
建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议.
简单至上:标注任务避免不必要的复杂。将标注员的认知负担降低到最低有助于确保他们保持专注,从而提高标注质量.
检查信息:标注任务避免引入不必要的信息。仅提供任务必需的信息即可,确保不对标注员产生额外偏见.
内容简化:事物的展示位置和方式差异都可能导致额外的工作量和认知负担,进而影响标注质量。例如文本和任务在同一个页面展示就能避免不必要的滚动操作,再或者多个串行任务结合时可以按顺序展示。请仔细思考你的标注工具中所有内容的展示方式,看看是否还有简化空间.
测试设置:任务设计以及标注指引完成之后,确保先在少量样本上自行测试通过,再邀请整个标注团队参与,并根据需要进行迭代.
独立标注:为避免标注员的个人偏见在团队内传播而导致结果偏差,标注员在任务过程中应做到:不互相帮助、不借鉴答案。标注指引的对齐原则应贯穿任务始终,需使用独立数据集培训新标注员或者采用标注间一致性指标来保证整个标注团队的结果一致.
版本一致:如果标注文档需要重大更新 (例如,定义或指令更改、添加或删除标签),则要决定是否对已标注的数据进行迭代,最少也得对更改的数据集进行版本追踪,可以使用如 guidelines-v1 的元数据值.
人工标注固然优势很大,但有时候标注团队会受到一些限制,如时间和资源。此时,可以部分利用模型来提高标注效率.
模型辅助标注:可以使用模型的预测或生成结果作为预标注,来避免标注团队从零开始。需要注意的是这可能会引入模型偏差,例如模型的准确率较低时反而会增加标注工作量.
监督模型评估:可以将模型评估 (参考 “Model as a judge” 页面) 和人工监督的方法论相结合来对结果进行验证或丢弃。需要注意引入的偏差 (参考 “人工评估的优劣势” 部分).
识别边缘案例:为使任务更加高效,可以先用一组模型初步判断,待模型意见偏差过大或正反平局时再引入人工监督员。同样需要注意引入的偏差 (参考 “人工评估的优劣势” 部分).
如果你想完整的构建自己的评估任务,可以参考 Argilla 出品的 实用评估教程,文中详细介绍了使用 Argilla 和 distilabel 进行合成数据、人工评估等来构建特定领域的评估任务。构建完成后可以使用 lighteval 库进行评估.
原文链接: https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/using-human-annotators.md 。
作者: clefourrier 。
译者: SuSung-boy 。
审校: adeenayakup 。
最后此篇关于人工评估|技巧与提示的文章就讲到这里了,如果你想了解更多关于人工评估|技巧与提示的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
这个问题已经有答案了: How does Google reCAPTCHA v2 work behind the scenes? (5 个回答) 已关闭 8 年前。 我知道评估是人类用户正在使用您的网
根据以下链接,Artifactory AQL 允许通过 REST API 仅返回感兴趣的字段来“显示特定字段”。 https://www.jfrog.com/confluence/display/RT
我想制作一个比应有的大得多的虚拟 Win32 EXE 文件。所以默认情况下,样板 Win32 EXE 文件为 80 KB。我想要一个 5 MB 的空间来测试其他一些实用程序。 第一个想法是添加资源,但
这个问题已经在这里有了答案: 已关闭10年。 Possible Duplicate: Relational database design question - Surrogate-key or Na
我正在尝试在构建作业中生成一个 JSON 构建信息文件以上传到 Artifactory 并在两个工具之间创建可跟踪性。然而,常规的 Jenkins JSON API 文件设计不正确,因此我需要在运行作
当您通过现有 Artifactory 将 Artifactory 部署到 Artifactory 时,它不会将其与现有 Artifactory 所具有的构建相关联。 例如:如果您使用 Jenkins
我是一名优秀的程序员,十分优秀!