gpt4 book ai didi

python - 在 Prodigy 中对 csv 文件运行 ner.manual

转载 作者:行者123 更新时间:2023-12-05 04:50:00 33 4
gpt4 key购买 nike

我是 Prodigy 的新手,还没有完全弄清楚范式。对于一个项目,我想从文本中手动注释名称。我的团队开发了我们自己的模型来识别名字,所以我只想使用带注释的文本(使用 Prodigy 生成)作为我们模型的黄金标准。

为此,我有一个 csv 文件 texts.csv,其中一列中包含文本。我是否需要将此文件转换为 json,或者我是否也可以在 csv 文件上运行 Prodigy?

此外,我需要运行什么代码来启动此数据集的 ner_manual

我想,我必须从:

!python -m prodigy ner.manual

但是,我不清楚应该如何运行其余部分。有人可以帮我解决这个问题吗?

最佳答案

文件格式

我相信对于标有“文本源”的食谱,您可以使用 jsonl、json、csv 或 txt(引用标有“文本源”的部分:https://prodi.gy/docs/api-loaders)。 Ner.manual 说“文本源”所以我认为它应该工作。 (引用:https://prodi.gy/docs/recipes#ner-manual)

ner.manual

关于运行 ner.manual 尝试查看此文档 https://prodi.gy/docs/

文档包含一个很好的例子:

python -m prodigy ner.manual ner_news_headlines 空白:en ./news_headlines.jsonl --label PERSON,ORG,PRODUCT,LOCATION

  1. ner_news_headlines 是数据集的名称(可以任意命名)
  2. blank:en 是一个空白的英文模型
  3. ./news_headlines.jsonl 是您要注释的 jsonl 文件的名称(使用您的文件的任何文件名)
  4. PERSON、ORG、PRODUCT、LOCATION 是您将用来注释数据的标签(将这些更改为您要使用的任何标签,确保用逗号而不是空格分隔)

我也是 prodigy 的新手,所以其他人可能会有更好的答案。

关于python - 在 Prodigy 中对 csv 文件运行 ner.manual,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67435195/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com