gpt4 book ai didi

nlp - spacy 将 conllul 转换为 spacy json 格式

转载 作者:行者123 更新时间:2023-12-04 01:50:37 25 4
gpt4 key购买 nike

我从 Universal Dependencies 获取数据我主要使用印度尼西亚语(巴哈萨语),所以我克隆了 repo:

这两个 repo 都包含 bz2 文件,解压后我得到了包含的文件。所有内容都采用 conllul 格式。所以我尝试使用命令将其转换为 spacy 的 json 格式:

python -m spacy convert thefile.conllul .

然而,spacy 抛出错误信息:

未知格式
找不到 conllul 的转换器

如何转换?conllulconll 格式是一回事吗?如果不是,如何将 conllul 转换为 conll 格式?提前谢谢

最佳答案

好的,在回答您的问题之前,让我们稍微澄清一下。

下列说法正确的是:

  • 有不同的ConNLL格式
  • 不同格式的共同点是它们源自 CoNLL session 。
  • Spacy 通过其 CLI 为 2 种不同的格式提供了一个转换器:简单的 conll 格式和最新的 conllu 格式。您可以找到有关 conll 格式的更多信息 here以及更多关于 conllu 格式的信息 here
  • Conllul 是一种不同的数据格式,于 2018 年推出。您可以阅读更多 here
  • Spacy不支持conllul和json格式的直接转换。

考虑到所有这些,我想您的问题的答案是为您的语言使用 conllu 格式,这是使用 spacy 处理自然语言数据的标准方法。我发现在您的语言的 ud treebank 集合中有格式的数据。您可以从here下载数据然后使用 spacy 转换器将它们转换为 json。

真心希望对你有所帮助。 :)

关于nlp - spacy 将 conllul 转换为 spacy json 格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53318940/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com