gpt4 book ai didi

python - 为什么我不能用 Python 读取 .conll 文件(混淆解析错误)?

转载 作者:行者123 更新时间:2023-12-04 08:40:31 30 4
gpt4 key购买 nike

from pyconll import load_from_file

data = load_from_file("filename.conll")
data
我正在关注 the documentation of pyconll阅读 .conll文件,但出现以下错误,我不明白这是什么意思。该数据集应该是可读的,因为它是一个基准数据集。我没有看到 pyconll.load_from_file() 的任何其他参数可以在文档中指定。有人可以帮我吗?
另外,有没有办法阅读 .conll文件由 nltk包裹?
ParseError                                Traceback (most recent call last)
<ipython-input-14-06859f7ce8b2> in <module>()
----> 1 data = load_from_file("filename.conll")
2 data

5 frames
/usr/local/lib/python3.6/dist-packages/pyconll/unit/token.py in __init__(self, source, empty)
661 error_msg = 'The number of columns per token line must be 10. Invalid token: {}'.format(
662 source)
--> 663 raise ParseError(error_msg)
664
665 # Assign all the field values from the line to internal equivalents.

ParseError: The number of columns per token line must be 10. Invalid token: @paulwalk O

最佳答案

问题在于“CoNLL”格式在列的数量、顺序和内容上有所不同。根据错误,您的解析器似乎期望 CoNLL-U(https://universaldependencies.org/format.html)或 CoNLL-X(原始网站关闭)。无论您输入什么,错误都声称没有找到预期的列数 (10),请参阅 What is CoNLL data format? .
但是,如果您确实有 10 列,请尝试转义预期的标记,可能某些内部正则表达式替换失败。
至于用NLTK解析CoNLL的子问题,详见问题(!)Parsing CoNLL-U files with NLTK .解析一些 CoNLL 格式是可能的,但 NLTK 似乎不支持更新的 CoNLL 格式,特别是不支持 CoNLL-X 和 CoNLL-U。它可能适用于您的数据(因为这既不是 CoNLL-X 也不是 CoNLL-U)。

关于python - 为什么我不能用 Python 读取 .conll 文件(混淆解析错误)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64589517/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com