gpt4 book ai didi

python - 希伯来语中的 spacy 句子标记化错误

转载 作者:行者123 更新时间:2023-11-28 22:21:02 25 4
gpt4 key购买 nike

尝试对希伯来语使用 spacy 句子标记化。

import spacy
nlp = spacy.load('he')
doc = nlp(text)
sents = list(doc.sents)

我得到:

    Warning: no model found for 'he'

Only loading the 'he' tokenizer.

Traceback (most recent call last):
...
sents = list(doc.sents)
File "spacy/tokens/doc.pyx", line 438, in __get__ (spacy/tokens/doc.cpp:9707)
raise ValueError( ValueError: Sentence boundary detection requires the dependency parse, which requires data to be installed. For more info, see the documentation: https://spacy.io/docs/usage

怎么办?

最佳答案

spaCy 的 Hebrew coverage目前非常少。它目前只有希伯来语的 word 标记化,它在空白处粗略地分割,但有一些额外的规则和异常(exception)。您想要的句子标记化/边界检测需要对句子进行更复杂的语法分析,以确定一个句子的结束位置和另一个句子的开始位置。这些模型需要大量标记的训练数据,因此可用于比标记化更少的语言(here 的列表)。

最初的消息是告诉你它可以进行标记化,这不需要模型,然后你得到的错误是没有模型来分割句子、做 NER 或 POS 等的结果。

你可能会看看 this list希伯来语 NLP 的其他资源。如果您找到足够多的正确格式的标记数据并且您有雄心壮志,您可以使用描述的概述来训练您自己的希伯来语 spaCy 模型 here .

关于python - 希伯来语中的 spacy 句子标记化错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48572541/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com