gpt4 book ai didi

python - 如何从 spacy 中的转录中表示未知/空白词?

转载 作者:太空宇宙 更新时间:2023-11-04 04:06:19 25 4
gpt4 key购买 nike

我正在处理音频抄本中的文本,其中有一些未知词。每个未知词都有标记(例如“他不认识商店”)。我正在寻找表示“未知”词的最佳方式,以便将 spacy 的句子依赖解析搞得一团糟。

什么是最好的替代品来增加 spacy 的句子依赖解析器在最广泛的句子范围内工作最好的可能性?是空格/' ' 或 '___' 或 '...' 还是无关紧要?\发生的时间/地点没有结构。

谢谢!

最佳答案

如果单词是未知的,最好简单地删除它们并截断多余的空间。如果未知词/标记不包含在 spacy 词汇表中,它们无论如何都会搞乱依赖解析,用特殊字符替换它们也是如此。

He / to the store

输出:

He ROOT
/ punct
to prep
the det
store pobj

然而,

He to the store

输出:

He ROOT
to prep
the det
store pobj

如果你删除它们,那么基本上你会得到一个对转录的其余部分正确的依赖解析。

关于python - 如何从 spacy 中的转录中表示未知/空白词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57315220/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com