gpt4 book ai didi

python - 在 NLP 任务的文本预处理中处理\u200b(零宽度空格)字符

转载 作者:太空宇宙 更新时间:2023-11-03 12:10:35 25 4
gpt4 key购买 nike

我正在为我正在训练的 NER 模型预处理一些文本,我经常遇到这个角色。此字符未使用 strip() 删除:

>>> 'Hello world!\u200b'.strip()
'Hello world!\u200b'

它不被认为是正则表达式的空格:

>>> re.sub('\s+', ' ', "hello\u200bworld!")
'hello\u200bworld!'

并且 spaCy 的标记器不会在其上拆分标记:

>>> [t.text for t in nlp("hello\u200bworld!")]
['hello\u200bworld', '!']

那么,我该如何处理呢?我可以简单地替换它,但是我不想为这个字符做一个特例,而是替换所有具有相似特征的字符。

谢谢。

最佳答案

正如您提到的,像 \u200b (零宽度空格)\u200c (零宽度非连接符)这样的字符) 不被视为空格字符。因此,您不能使用可用于空格字符的技术来省略此类字符。您可能已经注意到,唯一的方法是将此类字符视为特例。

关于python - 在 NLP 任务的文本预处理中处理\u200b(零宽度空格)字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47649396/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com