gpt4 book ai didi

unicode - 我如何摆脱这个 unicode 字符?

转载 作者:行者123 更新时间:2023-12-02 00:44:52 25 4
gpt4 key购买 nike

知道如何从一堆文本文件中删除这个恼人的字符 U+0092 吗?我已经尝试了以下所有方法,但它不起作用。从字符映射表中,它被称为 U+0092+control

sed -i 's/\xc2\x92//' *
sed -i 's/\u0092//' *
sed -i 's///' *

啊,我找到了办法:

CHARS=$(python2 -c 'print u"\u0092".encode("utf8")')
sed 's/['"$CHARS"']//g'

但是有直接的 sed 方法吗?

最佳答案

尝试sed“s/\`//g”*。 (我添加了g,因此它将删除它找到的所有反引号)。

<小时/>

编辑:这不是OP想要删除的反引号。

按照 this question 中的解决方案,这应该有效:

sed 's/\xc2\x92//g'

为了证明它确实如此:

$ CHARS=$(python -c 'print u"asdf\u0092asdf".encode("utf8")')

$ echo $CHARS
asdf<funny glyph symbol>asdf

$ echo $CHARS | sed 's/\xc2\x92//g'
asdfasdf

既然您已经尝试过,也许您的文本文件中的内容不是U+0092?

关于unicode - 我如何摆脱这个 unicode 字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8571648/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com