gpt4 book ai didi

python-2.7 - 在 Python 中将 Unicode 文本转换为可读文本

转载 作者:行者123 更新时间:2023-12-03 00:04:50 24 4
gpt4 key购买 nike

我的 Unicode 文本如下

(S (NP (N \u0db6\u0dbd\u0dbd\u0dcf)) (VP (V \u0db6\u0dbb\u0dc0\u0dcf)))

如何通过将代码“\u0___”转换为相关的可读字符来将其更改为可读格式。我使用的是 python 版本 2.7

我通过跟踪 NLTK (3.0) 中的代码段获得了该输出,其中树是 nltk.tree.Tree

for tree in treelist1:
print unicode(str(tree))

我需要类似 print(TreePrettyPrinter(tree).text()) 的东西,它可以提供我想要的 unicode 兼容输出,但具有我不想要的树布局。 NLTK 中是否有一种方法也可以获取像输出这样的可读文本?

<小时/>

输出也有同样的问题

for rule in grammar1.productions():
print(rule.unicode_repr())

其中 Grammar1 是 nltk.grammar.CFG

输出如下。

VP -> V
VP -> NP V
N -> '\u0db6\u0dbd\u0dca\u0dbd\u0dcf'
N -> '\u0db8\u0dd2\u0db1\u0dd2\u0dc3\u0dcf'
N -> '\u0db8\u0dda\u0dc3\u0dba'

最终结果非常好。我只对输出的表示有疑问

最佳答案

解决方案在这个question中有。也适用于 Python 2.7

与 NLTK 无关。简单的解决方案就是使用'unicode_escape'解码输出文本

print(str(tree).decode('unicode_escape'))

print(rule.unicode_repr().decode('unicode_escape'))

对于将 nltk.tree.Tree 类型的树打印为括号文本的 NTLK 解决方案,请使用以下内容

print(tree.pformat())

关于python-2.7 - 在 Python 中将 Unicode 文本转换为可读文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32830867/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com