gpt4 book ai didi

python - Python 中的希伯来语文本

转载 作者:太空宇宙 更新时间:2023-11-03 18:09:39 25 4
gpt4 key购买 nike

我有一个希伯来语文本文件,我想用 Python 2.7 对其进行标记。但编码和解码时总会出现问题。实际上,我需要对其进行标记以构造 BagOfWords() 特征(例如,获取所有文本中出现超过 100 个的所有单词)。

因此结果是最常用的希伯来语单词列表。

我尝试解码文本:

text = text.decode("cp862")

但是输出看起来像:

\u2229\u2557\u2510.......

我希望此文件为希伯来语单词列表,而不是 ascii 或 utf-8 字符。

感谢您的帮助。

谢谢

最佳答案

如果您的源文本确实包含希伯来语文本,则将基于代码页的字符表示形式转换为通用 UNICODE 将允许您构建语言语料库分析、<<< em>单词>>内容与内容本身无关,而是取决于UI环境。

作为此处的示例,可以编写和显示希伯来语文本,因为小部件可以正确处理适当的上下文(字符的视觉表示、出现顺序、流动方向):

aSequenceOfCHARs( ALEF, BET, MEM, NUN, AYIN, FINAL PE ) is displayed as:

应用程序

因此,您的主要关注点 - python 中的语言语料库分析 - 可以独立于它们在表示层上的输出而使用 unicode 文本元素。

关于python - Python 中的希伯来语文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26228748/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com