Python - 处理 Unicode(俄语)Txt 文件-6ren

Python - 处理 Unicode(俄语)Txt 文件

转载作者：行者123 更新时间：2023-12-01 05:44:06

26

4

过去几个小时我一直对俄语制表符分隔的 txt 文件感到困惑。其外观如下:

CODE    AD_GROUP    KEYWORD MATCH_TYPE

009966  Автостраховка   автостраховка   Broad
009965  Автостраховка   страховкаавто   Broad
009964  Автостраховка   страховка автомобиля    Broad

目标是解析 txt 文件并暂时单独打印每个关键字。

到目前为止我已经:

f = open("struct.txt",encoding="UTF-8",errors='strict')

for line in f:
    vals = line.split("\t")
    print(vals[2])

f.close()

但我不断收到以下错误:

UnicodeDecodeError:“utf-8”编解码器无法解码位置 0 中的字节 0xff:起始字节无效

另外，如果我执行 len(vals) 来查看每个列表的长度，我会得到以下结果: 4 1 4 1 这可能意味着 split("\") 不起作用？

我使用的是Python3.3和Mac。

最后，我不认为 Mac 上的命令行不显示西里尔字符有问题 - 它之前已经做到了，没有出现任何问题(西方 Windows 版本似乎在这方面失败了)。

请让我知道我做错了什么。

谢谢!

最佳答案

使用此代码(Python2.7)

f = open("struct.txt")

for line in f:
    vals = [item for item in line.strip().split("\t") if item != '']
    if len(vals):
        print(vals[2])

f.close()

您的源代码(我对其进行了编辑以确保它有选项卡)我得到以下输出:

> python so_16703270.py
KEYWORD
автостраховка
страховкаавто
страховка автомобиля

您确定文件中整个文件都有制表符，而某些地方没有空格吗？

关于Python - 处理 Unicode(俄语)Txt 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16703270/

26

4

0

文章推荐： python - 根据Python中的值计算字典的相关性

文章推荐： Kohana ORM 关系问题

文章推荐：特定帖子/页面的 Wordpress 自定义字段/元框

文章推荐： unix - 我如何告诉 sed 重复替换直到没有匹配被替换？

俄语 HTML
我必须设计一个俄语版的网站。我从翻译那里得到文本。我把它复制到 Dreamweaver 的代码中，但它不起作用。我有平常的脑袋: 我该怎么办？最佳答案您应该将文件的编码更改为 UTF-8。您可
java - 拼写检查器，俄语
我正在使用 google-api-spelling-java jar 库。而且我需要使用更多的语言来使用，其中之一就是俄语。我在哪里可以获得相同的库但具有更多语言？最佳答案您可以在此处下载源代码并
php - 俄语、葡萄牙语等文本编码错误
我有一张表，用于存储一些文本标签。最初它是使用 latin_swedish_ci(默认)排序规则构建的。现在我需要支持其他语言，例如俄语。我有两个使用这些标签的页面。一个显示它们很好，尽管该表仍然使
Java 正则表达式不匹配(俄语)
尝试匹配字符串“Манихина Галина Владимировна”和其他相同格式的字符串。也就是三个字的专有名词。我是正则表达式的新手，不确定我的陈述有什么问题。 import java.ut
sql - 俄语、德语和阿拉伯语使用哪种排序规则
我应该使用哪种排序规则将阿拉伯语、俄语、英语和德语字符保存到数据库中？我的列设置是nvarchar(100) 我目前已将其设置为: SQL_Latin1_General_Cp1256_CI_AS 它
android - 俄语(西里尔文)关键事件未触发
我有一个覆盖了 onKeyDown() 的自定义 View 。当我使用标准的 Android 英语(或意大利语)软键盘时它工作正常，但是当我将设备设置为俄语时，按键事件永远不会到达 onKeyDown
translation - 俄语-英语 Multitran 词典
也许有人知道从中检索翻译的最佳方式是什么。是否有用于阅读 Multitran 词典数据库的图书馆？我的目标是一个简单的程序，它将检索给定的俄语单词的英文翻译。最佳答案也许你可以使用 StarDic
python - 使用西里尔字母(俄语)时如何解决 UnicodeEncodeError？
我尝试使用提要解析器阅读 RSS 提要。 import feedparser url = 'http://example.com/news.xml' d=feedparser.parse(url) f
php - "ru_RU"(俄语)setlocale 在日期和时间上不起作用
我正在尝试通过 setlocale 使用俄语: setlocale(LC_TIME,"ru_RUS.utf8"); echo strftime("%A, %B %d", time()); 输出是:8
PHP:西里尔(俄语)字符作为问号回显。为什么？
我在数据库中有一个具有俄罗斯值(value)观的项目。我需要做的就是附和他们，但事实证明这比预期的要困难。所有俄语字符都只是作为问号打印。 IE: ？？？？ ????????对于我尝试过的每种编码，
android - iText 库 - 不显示西里尔文(俄语)符号
我已经花了几天时间，我做错了什么？我就是不能把俄语字符弄出来。尝试了上面的所有代码 - 它没有帮助。下面我用不同的选项引用我的代码。请帮帮我。库连接如下 dependencies { imp
java - Android - 在设备上显示 UTF-8(俄语)
我正在我的 Android 设备(Motorola Defy，2.1)上调试应用程序，该应用程序从网络获取俄语 HTML 页面，但无法显示它。它显示为 link text 。HTML 页面采用 UTF
Python - 处理 Unicode(俄语)Txt 文件
过去几个小时我一直对俄语制表符分隔的 txt 文件感到困惑。其外观如下: CODE AD_GROUP KEYWORD MATCH_TYPE 009966 Автостраховка
java - 如何实现 JSP 以支持多语言(如葡萄牙语、俄语)
我需要在基于 Spring 的项目中为俄语和葡萄牙语等语言本地化一组 JSP 页面。我尝试的是，使用 EL 和 JSTL。但是它们都不支持上述语言。 (显示迷失方向的字符符号) JSP 片段(用于
java - iText - PdfPTable 不显示西里尔文(俄语)符号
我对我的英语感到抱歉。我正在尝试使用 PdfPTable(iText 库)创建表。表格显示空列![在此处输入图像描述][1] public class CreatePDF { File file; B
c++ - 俄语(或非拉丁语)文件名加载 Qt Windows
我正在尝试在包含非拉丁字符的 Qt/C++ 软件上加载文件。一个使用俄语文件名的用户报告的问题，我试图用下面的代码快速修复它。示例文件名是(我不会读或写俄语!):Летний сад.dgr boo
javascript - 使用西里尔文(俄语)集的 javascript 中的正则表达式
是否可以在 javascript 的正则表达式中使用俄语字符？也许使用\p{Cyrillic}？如果是，请提供一个基本的用法示例。例子: var str1 = "абв прв фву"; va
C# 将 dd/MMMM/yyyy 转换为 yyyymmdd(俄语)
2016 年 31 日 15:10 декабря不是英语。 декабря = 十二月 DateTime.Parse("31/December/2016").ToString("yyyymmdd")
vba - Excel VBA 公式德语/法语/意大利语/俄语/荷兰语/外国函数
当我将数据添加到工作簿时，需要将公式从较早的单元格复制到新单元格。我使用以下公式来计算我的增长率: =WENN(ODER(K9="";L9="");"";WENNFEHLER((L9-K9)/K9;
c - 在 C/C++ 中解析包含字母字符和区域字符(法语、俄语、中文)的字符串
如题，我不知道如何在C中解析包含字母字符和来自其他语言的特殊字符的字符串。谁能帮助我如何在C中区分它们？。我是否需要安装一些可选组件来帮助C接受字符？(我在linux环境中)。非常感谢您的回复。最佳

首页

博学

6Ren·AI

商城

Python - 处理 Unicode(俄语)Txt 文件