r - 希伯来语在 R 中编码 hell 并在 Windows 中编写 UTF-8 表-6ren

r - 希伯来语在 R 中编码 hell 并在 Windows 中编写 UTF-8 表

转载作者：行者123 更新时间：2023-12-04 10:49:16

24

4

我正在尝试保存使用 RSelenium 提取的数据来自 https://www.magna.isa.gov.il/Details.aspx?l=he ，但尽管 R 成功地将希伯来语字符打印到控制台，但在导出 TXT、CSV 或其他简单的 R 函数(如 data.frame())时却不会。 , readHTMLTable() ，等等。

这是一个例子。

> head(lines)
[1] "גלובל פיננס ג'י.אר. 2 בע\"מ נתונים כספיים באלפי דולר ארה\"ב"
[2] "513435404"                                                  
[3] ""                                                           
[4] ""                                                           
[5] ""                                                           
[6] "4,481"

使用 data.frame() 时，第一行更改为奇怪的字符(如下)

> head(as.data.frame(lines))
[1] <U+05D2><U+05DC><U+05D5><U+05D1><U+05DC> <U+05E4><U+05D9><U+05E0><U+05E0><U+05E1> <U+05D2>'<U+05D9>.<U+05D0><U+05E8>. 2 <U+05D1><U+05E2>"<U+05DE> <U+05E0><U+05EA><U+05D5><U+05E0><U+05D9><U+05DD> <U+05DB><U+05E1><U+05E4><U+05D9><U+05D9><U+05DD> <U+05D1><U+05D0><U+05DC><U+05E4><U+05D9> <U+05D3><U+05D5><U+05DC><U+05E8> <U+05D0><U+05E8><U+05D4>"<U+05D1>

通过 write.table 导出 .TXT 或 .CSV 时也会发生同样的情况或 write.csv :

write.csv(lines,"lines.csv",row.names=FALSE)

我尝试将编码更改为“UTF-8”，就像在几个类似问题中所建议的那样，但是，问题仍然存在不同的格式:

iconv(lines, to = "UTF-8")
1 ׳’׳׳•׳‘׳ ׳₪׳™׳ ׳ ׳¡ ׳’'׳™.׳׳¨. 2 ׳‘׳¢"׳ ׳ ׳×׳•׳ ׳™׳ ׳›׳¡׳₪׳™׳™׳ ׳‘׳׳׳₪׳™ ׳“׳•׳׳¨ ׳׳¨׳”"׳‘

希伯来语 ISO-8859-8 相同:

iconv(lines, to = "ISO-8859-8")
    1 ×'×o×.×'×o ×₪×T× × ×! ×''×T.××¨. 2 ×'×¢"×z × ×a×.× ×T× ×>×!×₪×T×T× ×'××o×₪×T ×"×.×o×¨ ××¨×""×'

我不明白为什么控制台能很好地打印希伯来语字符，而 write.table() , write.csv()和 data.frame()呈现编码问题。

谁能帮我导出？

That was answered by Ken, exporting text with writeLines() worked well:

f = file("lines.txt", open = "wt", encoding = "UTF-8")
writeLines(lines, "lines.txt", useBytes = TRUE)
close(f)

然而， 主要问题 R 具有希伯来语编码是而 处理表格 , 形式为 as.data.frame() , write.table( ) 和 write.csv() .有什么想法吗？

一些机器信息:

Sys.info()
                 sysname                      release                      version 
               "Windows"                      "7 x64" "build 7601, Service Pack 1" 
                nodename                      machine                        login 
              "TALIS-TP"                        "x86"

> Sys.getlocale()
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"

最佳答案

许多人在使用 8 位系统编码 (Windows) 的平台上处理 UTF-8 文本时遇到了类似的问题。在 R 中编码可能很棘手，因为不同的方法处理编码和转换的方式不同，而且在一个平台(OS X 或 Linux)上看起来运行良好的东西在另一个平台上运行不佳。

问题与您的输出连接以及 Windows 如何处理编码和文本连接有关。我尝试使用一些 UTF-8 和 8 位编码的希伯来语文本来复制这个问题。我们还将介绍文件读取问题，因为那里也可能存在一些障碍。

测试用

创建了一个简短的希伯来语文本文件，编码为 UTF-8:hebrew-utf8.txt

创建了一个简短的希伯来语文本文件，编码为 ISO-8859-8:hebrew-iso-8859-8.txt . (注意:您可能需要告诉浏览器有关编码才能正确查看此编码 - 例如，Safari 就是这种情况。)

读取文件的方法

现在让我们进行实验。我使用 Windows 7 进行这些测试(它实际上适用于 OS X，我常用的操作系统)。

lines <- readLines("http://kenbenoit.net/files/hebrew-utf8.txt")
lines
## [1] "×”×¢×‘×¨×™ ×”×•× ×—×‘×¨ ×‘×§×‘×•×¦×” ×”×›× ×¢× ×™×ª ×©×œ ×©×¤×•×ª ×©×ž×™×•×ª."                                                                     
## [2] "×–×• ×”×™×ª×” ×©×¤×ª× ×©×œ ×”×™×”×•×“×™× ×ž×•×§×“×, ××‘×œ ×ž×Ÿ 586 ×œ×¤× ×”\"×¡ ×–×” ×”×ª×—×™×œ ×œ×”×™×•×ª ×ž×•×—×œ×£ ×¢×œ ×™×“×™ ×‘××¨×ž×™×ª."

那失败了，因为它假定编码是您的系统编码，Windows-1252。但是因为在读取文件时没有发生转换，您可以通过将编码位设置为 UTF-8 来解决这个问题:

# this sets the bit for UTF-8
Encoding(lines) <- "UTF-8"
lines
## [1] "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."                                          
## [2] "זו היתה שפתם של היהודים מוקדם, אבל מן 586 לפנה\"ס זה התחיל להיות מוחלף על ידי בארמית."

但最好在阅读文件时执行此操作:

# this does it in one pass
lines2 <- readLines("http://kenbenoit.net/files/hebrew-utf8.txt", encoding = "UTF-8")
lines2[1]
## [1] "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."
Encoding(lines2)
## [1] "UTF-8" "UTF-8"

现在看看如果我们尝试读取相同的文本会发生什么，但编码为 8 位 ISO 希伯来语代码页。

lines3 <- readLines("http://kenbenoit.net/files/hebrew-iso-8859-8.txt")
lines3[1]
## [1] "äòáøé äåà çáø á÷áåöä äëðòðéú ùì ùôåú ùîéåú."

设置编码位在这里没有帮助，因为读取的内容没有映射到希伯来语的 Unicode 代码点，和 Encoding()没有实际的编码转换，它只是设置一个额外的位，可以用来告诉 R 几个可能的编码值之一。我们可以通过添加 encoding = "ISO-8859-8" 来解决这个问题。到 readLines()称呼。我们也可以在加载后转换文本，使用 iconv() :

# this will not fix things
Encoding(lines3) <- "UTF-8"
lines3[1]
## [1] "\xe4\xf2\xe1\xf8\xe9 \xe4\xe5\xe0 \xe7\xe1\xf8 \xe1\xf7\xe1\xe5\xf6\xe4 \xe4\xeb\xf0\xf2\xf0\xe9\xfa \xf9\xec \xf9\xf4\xe5\xfa \xf9\xee\xe9\xe5\xfa."
# but this will
iconv(lines3, "ISO-8859-8", "UTF-8")[1]
## [1] "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."

总的来说我认为上面使用的方法用于 lines2是最好的方法。

如何输出文件，保留编码

现在关于如何编写这个问题:最安全的方法是在低级别控制您的连接，您可以在其中指定编码。否则，默认是 R/Windows 选择您的系统编码，这将丢失 UTF-8。我认为这行得通，确实行得通 在 OS X 中绝对没问题 - 在 OS X 上也可以正常调用 writeLines()只是命名一个没有 textConnection 的文本文件。

## to write lines, use the encoding option of a connection object
f <- file("hebrew-output-UTF-8.txt", open = "wt", encoding = "UTF-8")
writeLines(lines2, f)
close(f)

但它在 Windows 上不起作用。您可以在此处查看 Windows 7 结果: hebrew-output-UTF-8-file_encoding.txt .

所以，这是如何做到的 在 Windows :一旦您确定您的文本编码为 UTF-8，只需将其写为原始字节，而不使用任何编码，如下所示:

writeLines(lines2, "hebrew-output-UTF-8-useBytesTRUE.txt", useBytes = TRUE)

您可以在 hebrew-output-UTF-8-useBytesTRUE.txt 查看结果，现在是 UTF-8 并且看起来正确。

Added for write.csv

请注意，您希望这样做的唯一原因是使 .csv 文件可用于导入其他软件，例如 Excel。 (祝您在 Excel/Windows 中使用 UTF-8 好运...)否则，您应该使用 write(myDataFrame, file = "myDataFrame.RData") 将 data.table 写为二进制文件。 .但如果你真的需要输出 .csv，那么:

如何从 data.table 写入 UTF-8 .csv 文件在 Windows 中

使用 write.table() 写入 UTF-8 文件的问题和 write.csv()是这些开放的文本连接，而 Windows 对 UTF-8 的编码和文本连接有限制。 ( This post 提供了有用的解释。)继发布 here 的 SO 回答之后，我们可以重写它来编写我们自己的函数来输出 UTF-8 .csv 文件。

这假设您已经设置了 Encoding()对于任何字符元素到 "UTF-8" (发生在上面为 lines2 导入时)。

df <- data.frame(int = 1:2, text = lines2, stringsAsFactors = FALSE)

write_utf8_csv <- function(df, file) {
    firstline <- paste('"', names(df), '"', sep = "", collapse = " , ")
    data <- apply(df, 1, function(x) {paste('"', x, '"', sep = "", collapse = " , ")})
    writeLines(c(firstline, data), file , useBytes = TRUE)
}

write_utf8_csv(df, "df_csv.txt")

当我们现在在非 Unicode 挑战的操作系统中查看该文件时，它现在看起来不错:

KBsMBP15-2:Desktop kbenoit$ cat df_csv.txt 
"int" , "text"
"1" , "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."
"2" , "זו היתה שפתם של היהודים מוקדם, אבל מן 586 לפנה"ס זה התחיל להיות מוחלף על ידי בארמית."
KBsMBP15-2:Desktop kbenoit$ file df_csv.txt 
df_csv.txt: UTF-8 Unicode text, with CRLF line terminators

关于r - 希伯来语在 R 中编码 hell 并在 Windows 中编写 UTF-8 表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36865202/

24

4

0

文章推荐： apache - 如何在 Xampp 上为 Laravel 启用虚拟主机？

文章推荐： function - 为什么 Erlang 元组模块有争议？

文章推荐： r - 选择的数据框未定义列出错

文章推荐： c - Julia 在 C 中检索全局变量

mysql - 同步/流式传输 MySQL 表/表(连接表)与 PostgreSQL 表/表
我有一台 MySQL 服务器和一台 PostgreSQL 服务器。需要从多个表中复制或重新插入一组数据 MySQL 流式传输/同步到 PostgreSQL 表。这种复制可以基于时间(Sync)或事
php - 从用户(表)获取数据其中用户(表)的id等于 friend (表)的id
如果两个表的 id 彼此相等，我尝试从一个表中获取数据。这是我使用的代码: SELECT id_to , email_to , name_to , status_to
sql - Excel 表 SQL 表
我有一个 Excel 工作表。顶行对应于列名称，而连续的行每行代表一个条目。如何将此 Excel 工作表转换为 SQL 表？我使用的是 SQL Server 2005。最佳答案这取决于您使用哪
mysql - 如何将两个django模型(表)合并为一个模型(表)
我想合并两个 Django 模型并创建一个模型。让我们假设我有第一个表表 A，其中包含一些列和数据。 Table A -------------- col1 col2 col3 col
mysql - 表 1、表 2 的多列左连接
我有两个表:table1，table2，如下所示 table1: id name 1 tamil 2 english 3 maths 4 science table2: p
sql - 大传感器数据最佳选择。表 SQL 与 Azure 表
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 1 年前。 Improve th
dynamics-ax-2009 - 表=表与表.数据(表)
下面两个语句有什么区别？ newTable = orginalTable 或 newTable.data(originalTable) 我怀疑 .data() 方法具有性能优势，因为它在标准 AX 中
SQL Server 表 -(或可能是任何 SQL 表)没有主键会影响性能吗？
我有一个表，我没有在其中显式定义主键，它并不是真正需要的功能......但是一位同事建议我添加一个列作为唯一主键以随着数据库的增长提高性能...... 谁能解释一下这是如何提高性能的？没有使用索引(
php - 将产品详细信息插入 'product' 表，并将产品图像插入 'image' 表
如何将表“产品”中的产品记录与其不同表“图像”中的图像相关联？我正在对产品 ID 使用自动增量。我觉得不可能进行关联，因为产品 ID 是自动递增的，因此在插入期间不可用! 如何插入新产品，获取产品
python - 创建一个新的 sql 表，其中的列源自另一个 sql 表
我有一个 sql 表，其中包含关键字和出现次数，如下所示(尽管出现次数并不重要): ____________ dog | 3 | ____________ rat | 7 | ____
MySQL LAST_INSERT_ID() 与 INSERT INTO 表 SELECT FROM 表
是否可以使用目标表中的LAST_INSERT_ID更新源表？ INSERT INTO `target` SELECT `a`, `b` FROM `source` 目标表有一个自动增量键id，我想将其
mysql - 查询 - 在简单的 mysql 内连接中定义(表，表)
我正在重建一个搜索查询，因为它在“我看到的”中变得多余，我想知道什么 (albums_artists, artists) ( ) does in join? is it for boosting pe
innodb - mysqldump 备份缺少所有 innodb 表，但没有 MyISAM 表
以下是我使用 mysqldump 备份数据库的开关: /usr/bin/mysqldump -u **** --password=**** --single-transaction --databas
html - 为什么 MySQL 表中的所有行都是相同的？ (MySQL 表 > HTML 表)
我试图获取 MySQL 表中的所有行并将它们放入 HTML 表中: Exam ID Status Assigned Examiner
mysql - 查询 'photos' 表，同时查询 'bookmarks' 表，以便知道添加书签的照片
如何查询名为 photos 的表中的所有记录，并知道当前用户使用单个查询将哪些结果照片添加为书签？这是我的表格: -- -- Table structure for table `photos` -
Mysql MEMORY 表 vs InnoDB 表(很多插入，很少读取)
我的网站都在 InnoDB 表上运行，目前为止运行良好。现在我想知道在我的网站上实时发生了什么，所以我将每个页面浏览量(页面、引荐来源网址、IP、主机名等)存储在 InnoDB 表中。每秒大约有 10
mysql - 如何在 mysql 中存储客户数据(2 表 vs 1 表)
我在想我会为 mysql 准备两个表。一个用于存储登录信息，另一个用于存储送货地址。这是传统方式还是所有内容都存储在一张表中？对于两个表...有没有办法自动将表 A 的列复制到表 B，以便我可以引用
mysql - 表 1 包含名字和姓氏，表 2 包含两列引用表 1 上的名称
我不是程序员，我从这个表格中阅读了很多关于如何解决我的问题的内容，但我的搜索效果不好我有两张 table 表 1:成员 id*| name | surname -------------------
c# - 如何在 ASP.NET 中显示 "View"表(SQL 表)？
我知道如何在 ASP.NET 中显示真实表，例如 public ActionResult Index() { var s = db.StaffInfoDBSet.ToList(); r
php - INSERT INTO 表 VALUES.. 与 INSERT INTO 表 SET 错误
我正在尝试运行以下查询: "insert into visits set source = 'http://google.com' and country = 'en' and ref = '1234

首页

博学

6Ren·AI

商城

r - 希伯来语在 R 中编码 hell 并在 Windows 中编写 UTF-8 表