gpt4 book ai didi

读取带有BOM的UTF-8文本文件

转载 作者:行者123 更新时间:2023-12-02 02:01:33 26 4
gpt4 key购买 nike

我有一个开头带有字节顺序标记(U+FEFF)的文本文件。我正在尝试用 R 读取文件。是否可以避免字节顺序标记?

函数fread(来自data.table包)读取文件,但在第一个文件的开头添加ļ»æ变量名称:

> names(frame_pers)[1]
[1] "ļ»æreg_date"

read.csv函数相同。

目前我已经制作了一个从第一个列名称中删除 BOM 的函数,但我相信应该有一种方法可以自动删除 BOM。

remove.BOM <- function(x) setnames(x, 1, substring(names(x)[1], 4))

> names(frame_pers)[1]
[1] "ļ»æreg_date"
> remove.BOM(frame_pers)
> names(frame_pers)[1]
[1] "reg_date"

我正在使用 R session 的 native 编码:

> options("encoding" = "")
> options("encoding")
$encoding
[1] ""

最佳答案

您是否尝试过read.csv(..., fileEncoding = "UTF-8-BOM")?file 说:

As from R 3.0.0 the encoding ‘"UTF-8-BOM"’ is accepted and will remove a Byte Order Mark if present (which it often is for files and webpages generated by Microsoft applications).

关于读取带有BOM的UTF-8文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21624796/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com