R:如何读取带有 data.table::fread 的 CSV 文件，其中逗号为小数，点为千位分隔符 ="."-6ren

R:如何读取带有 data.table::fread 的 CSV 文件，其中逗号为小数，点为千位分隔符 ="."

转载作者：行者123 更新时间：2023-12-04 10:45:09

26

4

我得到了几个 CSV 文件，其中包含本地德国风格的数字，即用逗号作为小数点分隔符，点作为千位分隔符，例如10.380,45。 CSV 文件中的值以“;”分隔。这些文件还包含来自字符、日期、日期和时间和逻辑类的列。

read.table 函数的问题是，您可以使用 dec=","指定小数分隔符，但不能指定千位分隔符。 (如果我错了，请纠正我)

我知道预处理是一种解决方法，但我想以一种方式编写我的代码，其他人可以在没有我的情况下使用它。

我找到了一种通过 read.csv2 以我想要的方式读取 CSV 文件的方法，通过设置我自己的类，如下面的示例所示。
基于 Most elegant way to load csv with point as thousands separator in R

# Create test example
df_test_write <- cbind.data.frame(c("a","b","c","d","e","f","g","h","i","j",rep("k",times=200)),
                            c("5.200,39","250,36","1.000.258,25","3,58","5,55","10.550,00","10.333,00","80,33","20.500.000,00","10,00",rep("3.133,33",times=200)),
                            c("25.03.2015","28.04.2015","03.05.2016","08.08.2016","08.08.2016","08.08.2016","08.08.2016","08.08.2016","08.08.2016","08.08.2016",rep("08.08.2016",times=200)),
                            stringsAsFactors=FALSE)
colnames(df_test_write) <- c("col_text","col_num","col_date")

# write test csv
write.csv2(df_test_write,file="Test.csv",quote=FALSE,row.names=FALSE)

#### read with read.csv2 ####

# First, define your own class

#define your own numeric class
setClass('myNum')
#define conversion
setAs("character","myNum", function(from) as.numeric(gsub(",","\\.",gsub("\\.","",from))))

# own date class
library(lubridate)
setClass('myDate')
setAs("character","myDate",function(from) dmy(from))

# Read the csv file, in colClasses the columns class can be defined
df_test_readcsv <- read.csv2(paste0(getwd(),"/Test.csv"),
                       stringsAsFactors = FALSE,
                       colClasses = c(
                         col_text = "character",
                         col_num = "myNum",
                         col_date = "myDate"
                       )
                )

我现在的问题是，不同的数据集最多有 200 列和 350000 行。使用上面的解决方案，我需要 40 到 60 秒来加载一个 CSV 文件，我想加快速度。

通过我的研究，我发现 fread()来自 data.table包，这真的很快。加载 CSV 文件大约需要 3 到 5 秒。

不幸的是，也无法指定千位分隔符。所以我尝试将我的解决方案与 colClasses 一起使用，但似乎存在问题，即您不能将单个类与 fread https://github.com/Rdatatable/data.table/issues/491 一起使用。

另请参阅我的以下测试代码:

##### read with fread ####
library(data.table)

# Test without colclasses
df_test_readfread1 <- fread(paste0(getwd(),"/Test.csv"),
                            stringsAsFactors = FALSE,
                            dec = ",",
                            sep=";",
                            verbose=TRUE)
str(df_test_readfread1)

# PROBLEM: In my real dataset it turns the number into an numeric column, 
# unforunately it sees the "." as decimal separator, so it turns e.g. 10.550, 
# into 10.5
# Here it keeps everything as character

# Test with colclasses
df_test_readfread2 <- fread(paste0(getwd(),"/Test.csv"),
                            stringsAsFactors = FALSE,
                            colClasses = c(
                              col_text = "character",
                              col_num = "myNum",
                              col_date = "myDate"
                            ),
                            sep=";",
                            verbose=TRUE)
str(df_test_readfread2)

# Keeps everything as character

所以我的问题是:有没有办法用 fread 读取带有 10.380,45 等数值的 CSV 文件？

(或者:读取具有此类数值的 CSV 的最快方法是什么？)

最佳答案

我自己从来没有用过包，但它来自 Hadley Wickham，应该是好东西

https://cran.r-project.org/web/packages/readr/readr.pdf

它应该处理语言环境:
locale(date_names = "en", date_format = "%AD", time_format = "%AT", decimal_mark = ".", grouping_mark = ",", tz = "UTC", encoding = "UTF-8", asciify = FALSE)decimal_mark和 grouping_mark是你要找的

编辑表格 PhiSeu:解决方案

感谢您的建议，这里有两个解决方案 read_csv2()来自 readr包裹。对于我的 350000 行 CSV 文件，大约需要 8 秒，这比 read.csv2 解决方案快得多。
(来自 hadley 和 RStudio 的另一个有用的包，谢谢)

library(readr)

# solution 1 with specified columns
df_test_readr <- read_csv2(paste0(getwd(),"/Test.csv"),
                           locale = locale("de"),
                           col_names = TRUE,
                           cols(
                             col_text = col_character(),
                             col_num = col_number(), # number is automatically regcognized through locale=("de")
                             col_date2 = col_date(format ="%d.%m.%Y") # Date specification
                           )
                           )

# solution 2 with overall definition of date format
df_test_readr <- read_csv2(paste0(getwd(),"/Test.csv"),
                           locale = locale("de",date_format = "%d.%m.%Y"), # specifies the date format for the whole file
                           col_names = TRUE
)

关于R:如何读取带有 data.table::fread 的 CSV 文件，其中逗号为小数，点为千位分隔符 ="."，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39000131/

26

4

0

文章推荐： R 的 toTitleCase() 对 word "all"不起作用

文章推荐： r - 如何在 R 中以 NEWICK 格式附加集群(树)节点的引导值

文章推荐： r - 是否可以列出可以为包设置的所有全局选项？

文章推荐： dijkstra - 关于 Dijkstra 的论文

javascript - 将 ,(逗号) 替换为 .(点) 并将 .(点) 替换为 ,(逗号)
我有一个字符串 "1,23,45,448.00"，我想用小数点替换所有逗号，用逗号替换所有小数点。我需要的输出是“1.23.45.448,00” 我尝试用 . 替换 , 如下: var mystri
逗号(,)运算符抑制C中括号的优先级
我刚刚开始阅读 C。情况: x = ( y = 3, ( z = ++y + 2 ) + 5 ) 它首先评估y = 3，然后评估( z =++y + 2) 我的问题: 它应该首先评估( z =++y
插入模式下缺少 VIM 逗号
我是 VIM 初学者，我有一个奇怪的问题。我开始在终端模拟器中使用 vim，但今天我转向了 gVim。然后我意识到我不能在插入模式下写逗号!我试过 :map , , :imap ,都说没有找到映射。然
javascript - 为什么我的正则表达式让我写 ","(逗号)？
我上面有一个 JavaScript 正则表达式函数代码: function AcceptDigits(objtextbox) { var exp = /[^\d{1,3}]/g; ob
java - 逗号、空格加上某个单词的正则表达式模式是什么？
我需要使用 Java 的 split() 方法分割字符串。如何编写某个单词的分隔符的正则表达式模式？例如“和”？我得到了分割空格和逗号的模式，即 [,\\s] 但我想添加单词 and ，以便它也成为
seo - 逗号 ","在SEO搜索引擎优化中的意义是什么？
我们通常使用逗号来强调句子中的某些内容。但是说到搜索引擎优化，我只是想知道这是否有用，尤其是当标题标签或页面标题中所需的字符数有限(65到70个)以便爬虫读取时。我们是否需要使用逗号？最佳答案页面
mysql - ,(逗号)和分组依据之间有什么区别？
我想找出每个学科学期的学生上课人数。以下是给出正确答案的查询 select semester,subject,count(stdId) from tblSubjectMaster group by s
三元语句中的 C 逗号
int m = 5, d = 12, y = 1975, val; // May 12, 1975 谁能解释一下下面代码行中逗号运算符的功能/用途: val = (d+=m<3?y--:y-2
windows - 查找哪个应用程序使用 Ctrl+逗号
我不能在 Visual Studio 2013 中使用 Ctrl+, 和在 Windows 8.1 中使用 Pycharm。有没有办法找到哪个应用程序占用了这个快捷方式/热键？我试过 Windows
powershell - 大括号、逗号、参数方法调用
我发现很难用谷歌搜索 powershell 中这两种执行方法调用的区别的答案。 : $member = "1.2.3.4:567" # IPaddress + port for demonstrati
emacs 前进 n 逗号
谁能建议我如何在 emacs 中通过 n 逗号前进(或后退)？我正在尝试浏览 CSV 文件我知道我可以做类似的事情: C-u 100 M-f 但是能够在逗号上做更多的正则表达式会更准确最佳答案
java - 正则表达式从java中的字符串中删除空格，逗号，空格？
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
jquery 逗号 css 更改
这是一个棘手的问题，我会尽力描述它。我有一个文本输入，用户可以在标签中输入。用户在输入中键入标签(例如“starcraft”)并按下逗号键后，我希望逗号之前的所有字符(即单词“starcraft”
python - 逗号 csv 文件后的最后一个值
我如何打印 csv 文件中逗号后的最后一个值，我想循环遍历该文件并打印出最后一个值: 数据: 20181016135716, 00-00-00-00-00-04, 10.0.0.1, 10.0.0.8
c# - 更改时间跨度毫秒分隔符；逗号 (,) 而不是点 (.)
这个问题在这里已经有了答案: How to format the HH:mm:ss separators of a TimeSpan in a culture-aware manner? (3 个答
c# - 我想去掉除数字、$、逗号 (,) 以外的所有内容
我想去掉除数字、$、逗号 (,) 之外的所有内容。这只是 strip 字母 string Cadena; Cadena = tbpatronpos6.Text;
android - 只有数字，逗号，点的EditText
我已经在我的 xml 文件中创建了一个编辑文本。这是我的代码: 问题是在我的输出项目中它只能工作其中一个。只有点或只有逗号。怎么了？在模拟器中工作正常，只有在我的版本中没有。最佳答案我用不同
javascript - 从空格(逗号)分隔的字符串中提取单词
我正在尝试编写一个正则表达式来提取由空格分隔的单词(可选逗号 + 空格)，从单词中删除“堆栈”前缀(如果有的话)。我正在尝试找到一个纯正则表达式解决方案，而无需对结果进行任何后处理或类似(如果可能)。
java - MySQL语法错误，逗号？ - java
我正在尝试在数据库中插入一些数据，但遇到了一些麻烦。目前我无法将数据添加到我的表中，我不知道为什么。我正在使用一些您不需要理解的通用方法，这适用于我的所有项目，并且在任何项目中都没有任何错误。以下
json - 使用命令行工具删除尾随的 json 逗号
我想从 json 中删除尾随逗号， { "key1": "value1", "object": { "key2": "value2", // <- remove comma },

首页

博学

6Ren·AI

商城

R:如何读取带有 data.table::fread 的 CSV 文件，其中逗号为小数，点为千位分隔符 ="."