gpt4 book ai didi

r - csv中的额外逗号导致问题

转载 作者:行者123 更新时间:2023-12-04 04:41:26 28 4
gpt4 key购买 nike

我有一个非常大的 csv 文件,其结构如下

123, NAME1, EMAIL1@ADDRESS.COM
111, NAME2, EMAIL2@ADRESS.ME

问题是有些名字有一个逗号,比如
699, FIRST M. LAST, Jr., EMAIL4@ADDRESS.GOV

有没有办法解决这个问题?原始 csv 大约有 80k 个条目,因此无法手动完成。

谢谢!

最佳答案

这是使用正则表达式的 R 解决方案:

file <- textConnection("123, NAME1, EMAIL1@ADDRESS.COM
111, NAME2, EMAIL2@ADRESS.ME
699, FIRST M. LAST, Jr., EMAIL4@ADDRESS.GOV")

lines <- readLines(file)
pattern <- "^(\\d+), (.*), \\b(.*)$"
matches <- regexec(pattern, lines)

bad.rows <- which(sapply(matches, length) == 1L)
if (length(bad.rows) > 0L) stop(paste("bad row: ", lines[bad.rows]))

data <- regmatches(lines, matches)
as.data.frame(matrix(unlist(data), ncol = 4L, byrow = TRUE)[, -1L])

# V1 V2 V3
# 1 123 NAME1 EMAIL1@ADDRESS.COM
# 2 111 NAME2 EMAIL2@ADRESS.ME
# 3 699 FIRST M. LAST, Jr. EMAIL4@ADDRESS.GOV

关于r - csv中的额外逗号导致问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18831042/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com