gpt4 book ai didi

在 R 中使用多个定界符从 .txt 文件中读取数据

转载 作者:行者123 更新时间:2023-12-02 09:28:38 26 4
gpt4 key购买 nike

谁能告诉我如何从具有多个分隔符的 .txt 文件中读取数据。考虑以下示例以供引用,

<迈克>////????[011]-[234564]///>>>>[ABC]

<哈德利戴维森>///??[080]-[42071186]..[DEC]

我的输出应该如下,

迈克 011234564 美国广播公司

哈德利戴维森 08042071186 DEC

感谢和问候,磨憨

最佳答案

我们可以使用 readLines 读取它,然后使用正则表达式删除不需要的字符

 gsub('(?<=[0-9])\\s+(?=[0-9])|^\\s+|\\s+$', '', 
gsub('[[:punct:]]+', ' ', lines), perl=TRUE)
#[1] "Mike 011234564 ABC" "Hardley davidson 08042071186 DEC"

或者如果模式相似,我们可以使用单个sub

sub(".*\\<([^> ]+)[^0-9]+([0-9]+)[^0-9]+([0-9]+)[^A-Z]+([A-Z]+).*", 
"\\1 \\2\\3 \\4", lines)
#[1] "Mike 011234564 ABC" "davidson 08042071186 DEC"

数据

lines <- readLines(textConnection("< Mike >////????[011]-[234564]///>>>[ABC]
< Hardley davidson >///??[080]-[42071186]..[DEC]"))

关于在 R 中使用多个定界符从 .txt 文件中读取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35488510/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com