r - 如何在R中一次清理多个excel文件？-6ren

r - 如何在R中一次清理多个excel文件？

转载作者：行者123 更新时间：2023-12-04 21:51:38

35

4

我有一百多个excel文件需要清理，所有文件都在同一个数据结构中。下面列出的代码是我用来清理单个 excel 文件的代码。文件的名称都在结构中，例如“abcdefg.xlsx”

library('readxl')

df <- read_excel('abc.xlsx', sheet = 'EQuote')

# get the project name 
project_name <- df[1,2]
project_name <- gsub(".*:","",project_name)
project_name <- gsub(".* ","",project_name)

# select then needed columns 
df <- df[,c(3,4,5,8,16,17,18,19)]

# remane column
colnames(df)[colnames(df) == 'X__2'] <- 'Product_Models'
colnames(df)[colnames(df) == 'X__3'] <- 'Qty'
colnames(df)[colnames(df) == 'X__4'] <- 'List_Price'
colnames(df)[colnames(df) == 'X__7'] <- 'Net_Price'
colnames(df)[colnames(df) == 'X__15'] <- 'Product_Code'
colnames(df)[colnames(df) == 'X__16'] <- 'Product_Series'
colnames(df)[colnames(df) == 'X__17'] <- 'Product_Group'
colnames(df)[colnames(df) == 'X__18'] <- 'Cat'

# add new column named 'Project_Name', and set value to it 
df$project_name <- project_name

# extract rows between two specific characters
begin <- which(df$Product_Models == 'SKU')
end <- which(df$Product_Models == 'Sub Total:')

## set the loop
in_between <- function(df, start, end){
  return(df[start:end,])
}

dividers = which(df$Product_Models %in% 'SKU' == TRUE)
df <- lapply(1:(length(dividers)-1), function(x) in_between(df, start =         
dividers[x], end = dividers[x+1]))
df <-do.call(rbind, df)

# remove the rows 
df <- df[!(df$Product_Models %in% c("SKU","Sub Total:")), ]

# remove rows with NA
df <- df[complete.cases(df),]

# remove part of string after '.'
NeededString <- df$Product_Models
NeededString <- gsub("\\..*", "", NeededString)
df$Product_Models <- NeededString

然后我可以得到一个结构良好的数据框。 Well Structured Dataframe Example

你们能帮我写一个代码，它可以帮助我一次清理所有的excel文件。所以，我不需要运行这个代码一百次。然后，将所有文件聚合成一个大的 csv 文件。

最佳答案

您可以使用 lapply (基础 R)或 map (purrr 包)使用一组命令读取和处理所有文件。 lapply和 map遍历一个向量或列表(在这种情况下是一个列表或文件名向量)，将相同的代码应用于向量或列表的每个元素。

例如，在下面的代码中，它使用 map (实际上是 map_df，它返回单个数据帧，而不是单独数据帧的列表)，file_names是文件名的向量(或文件路径 + 名称，如果文件不在工作目录中)。 ...all processing steps...是您问题中要处理的所有代码df变成你想要的形式:

library(tidyverse) # Loads several tidyverse packages, including purrr and dplyr
library(readxl)

single_data_frame = map_df(file_names, function(file) {

  df = read_excel(file, sheet="EQUOTE")

  ... all processing steps ...

  df
}

现在您有了一个从所有 Excel 文件生成的大型数据框。您现在可以将其另存为 csv文件，例如 write_csv(single_data_frame, "One_large_data_frame.csv") .

您可能还可以做其他事情来简化代码。例如，重命名 df 的列，您可以使用 recode函数(来自 dplyr)。我们通过首先更改内置 mtcars 的名称来演示这一点。数据框与数据中的名称相似。然后我们使用 recode更改一些名称:

# Rename mtcars data frame
set.seed(2)  
names(mtcars) = paste0("X__", sample(1:11))

# Look at data frame
head(mtcars)

# Recode three of the column names
names(mtcars) = recode(names(mtcars),
                       X__1="New.1",
                       X__5="New.5",
                       X__9="New.9")

或者，如果名称的顺序始终相同，您可以这样做(使用您的数据结构):

names(df) = c('Product_Models','Qty','List_Price','Net_Price','Product_Code','Product_Series','Product_Group','Cat')

或者，如果您的 Excel 文件有列名，您可以使用 skip read_excel 的论点在读入数据之前跳到标题行。这样，您将直接从 Excel 文件中获得正确的列名。由于看起来您还需要从前几行中获取项目名称，因此您可以先通过单独调用 read_excel 来读取这些行。并使用 range论点，和/或 n_max参数以仅获取项目名称的相关行或单元格。

关于r - 如何在R中一次清理多个excel文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52751810/

35

4

0

文章推荐： excel - 使用 COUNTIF/VLOOKUP 进行库存管理

文章推荐： regex - 当逗号不在任何括号内时用逗号分解字符串

文章推荐： Excel VBA在没有循环的情况下交换vba范围的列

excel - Excel 中基于单元格引用引用另一个 Excel 文件的公式
我想制作一个引用另一个 excel 文件中的单元格的公式。我已经弄清楚了，如下所示: ='C:\Users\17\Desktop\[JAN-11 2011.xlsx]1'!$H$44 但由于此工作表中
excel - (Excel) 在 Excel 中报告街道号码
有谁知道是否可以在 Excel 中生成缺少地址门牌号的报告？例如，我们在 Apple St (no.5, 9, 11) 有三个地址记录，是否可以生成一个报告: 列出工作簿中每条街道的所有记录街道编号
excel - Excel 打开时隐藏功能区 - Excel 2016
这个问题已经有答案了: VBA auto hide ribbon in Excel 2013 (7 个回答) 已关闭 4 年前。我试图在打开工作文件时隐藏我的丝带。我已点击以下链接，但不断收到运行
excel - VBA excel - 从 excel 调用函数
我编写了一个 VBA 程序来删除元音。我无法从 excel 调用该函数。我收到 #NAME 错误。下面的代码 Function REMOVEVOWELS(Txt) As String 'Removes
excel - 微软 Excel : Formula in MS Excel
嗨，我正在尝试在 MS excel 中应用一个函数(正确函数) 但是当我编写这个函数并使用填充句柄将其复制到其他单元格时，我在所有复制的单元格中得到相同的输出。但是当我点击单元格时，引用是好的。但结
excel - 根据匹配的 excel 列比较两个 excel 列中的数据
假设我有一个格式如下的电子表格: Sheet 1 | Sheet 2 name email | name e
excel - 如何从使用 Excel VB 的文本框来自两个或多个用户窗体的文本框中输入数据将数据输入到 Excel？
我正在尝试简化财务报告中的数据输入，因此我尝试使用 Excel Visual Basic 制作表格。到目前为止我做了2个用户表单，以后我会做5个。我做了用户表单，以便数据输入运算符(operator
excel - 从 Excel 公式中提取参数或字符串 - Excel 2003
我需要对单元格公式而不是单元格内容执行 Mid 或 Find。如果我的单元格公式是: =[功能](Arg1, Arg2, Arg3) 我需要能够将 Arg2 提取到另一个单元格。如果不使用 VBA
excel - 另存为嵌入另一个 Excel 文件中的 Excel 文件
我想用 VBA 管理嵌入在另一个 Excel 文件中的 Excel 文件。我可以使用 .docx 文档找到很多结果，但我坚持使用 .xlsx 文档。我最后一次尝试是使用 OLE 对象，但停留在“Sa
excel - 在不使用 Excel 的情况下检查 Excel 文件是否以兼容模式保存
我最近一直在尝试使用 perl 和一些模块来读取 Excel 文件，尤其是单元格的格式。例如，我写了一段使用 ParseExcel 模块读取单元格背景颜色的 perl 代码。然而，在测试时我注意到对
excel - 具有多个表格的单个 Excel 工作表 Laravel/Excel
我目前正在使用 Maatwebsite 的 Excel 包，并且能够很好地生成一个包含我想要的列和值的表格，但我希望能够生成表格，其他表格位于单个 Excel 工作表的下方。可能吗？上面附上的屏幕截
excel - 根据另一个 excel 文件中的值删除 excel 文件中记录的最快方法
我需要以下方面的指导。我有一个包含 150000 条记录的文件 (excel)。收到另一个包含 5000-6000 条记录的 excel 文件，需要根据第二个文件中信息的某些条件删除该行。我使用字典
excel - 标准 Excel 公式的行为取决于我使用的 Excel 版本
我有我认为的标准公式，根据我使用的 Excel 版本、Excel 365 或 Excel 2019 的不同，它的行为会有所不同 =IF(F5=$M$1;IFERROR(IF(AND(IFERROR(F
excel - 打开文件时在 Excel 的新实例中打开特定的 Excel 文件
信息: 我有一个名为 Demo.xlsm 的 Excel 文件此文件包含一个名为 UserForm1 的用户表单，该用户表单会在打开文件时自动加载。打开文件时，名为 Demo.xlsm 的工作簿也
excel - 在另一个 Excel 工作表中查找一个 Excel 工作表中的值
我在A Excel工作表中有一个列，其值是1 1 1 2 2 2 3 3 3 4 4 4....，在B Excel工作表中有另一列，其值1 2 4 ....，什么我想要的是从 B 读取值并查看它们是否
excel - 使用 excel 或在 excel 中求平均值
所以，我有这个问题，我想通过使用 OR 函数检查调整列的条件来找到列的平均值，我尝试将 OR 放入 AverageIf 函数，失败，还尝试了“Average(IF( OR("再次不是正确的返回。认为这
excel - 使用其他 Excel 单元格的字符串值表示公式中的 Excel 单元格地址？
假设我想要这种类型的formula = SUM(startcell:endcell)的答案，但是startcell和endcell组件发生了变化。因此，我希望能够使用和中的任何值，而不是直接在公
excel - 根据单元格值将行从一张 Excel 工作表复制到另一张 Excel 工作表
我正在寻找一个简单的 Excel 宏，它可以根据单元格中的特定数字/值将行从一张工作表复制到 Excel 中的另一张工作表。我有两张纸。一个称为“master”，另一个表称为“top10”。这是数据
excel - 如何从一个 Excel 工作簿调用另一个 Excel 工作簿中特定于工作表的宏？
我正在尝试调用另一个工作簿中的 Excel 宏。它是一个特定于工作表的宏，但 Microsoft 文档和网上研究给出的语法仅提供了一种仅通过工作簿访问宏的方法。该语法是: Application.Ru
excel - 如何使用特定单词复制 Excel 中的行并将其粘贴到另一个 Excel 工作表？
我检查了很多不同的帖子，但似乎找不到我正在寻找的确切代码。另外，我以前从未使用过 VBA，因此我尝试从其他帖子中获取代码并输入我的信息以使其正常工作。还没有运气。在工作中，我们有一个 Excel 薪资

首页

博学

6Ren·AI

商城

r - 如何在R中一次清理多个excel文件？