r - 如何有效地将位于一张表中的多个 excel 表导入 R 列表？-6ren

r - 如何有效地将位于一张表中的多个 excel 表导入 R 列表？

转载作者：行者123 更新时间：2023-12-04 20:04:09

任务

我正在尝试将位于单个 Excel 工作表中的表格导入 R尽可能高效地对象(list 会很好，因为我可以从那里进行其余的计算)。

细微差别

这些表实际上是 excel ranges不是 excel tables ，但它们是结构化的并且看起来像表格:这是一个应该在 R 中作为表格导入的 excel 范围示例:

范围(以表格形式)的长度不同，可以位于同一工作表中的任何位置。

可重现的例子

Here您可以找到一个玩具示例(.xlsx 文件)来玩:

我试过的

这是我编写的将 excel 表导入 R 的代码.这是一种低效的方法，因为它需要在运行此代码之前将所有 excel 范围转换为表格以将它们导入 R 中的列表:

library(purrr)
library(XLConnect)

wb <- loadWorkbook("example.xlsx")

tables <- map(1:100,function(x) tryCatch(readTable(wb,
                                         sheet = "Sheet1",
                                         table = paste0("Table",x)),
                                         error = function(e) NA)
              )

问题

是否有更好(更有效)的方式将 Excel 工作表中的范围导入 R？结构采用 excel给定的文件并在 R 中运行所有计算/转换.欢迎任何包裹!

非常感谢您提前。

最佳答案

我不确定我是否使用最好的方式来做这件事，而是在我的一个项目中解决类似的问题。我写了一些实用函数来处理它。 You can see those functions here

拆分背后的逻辑是，只要存在仅包含 NA 的行或列，就会在行或列上创建拆分。并且这个过程会进行一定的时间。

无论如何，如果你加载我写的所有函数，你可以使用下面的代码:

读取数据

library(tidyverse)
table_raw<- readxl::read_excel("example.xlsx",col_names = FALSE,col_types = "text")

显示数据形状

# This is a custom function I wrote
display_table_shape(table_raw)

将数据拆分为单独的数据帧。

split_table <- table_raw %>%
    split_df(complexity = 2) # another custom function I wrote

原始数据框拆分后，可以使用for循环或map函数进行更多处理。

数据清洗

map(split_table, function(df){
    df <- df[-1,]
    set_1row_colname(df) %>% # another function I wrote
        mutate_all(as.numeric)
})

结果

[[1]]
# A tibble: 8 x 4
     aa    bb     cc     dd
  <dbl> <dbl>  <dbl>  <dbl>
1 0.197 0.321 0.265  0.0748
2 0.239 0.891 0.0308 0.453 
3 0.300 0.779 0.780  0.213 
4 0.132 0.138 0.612  0.0362
5 0.834 0.697 0.879  0.571 
6 0.956 0.807 0.741  0.936 
7 0.359 0.536 0.0902 0.764 
8 0.403 0.315 0.593  0.840 

[[2]]
# A tibble: 4 x 4
     aa    bb     cc      dd
  <dbl> <dbl>  <dbl>   <dbl>
1 0.136 0.347 0.603  0.542  
2 0.790 0.672 0.0808 0.795  
3 0.589 0.338 0.837  0.00968
4 0.513 0.766 0.553  0.189  

[[3]]
# A tibble: 8 x 4
      aa     bb    cc    dd
   <dbl>  <dbl> <dbl> <dbl>
1 0.995  0.105  0.106 0.530
2 0.372  0.306  0.190 0.609
3 0.508  0.987  0.585 0.233
4 0.0800 0.851  0.215 0.761
5 0.471  0.603  0.740 0.106
6 0.395  0.0808 0.571 0.266
7 0.908  0.739  0.245 0.141
8 0.534  0.313  0.663 0.824

[[4]]
# A tibble: 14 x 4
      aa     bb      cc     dd
   <dbl>  <dbl>   <dbl>  <dbl>
 1 0.225 0.993  0.0382  0.412 
 2 0.280 0.202  0.823   0.664 
 3 0.423 0.616  0.377   0.857 
 4 0.289 0.298  0.0418  0.410 
 5 0.919 0.932  0.882   0.668 
 6 0.568 0.561  0.600   0.832 
 7 0.341 0.210  0.351   0.0863
 8 0.757 0.962  0.484   0.677 
 9 0.275 0.0845 0.824   0.571 
10 0.187 0.512  0.884   0.612 
11 0.706 0.311  0.00610 0.463 
12 0.906 0.411  0.215   0.377 
13 0.629 0.317  0.0975  0.312 
14 0.144 0.644  0.906   0.353

您需要加载的功能

# utility function to get rle as a named vector
vec_rle <- function(v){
    temp <- rle(v)
    out <- temp$values
    names(out) <- temp$lengths
    return(out)
}

# utility function to map table with their columns/rows in a bigger table
make_df_index <- function(v){
    table_rle <- vec_rle(v)
    divide_points <- c(0,cumsum(names(table_rle)))
    table_index <- map2((divide_points + 1)[1:length(divide_points)-1],
                        divide_points[2:length(divide_points)],
                        ~.x:.y)
    return(table_index[table_rle])
}

# split a large table in one direction if there are blank columns or rows
split_direction <- function(df,direction = "col"){
    if(direction == "col"){
        col_has_data <- unname(map_lgl(df,~!all(is.na(.x))))
        df_mapping <- make_df_index(col_has_data)
        out <- map(df_mapping,~df[,.x])
    } else if(direction == "row"){
        row_has_data <- df %>% 
            mutate_all(~!is.na(.x)) %>%
            as.matrix() %>% 
            apply(1,any)
        df_mapping <- make_df_index(row_has_data)
        out <- map(df_mapping,~df[.x,])
    }
    return(out)
}

# split a large table into smaller tables if there are blank columns or rows
# if you still see entire rows or columns missing. Please increase complexity
split_df <- function(df,showWarnig = TRUE,complexity = 1){
    if(showWarnig){
        warning("Please don't use first row as column names.")
    }

    out <- split_direction(df,"col")

    for(i in 1 :complexity){
        out <- out %>%
            map(~split_direction(.x,"row")) %>%
            flatten() %>%
            map(~split_direction(.x,"col")) %>%
            flatten()
    }
    return(out)

}

#display the rough shape of table in a sheet with multiple tables
display_table_shape <- function(df){
    colnames(df) <- 1:ncol(df)

    out <- df %>%
        map_df(~as.numeric(!is.na(.x))) %>%
        gather(key = "x",value = "value") %>%
        mutate(x = as.numeric(x)) %>%
        group_by(x) %>%
        mutate(y = -row_number()) %>%
        ungroup() %>%
        filter(value == 1) %>%
        ggplot(aes(x = x, y = y,fill = value)) +
        geom_tile(fill = "skyblue3") +
        scale_x_continuous(position = "top") +
        theme_void() +
        theme(legend.position="none",
              panel.border = element_rect(colour = "black", fill=NA, size=2))
    return(out)
}

# set first row as column names for a data frame and remove the original first row
set_1row_colname <- function(df){
    colnames(df) <- as.character(df[1,])
    out <- df[-1,]
    return(out)
}

关于r - 如何有效地将位于一张表中的多个 excel 表导入 R 列表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58251748/

文章推荐： excel - 更改工作簿名称的一部分并将文件另存为新名称

文章推荐： WCF 路由备份列表 - 使用时记录

文章推荐： css - ng-repeat 中 li 项的缩进

excel - Excel 中基于单元格引用引用另一个 Excel 文件的公式
我想制作一个引用另一个 excel 文件中的单元格的公式。我已经弄清楚了，如下所示: ='C:\Users\17\Desktop\[JAN-11 2011.xlsx]1'!$H$44 但由于此工作表中
excel - (Excel) 在 Excel 中报告街道号码
有谁知道是否可以在 Excel 中生成缺少地址门牌号的报告？例如，我们在 Apple St (no.5, 9, 11) 有三个地址记录，是否可以生成一个报告: 列出工作簿中每条街道的所有记录街道编号
excel - Excel 打开时隐藏功能区 - Excel 2016
这个问题已经有答案了: VBA auto hide ribbon in Excel 2013 (7 个回答) 已关闭 4 年前。我试图在打开工作文件时隐藏我的丝带。我已点击以下链接，但不断收到运行
excel - VBA excel - 从 excel 调用函数
我编写了一个 VBA 程序来删除元音。我无法从 excel 调用该函数。我收到 #NAME 错误。下面的代码 Function REMOVEVOWELS(Txt) As String 'Removes
excel - 微软 Excel : Formula in MS Excel
嗨，我正在尝试在 MS excel 中应用一个函数(正确函数) 但是当我编写这个函数并使用填充句柄将其复制到其他单元格时，我在所有复制的单元格中得到相同的输出。但是当我点击单元格时，引用是好的。但结
excel - 根据匹配的 excel 列比较两个 excel 列中的数据
假设我有一个格式如下的电子表格: Sheet 1 | Sheet 2 name email | name e
excel - 如何从使用 Excel VB 的文本框来自两个或多个用户窗体的文本框中输入数据将数据输入到 Excel？
我正在尝试简化财务报告中的数据输入，因此我尝试使用 Excel Visual Basic 制作表格。到目前为止我做了2个用户表单，以后我会做5个。我做了用户表单，以便数据输入运算符(operator
excel - 从 Excel 公式中提取参数或字符串 - Excel 2003
我需要对单元格公式而不是单元格内容执行 Mid 或 Find。如果我的单元格公式是: =[功能](Arg1, Arg2, Arg3) 我需要能够将 Arg2 提取到另一个单元格。如果不使用 VBA
excel - 另存为嵌入另一个 Excel 文件中的 Excel 文件
我想用 VBA 管理嵌入在另一个 Excel 文件中的 Excel 文件。我可以使用 .docx 文档找到很多结果，但我坚持使用 .xlsx 文档。我最后一次尝试是使用 OLE 对象，但停留在“Sa
excel - 在不使用 Excel 的情况下检查 Excel 文件是否以兼容模式保存
我最近一直在尝试使用 perl 和一些模块来读取 Excel 文件，尤其是单元格的格式。例如，我写了一段使用 ParseExcel 模块读取单元格背景颜色的 perl 代码。然而，在测试时我注意到对
excel - 具有多个表格的单个 Excel 工作表 Laravel/Excel
我目前正在使用 Maatwebsite 的 Excel 包，并且能够很好地生成一个包含我想要的列和值的表格，但我希望能够生成表格，其他表格位于单个 Excel 工作表的下方。可能吗？上面附上的屏幕截
excel - 根据另一个 excel 文件中的值删除 excel 文件中记录的最快方法
我需要以下方面的指导。我有一个包含 150000 条记录的文件 (excel)。收到另一个包含 5000-6000 条记录的 excel 文件，需要根据第二个文件中信息的某些条件删除该行。我使用字典
excel - 标准 Excel 公式的行为取决于我使用的 Excel 版本
我有我认为的标准公式，根据我使用的 Excel 版本、Excel 365 或 Excel 2019 的不同，它的行为会有所不同 =IF(F5=$M$1;IFERROR(IF(AND(IFERROR(F
excel - 打开文件时在 Excel 的新实例中打开特定的 Excel 文件
信息: 我有一个名为 Demo.xlsm 的 Excel 文件此文件包含一个名为 UserForm1 的用户表单，该用户表单会在打开文件时自动加载。打开文件时，名为 Demo.xlsm 的工作簿也
excel - 在另一个 Excel 工作表中查找一个 Excel 工作表中的值
我在A Excel工作表中有一个列，其值是1 1 1 2 2 2 3 3 3 4 4 4....，在B Excel工作表中有另一列，其值1 2 4 ....，什么我想要的是从 B 读取值并查看它们是否
excel - 使用 excel 或在 excel 中求平均值
所以，我有这个问题，我想通过使用 OR 函数检查调整列的条件来找到列的平均值，我尝试将 OR 放入 AverageIf 函数，失败，还尝试了“Average(IF( OR("再次不是正确的返回。认为这
excel - 使用其他 Excel 单元格的字符串值表示公式中的 Excel 单元格地址？
假设我想要这种类型的formula = SUM(startcell:endcell)的答案，但是startcell和endcell组件发生了变化。因此，我希望能够使用和中的任何值，而不是直接在公
excel - 根据单元格值将行从一张 Excel 工作表复制到另一张 Excel 工作表
我正在寻找一个简单的 Excel 宏，它可以根据单元格中的特定数字/值将行从一张工作表复制到 Excel 中的另一张工作表。我有两张纸。一个称为“master”，另一个表称为“top10”。这是数据
excel - 如何从一个 Excel 工作簿调用另一个 Excel 工作簿中特定于工作表的宏？
我正在尝试调用另一个工作簿中的 Excel 宏。它是一个特定于工作表的宏，但 Microsoft 文档和网上研究给出的语法仅提供了一种仅通过工作簿访问宏的方法。该语法是: Application.Ru
excel - 如何使用特定单词复制 Excel 中的行并将其粘贴到另一个 Excel 工作表？
我检查了很多不同的帖子，但似乎找不到我正在寻找的确切代码。另外，我以前从未使用过 VBA，因此我尝试从其他帖子中获取代码并输入我的信息以使其正常工作。还没有运气。在工作中，我们有一个 Excel 薪资

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 如何有效地将位于一张表中的多个 excel 表导入 R 列表？