r - 通过标识符和 R 中的打开/处理子集组织 csv-6ren

r - 通过标识符和 R 中的打开/处理子集组织 csv

转载作者：行者123 更新时间：2023-12-04 10:14:43

25

4

我有以下 CSV 文件:

files = c("C:\\Users\\sh\\/2018/April 17 2018/user_22226.csv", 
"C:\\Users\\sh\\/2018/April 17 2018/user_22227.csv", 
"C:\\Users\\sh\\/2018/April 17 2018/user_22228.csv", 
"C:\\Users\\sh\\/2018/April 17 2018/user_22232.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_21785.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_21815.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_21821.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_21822.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_22226.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_22227.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_22228.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_22230.csv", 
"C:\\Users\\sh\\/2018/April 2 2018/user_22232.csv", 
"C:\\Users\\sh\\/2018/April 23 2018/user_22921.csv", 
"C:\\Users\\sh\\/2018/April 9 2018/user_22226.csv", 
"C:\\Users\\sh\\/2018/April 9 2018/user_22227.csv", 
"C:\\Users\\sh\\/2018/April 9 2018/user_22228.csv", 
"C:\\Users\\sh\\/2018/April 9 2018/user_22230.csv", 
"C:\\Users\\sh\\/2018/April 9 2018/user_22232.csv", 
"C:\\Users\\sh\\/2018/August 13 2018/user_29607.csv")

我可以通过结束标识符组织它们:

files_sorted = files[order(gsub('.*_(\\d{5})[.].*','\\1',files))]

给我:

 [1] "C:\\Users\\sh\\/2018/April 2 2018/user_21785.csv"  
 [2] "C:\\Users\\sh\\/2018/April 2 2018/user_21815.csv"  
 [3] "C:\\Users\\sh\\/2018/April 2 2018/user_21821.csv"  
 [4] "C:\\Users\\sh\\/2018/April 2 2018/user_21822.csv"  
 [5] "C:\\Users\\sh\\/2018/April 17 2018/user_22226.csv" 
 [6] "C:\\Users\\sh\\/2018/April 2 2018/user_22226.csv"  
 [7] "C:\\Users\\sh\\/2018/April 9 2018/user_22226.csv"  
 [8] "C:\\Users\\sh\\/2018/April 17 2018/user_22227.csv" 
 [9] "C:\\Users\\sh\\/2018/April 2 2018/user_22227.csv"  
[10] "C:\\Users\\sh\\/2018/April 9 2018/user_22227.csv"  
[11] "C:\\Users\\sh\\/2018/April 17 2018/user_22228.csv" 
[12] "C:\\Users\\sh\\/2018/April 2 2018/user_22228.csv"  
[13] "C:\\Users\\sh\\/2018/April 9 2018/user_22228.csv"  
[14] "C:\\Users\\sh\\/2018/April 2 2018/user_22230.csv"  
[15] "C:\\Users\\sh\\/2018/April 9 2018/user_22230.csv"  
[16] "C:\\Users\\sh\\/2018/April 17 2018/user_22232.csv" 
[17] "C:\\Users\\sh\\/2018/April 2 2018/user_22232.csv"  
[18] "C:\\Users\\sh\\/2018/April 9 2018/user_22232.csv"  
[19] "C:\\Users\\sh\\/2018/April 23 2018/user_22921.csv" 
[20] "C:\\Users\\sh\\/2018/August 13 2018/user_29607.csv"

我的目标是现在处理具有相同标识 ID 的 CSV 文件，例如那些以“22226.csv”结尾的文件

我的理想输出是具有单个 DF/表或具有相同 ID 的 CSV 文件的列表。然后我将在我编写的用于预处理数据的函数中运行该单个 DF/list。

我曾尝试使用 group_by() 和 unique() 但返回了 NA。

最佳答案

我们可以使用 split创建一个 list的文件。分组基于通过删除字符直到 _ 派生的子字符串。

lst1 <- split(files, sub('.*_', '', files))

使用 [[ 提取元素

lst1[["22232.csv"]]
#[1] "C:\\Users\\sh\\/2018/April 17 2018/user_22232.csv"
#[2] "C:\\Users\\sh\\/2018/April 2 2018/user_22232.csv" 
#[3] "C:\\Users\\sh\\/2018/April 9 2018/user_22232.csv"

关于r - 通过标识符和 R 中的打开/处理子集组织 csv，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61128210/

25

4

0

文章推荐： Django Rest API Url 模式来处理 . (点)符号

文章推荐： reactjs - 重定向发生在 onClick() 之前的 REACT { Link }

Django项目层次结构/组织
我是 Django 新手并开始了一个项目，我想以正确的方式去做。我想知道您认为组织项目的最佳实践是什么。以下是我的一些问题: 如何将静态资源与 Python 代码分开，以免浪费时间通过 Djang
Javascript原型(prototype)组织
通过这个组织，是否可以引用“id”属性？ function house(id) { this.id = id } house.prototype.buy = function() { }
Java Swing 组织
我的任务是“识别并修复任何错误”。这张取自 Java 教科书的图片显示了 Swing 结构的组织。这对我来说很好，我没有发现任何问题。谁能解释一下？ JPanel 应该放在 JComponent 之
mysql - 组织 `where` 使其更快
重要的事情是否可以确定 WHERE 条件的最佳顺序以使其更快？例如，我有一个包含 6 个条件的查询。一些简单，另一些带有子查询或函数。我的想法是对查询进行概要分析，以确定条件语句 true 的常见程
文件系统上的 C++ 组织
我有 Java/AS3/Javascript 背景，我的所有类都组织成包，以帮助表示它们的功能。在开始一个 C++ 项目时，我试图以几乎相同的方式模仿这个文件系统结构，但我一直遇到包含问题。目前我
python - 如何更改主页上的特色组/组织？
我正在使用 CKAN 作为开放数据门户。我已经完成了 CKAN 实例的设置并添加了数据集、组和组织。主页上有一个特色组和一个特色组织框。如何在主页上显示我想要的组和组织。如何在主页上更改这些特色组
Objective-c类设计/组织
我已经创建了我的第一个 iPhone 应用程序，它可以在表格 View 中显示类似类型的音轨。用户可以使用类似 ipod 的控件来播放音轨，这些控件可以流式传输 mp3。我的所有代码都在两个主要类中
JavaScript 组织 |带模块的模块模式
我将我的代码组织成 20-60 行模块，通常采用模块模式。我想要一个结构良好的面向对象的 JavaScript 库。这是最好的方法吗？代码已经过测试并且有效。我喜欢它，因为程序员可以从库中提取模块
javascript - 提高事件密集型防暴应用程序的代码质量/组织
我正在使用 riot.js 和 jquery 构建一个应用程序。一切都按预期工作，但是随着代码的增长，我也担心在代码中随机/意外的地方触发和处理事件 (.trigger/.on) 对保持我的代码有条理
多项目团队的 Git 组织
这是另一个 GIT 新手。我想在我们的项目中使用 GIT。团队不熟悉 GIT。这些项目基本上由一些通用项目(*)和一些应用项目组成。应用程序正在使用公地，公地也可以使用其他公地。通过“使用”我的
github 组织、存储库和用户访问
例如，考虑一个组织有一个包含两个分支的存储库的情况，master 和 1.0.0.1。是否可以让团队对 master 具有只读访问权限，而对分支 (1.0.0.1) 具有读写访问权限？最佳答案自
CSS 组织/结构
我一直致力于寻找组织 CSS 代码的最佳方式，尤其是在大型网站上。我对编写风格不太感兴趣，而对人们如何构建和管理他们的代码更感兴趣。我一直在遵循这个结构，我觉得它在可维护性方面工作得很好，但我想听取
postman - 组织 postman 托收的技巧？
我们正在扩展到一个大型微服务构建，并通过 postman 完成更多测试(现场验证、错误测试等)。好奇...您的团队如何组织大量 API 的集合？ (按 API、按测试类型、按发布等)从一个团队传递到另
java - 组织 K 内所有元素所需的最小交换
我最近遇到了这个编码面试问题，但似乎找不到答案。这是问题。给定一个整数数组，编写一个函数，返回组织数组所需的最小交换，使得相邻元素的绝对差都小于或等于 K。交换可以是任意两个数组元素，不一定是相邻的
javascript - Angularjs 组织/结构化状态
我有 100 多页。所有页面都使用不同的模板。目前，我有一长串 .state('page.html').state('page2.html') 等。10-15 页后，我认为这变得不可读/难以管理。
Grails:组织 i18n 包
我看下grails-app/i18n有一吨messages*.properties捆绑。我想将我的应用程序国际化，但每页有 1 个“捆绑集”。我所说的包集是指包含相同文本但用于不同语言的一组包/属性文
gpu - 组织 CUDA 内核
我正在编写一个非常非常长的 CUDA 内核，它对人类的可读性来说非常糟糕。有什么方法可以用内核外部的功能组织 CUDA 内核吗？示例: __global__ void CUDA_Kernel(int*
outlook - 在Outlook外部保存/组织/搜索Outlook电子邮件
我的公司要求我将Outlook用于我的电子邮件。 Outlook几乎不执行我想做的任何事情，这让我感到非常沮丧。 (我并不是要在这里发动一场火焰大战，它必须完全执行数千名CEO想要做的事情，但我不是C
javascript - 组织 javascript 应用程序的最佳方式
我一直在尝试一些不同的方法来组织我的 javascript 应用程序中的代码，我想知道哪种方法最合适。第一个例子: var Application = { init: function()
Angular 模型和接口(interface)组织
Angular 样式指南包含有关在应用程序中使用类和接口(interface)的最佳实践的信息。但它没有任何关于如何组织我的接口(interface)和模型类的信息。有一个问题:关于文件和类的组织有

首页

博学

6Ren·AI

商城

r - 通过标识符和 R 中的打开/处理子集组织 csv