R扫描两列并保持唯一-6ren

R扫描两列并保持唯一

转载作者：行者123 更新时间：2023-12-02 08:43:08

26

4

我有一个包含四列的制表符分隔数据文件，我想在 R 中读取其中的前两列，并且只将唯一的两列对保留为 data.frame。该文件可能有数百万行:

cluster-1    3    12412341324    13412341234
cluster-1    3    62626662346    54234524354
cluster-1    3    45454345354    45454544545
cluster-2    644  12332234341    37535473475
cluster-2    644  54654365466    56565634543
cluster-2    644  56356356536    35634563456
...
cluster-9999999    123    123412341241    143132423
...

我想使用 scan(或任何更好的选项)来读取文件并以 data.frame 结束，它具有:

cluster-1    3
cluster-2    644
cluster-3    343
...
cluster-9999999    123

在 R 中读取这个大文件的最省时的方法是什么？

最佳答案

已知且相对较少的列:如果您知道列数，例如 5 列，并且您想要前两列(或者只有几列)，则可以使用来自 read.table 的 colClasses:

# header here is set to false because I don't see one in your file
df <- read.table("~/file.txt", header = FALSE, 
              colClasses=c("character", "numeric", "NULL", "NULL", "NULL"))

在这里，我们将第 3 到第 5 列设置为 NULL，以便跳过它们。

Unknown columns/Lot of columns:如果您不知道列或列太多，另一种选择是使用 pipe 和 awk (或 pipe with cut )首先用你需要的列过滤文件，然后使用 read.table 加载它:

# header here is set to false because I don't see one in your file
df <- read.table(pipe("awk '{print $1\"\t\"$2}' ~/file.txt"), 
                       header = FALSE, sep = "\t")

删除重复行:使用 base 中的 duplicated 作为:

df <- df[!duplicated(df), ]

关于R扫描两列并保持唯一，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14809407/

26

4

0

文章推荐： r - 自定义格函数(组参数)中的范围

文章推荐：删除向量的每个元素中第 2 次出现 "-"之后的所有字符

文章推荐： solr - 是否可以将数据存储在 solr 中？

文章推荐： .net - .net 中长时间运行的数据库操作

Android，保持 View
我的应用程序包含两部分:网络部分和 GUI。它的工作方式有点像浏览器 - 用户从服务器请求一些信息，服务器发回一些代表某些 View 的数据，然后 GUI 显示它。现在我已经将网络部分实现为一项服务
go - 在golang中的表达式中检查括号是否平衡[保持]
给定表达式字符串exp，编写程序检查exp中“{”、“}”、“（”、“）”、“[”、“]的对和顺序是否正确。 package main import ( "fmt" stack "gi
python - 保持 Python 脚本运行的简单方法？
我想要一个简单的脚本在后台保持运行。目前看起来像这样: import keyboard while True: keyboard.wait('q') keyboard.send('ct
tomcat - 保持 Tomcat 更新的策略？
我维护着许多 RedHat Enterprise Linux(7 台和 8 台)服务器(>100 台)，其中包含不同的应用程序。为了保持理智，我当然会使用 Ansible 等工具，更重要的是，公共(p
Winforms:保持 Winforms 应用解锁的最佳方式？
我有一个 winforms 应用程序，它在网络服务请求期间被锁定我已经尝试使用 doEvents 来保持应用程序解锁，但它仍然不够响应，我怎样才能绕过这个锁定，让应用程序始终响应？最佳答案最好
vba - 保持/插入前导 0
我正在努力在我的项目中获得并保持领先的 0。以下是当前相关的代码: Dim jobNum As String jobNum = Left(r1.Cells(1, 1), 6) r2.Cells(1
c# - 保持 Canvas 元素相对于背景图像定位
我正在尝试在我的 Canvas 中定位元素相对于我的背景。窗口被重新调整大小，保持纵横比。背景随着窗口大小而拉伸(stretch)。问题是一旦重新调整窗口大小，元素位置就会不正确。如果窗口的大小
java - 保持 OneToMany 关系只保持集合中的第一个对象？
一直在玩弄 Hibernate 和 PostgreSQL，试图让它按预期工作。但是由于某种原因，当我尝试将具有@OneToMany 关系的对象与集合中的多个项目保持一致时，除了第一个项目之外，所有项
github - 保持 fork 最新
我想将某些东西提交到 github 存储库，但我(显然)没有任何权利这样做。我对那个 repo 做了一个分支，提交了我的更改并提交了一个 pull-request。现在，问题是过了一段时间其他人已经
julia - 保持/循环具有相同抽象父类型的对象集合的最佳实践 (Julia)
这是一个初学者问题，我仍在考虑“在 OOP 中”，所以如果我错过了手册中的答案或者答案很明显，我深表歉意。假设我们有一个抽象类型， abstract type My_Abstract_type en
javascript - 保持 jQuery 最新的实用方法？
我们正在开展的一些项目在 jQuery 1.4.2 或更早版本中有着深厚的根基，介于缺乏最新版本的性能优势(或语法糖)、使用现已弃用的方法的耻辱以及部署一个积极维护的库的 3 年以上旧版本，升级现在迫
iphone - 保持 FMDB 线程安全
我看到在FMDB 2.0中，作者为线程添加了FMDatabaseQueue。例子是: // First, make your queue. FMDatabaseQueue *queue = [FMDa
cocoa - 保持 NSScrollView 固定
我在 NSScrollView 中有一个 NSTableView。 NSTableView 的内容是通过绑定(bind)到 NSArrayController 来提供的，而 NSArrayContro
WPF 保持 TreeView 列表排序
我在 TreeView 上有一个节点，我手动填充该节点并希望保持排序。通过用户交互，TreeViewItem 上的标题可能会更改，它们应该移动到列表中的适当位置。我遍历一个 foreach，创建多个
macos - 保持 NSWindow 最前面
我从主 NSWindow 打开一个 NSWindow。 DropHereWindowController *dropHereWindowController = [[DropHereWindowCon
delphi - 按钮(保持 "up"或 "down")
我需要放置一个 form 3 按钮，当我单击该按钮时，将其显示为按下，其他按钮向上，当我单击另一个按钮时，它应该为“向下”，其他按钮应为“向上” 最佳答案所有按钮的属性“Groupindex”必须设
perl - 保持 perl 脚本运行
我有一个使用 AnyEvent::MQTT 订阅消息队列的 perl 脚本。目前我想要它做的就是在收到消息时打印出来。我对 perl 完全陌生，所以我正在使用它附带的演示代码，其中包括将 STDIN
.net - 保持 TreeView 的滚动位置
如何在 .NET 应用程序中保持 TreeView 控件的滚动位置？例如，我有一个树形 View 控件，并经历了一个向其添加各种节点的过程，并将它们固定在底部。在此过程中，我可以滚动浏览 TreeVi
vbscript - 保持 VBScript 的组织性
我维护了大量的 vbscripts，用于在我的网络上执行各种启动脚本，并且有一些我在几乎所有脚本中使用的函数。除了复制和粘贴之外，有没有人对我如何创建可重用 vbscript 代码库有建议。我并不反
azure - 保持 Azure 自托管代理运行和连接
我有一些关于 Azure 自托管的问题。假设用户 Alex 在物理机 M 上设置了 Windows 自托管代理。当 Alex 注销且计算机进入休眠状态时，代理将脱机。现在，当 Bob 登录同一台计算

首页

博学

6Ren·AI

商城

R扫描两列并保持唯一