r - 用两个或多个 csv 文件之间的间隔对匹配值(完整行)进行子集化-6ren

r - 用两个或多个 csv 文件之间的间隔对匹配值(完整行)进行子集化

转载作者：行者123 更新时间：2023-12-02 04:20:03

26

4

我有两个矩阵(A 和 B)。我正在尝试使用间隔值对 B 中的匹配行进行子集化。例如，

矩阵A包含(我有200多个化合物)

Name   Mass.    RT.   Area.  ID

Asa.   234.032  1.56. 6755. Sd323

bda    164.041. 4.48. 5353. SD424

dsf.   353.953. 6.53. 2535. SD422

fed.   535.535. 5.14. 4542  SD424

矩阵 B 包含(类似原始矩阵或 CSV 包含 5000 个化合物)

Name. mass.      RT     Area. chemID pubID score

csa.  234.031    1.56.  4354.  frsg.  gss.  90

bda.  164.041.   4.78.  4346.  gsdg   gsf.  80

dwf.  432.035.   9.84.  4245.  grhr.  hfg.  99

fsf.  535.042.   7.01.  5353.  heth.  gww.  90

现在我想使用 Mass ± 0.001 和 RT ± 0.5 间隔对矩阵 B 中的匹配化合物进行子集化，最终矩阵看起来像

Name. mass.      RT     Area. chemID pubID score

csa.  234.031    1.56.  4354.  frsg.  gss.  90

bda.  164.041.   4.78.  4346.  gsdg   gsf.  80

我尝试在 R 中使用以下命令，但效果不佳。非常感谢任何帮助。

#Read in first table
fname = "A.csv"
df1 = read.csv(fname)
# Read in the second table
fname = "B.xlsx"
df2 = read_excel(fname, skip=4)
# Create an empy dataframe
new_df = setNames(data.frame(matrix(ncol = ncol(df2), nrow = 0)), colnames(df2))
# Set the threshold for the mass and the retention time
m_ths = 1.e-3  # Mass threshold
rt_ths = 0.5  # Retention time threshold
# Loop over the indices of one of the data frames
for (i in 1:nrow(df1)) {
    # Get the mass and retention time of the current row
    m = df1$Mass[i]
    rt = df1$RT[i]
    # Get boolean vectors of rows within the second table that are within the 
    # given tolerance of the current mass (m) and retention time (rt)
    m_cond = df2$Mass >= m-m_ths & df2$Mass <= m+m_ths
    rt_cond = df2$RT >= rt-rt_ths & df2$RT <= rt + rt_ths
    # Get the subset of rows in second table that meet the required conditions
    tmp_df = subset(df2, m_cond & rt_cond)
    if (nrow(tmp_df) > 0) {
        # If the new table is not empty add it to the empty new_df data frame
        tmp_df$mb_data_index = i
        new_df = rbind(new_df, tmp_df)
    }
}
write.csv(new_df, "commoncompounds.csv")

最佳答案

代码:

library('data.table')
# join two data tables and get only the matching rows by Name
df3 <- setDT(df2)[df1, on = 'Name', nomatch = 0]
# subset based on conditions of Mass and RT
df3 <- df3[ (round(abs(Mass - i.Mass), 3) <= 0.001) & 
            (round(abs(RT - i.RT), 1) <= 0.5), ]
# remove columns of df1
df3[, `:=` (i.Mass = NULL, i.RT = NULL, i.Area = NULL, ID = NULL)]
df3
#    Name    Mass   RT Area chemID pubID score
# 1:  Asa 234.031 1.56 4354   frsg   gss    90
# 2:  bda 164.041 4.78 4346   gsdg   gsf    80

数据:

df1 <- read.table(text = 
'Name   Mass    RT   Area  ID
Asa   234.032 1.56 6755 Sd323
bda   164.041 4.48 5353 SD424
dsf   353.953 6.53 2535 SD422
fed   535.535 5.14 4542 SD424', header = TRUE, stringsAsFactors = FALSE)

df2 <- read.table(text = 'Name Mass      RT     Area chemID pubID score
                  Asa  234.031    1.56  4354  frsg  gss  90
                  bda  164.041   4.78  4346  gsdg   gsf  80
                  dwf  432.035   9.84  4245  grhr  hfg  99
                  fsf  535.042  7.01  5353  heth  gww  90', header = TRUE, stringsAsFactors = FALSE)

关于r - 用两个或多个 csv 文件之间的间隔对匹配值(完整行)进行子集化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60936722/

26

4

0

文章推荐： hyper-v - 让 Hyper-V 和 Intel HAXM 共存

文章推荐： spring-boot - 带有 MANUAL_IMMEDIATE ack 的 Spring Boot Kafka

文章推荐： html - 响应式网格图像查看3张图像

文章推荐： c - 我将如何修改这个单链表排序算法，以便它正确地按升序排序？

日期中的 SQL 间隔
我试图根据表格看起来像这样的状态代码来查找表格中的空白。状态表: StateID (PK) | Code -------------------- 1 | AK 2
python - 如何按相反顺序找到两个字母之间的长度/间隔？
我有一个配对字符串列表。我想找到两个字母之间的长度/间隔。到目前为止，我可以使用找到有序字母的间隔 alpha =["AM", "KQ", "ZN", "XM", "UK"] leng
python - 如何按相反顺序找到两个字母之间的长度/间隔？
我有一个配对字符串列表。我想找到两个字母之间的长度/间隔。到目前为止，我可以使用找到有序字母的间隔 alpha =["AM", "KQ", "ZN", "XM", "UK"] leng
jquery TimePicker 间隔
我正在努力弄清楚如何将时间选择器的下拉间隔设置为 15 分钟间隔。默认为 30 分钟 atm。让它工作的正确调用/符号是什么？我已经尝试了很多将它们放入 '' 的变体，但没有任何进展。谢谢! $
MySQL加入 "connected"间隔
假设我有 table teach_subject(teacher_id, subject_id, min_grade_of_school, max_grade_of_school, color_in_
Javascript 一张一张显示图片，间隔
我有下面的图像，我试图以 3 秒的间隔一张一张地显示它们，但我无法让它工作。它继续停留在 0 并且不显示图像，帮助会很好: JavaScript: window.animate = functio
algorithm - 在最少数量的槽中安排作业/间隔
我认为这个问题类似于加权间隔调度问题，但略有不同。假设您有一个具有开始时间和结束时间的类次 s，该类次从 s.start 开始有 n 个空位到s.end。时隙是从 s.start 到 s.end 的
ios - 我怎样才能插入两个观点？间隔()不起作用
我试图将一个 GeometryReader 作为按钮推到屏幕底部，但 Spacer 在这里不起作用...... 这个想法是让应用程序响应所有屏幕尺寸。 VStack { GeometryRea
r - 2个逻辑向量的元素之间的快速最小距离(间隔)(取2)
我问了一个相关问题 here但意识到我在计算这个复杂的度量时花费了太多时间(目标是与随机化测试一起使用，所以速度是一个问题)。所以我决定放弃权重，只使用两个度量之间的最小距离。所以这里我有 2 个向量
docker-compose 健康检查重试频率 != 间隔
我最近成立 healthcheck s 在我的 docker-compose配置。它做得很好，我喜欢它。下面是一个典型的例子: services: app: healthcheck:
cocoa - 更改重复计时器的 NSTimer 间隔
我正在 Cocoa 中使用如下设置的 NSTimer 运行 mainLoop: mainLoopTimer = [NSTimer scheduledTimerWithTimeInter
android - 间隔 flutter 后命中api的更好方法
目前正在开发家庭自动化应用程序，其中有事件 API 可以在事件被触发时为我提供事件。但我想持续运行 API，以便跟踪在整个应用程序中触发的事件。还有一个主页，我在其中显示曾经发生的事件。它是一个简单的
elasticsearch - 日期范围查询中的 Elasticsearch 间隔
我有一个查询应该是这样的要求: { "size": 0, "_source": [ "dateCreated" ], "query": { "bool": {
php - 间隔 30 分钟的循环时间字符串
我有一个 UNIX 格式的时间字符串。我需要将该字符串四舍五入到最接近的 30 分钟间隔。例如:我的时间是上午 9:20，而不是应该四舍五入到上午 9:30。如果分钟数大于 30，例如上午 9:4
java - 运算符(operator)间隔
我有网络调用，我想定期调用它。我只想将运算符 Interval 与 flatMap 一起使用，但在间隔线程上。你能解释一下这种情况吗？我知道Interval只使用一个线程，任务是按顺序处理的。我有
ios - 减慢 CADisplayLink 间隔
我在我的 iOS 应用程序中使用了 NSTimer，但由于 SetNeedsDisplay，我没有得到我想要的结果。我做了一些研究并找到了 CADisplayLink，它为我提供了我想要的动画结果。
Java - 根据最小值、最大值和计数生成间隔/间隔
我需要通过给出值数组来生成 map 上图例的值。Java 库中是否有函数可以从值数组和计数值生成范围或区间？像这样的东西: Integer[] getIntervals(Number[] values
java - 在Java中以一定的时间间隔提供 sleep 间隔
我的函数中有以下代码，我试图从数据库中获取参数MAX_FAILED_ATTEMPT，并且基于此，如果检查失败，我将发送警报。当前代码将尝试从 MAX_FIELD_ATTEMPT 获取值并立即依次进行检
c# - Trackbar 上的特定值/间隔
我在这里要做的是像 Windows XP 上的那样放下一个轨迹栏来更改分辨率:( http://puu.sh/7Li5h.png ) 我想设置特定的间隔/增量值，如上图所示。目前，实际栏下方的线条已经
javascript - 停止 JavaScript 间隔
是否可以停止当前作为 setInterval 运行的函数？这是我的代码: 这是我调用的函数 function pull_light_status (lights_array) { $.get

首页

博学

6Ren·AI

商城

r - 用两个或多个 csv 文件之间的间隔对匹配值(完整行)进行子集化