python - 识别重复项和相应的索引-6ren

python - 识别重复项和相应的索引

转载作者：太空宇宙更新时间：2023-11-04 04:18:17

25

4

我正在连接来自不同样本的突变数据的多个数据帧。我知道会有重复，即几个样本会有相同的共同突变。我想删除相同突变的额外重复行，而是包含一个列，其中包含具有该突变的所有样本。我不认为 df.drop_duplicates() 会像 np.unique() 那样这样做。

简化示例:

import pandas as pd
df = pd.DataFrame({"Chromosome":[1, 1, 1, 1, 1],
               'Position': [100, 220,300,100,220],
               "Gene":["CHD1","BRCA2","TP53","CHD1", "BRCA2"], 
               "SAMPLE":["A1","A2","A3","A4", "A5"]})
df
Output:
     Chromosome Position Gene   SAMPLE
 0        1     100      CHD1      S1
 1        1     220      BRCA2     S2
 2        1     300      TP53      S3
 3        1     100      CHD1      S4
 4        1     220      BRCA2     S5

最后我想这样:

df_new 
Output:
     Chromosome Position Gene   SAMPLES     Count 
 0        1     100      CHD1      [S1, S4]    2
 1        1     220      BRCA2     [S2,S5]     2
 2        1     300      TP53      S3          1

我敢肯定有一些简单的方法可以做到这一点，但我想念它。

这是我在 numpy 中一直使用的方法(使用 np.uniue(return_inverse=True) 的反向输出)。它有效，但效率不高。

Samples = array(master_df['Sample_ID'], dtype=str)
temp_array = array(master_df[master_df.columns[0:3]], dtype=str)
temp_unq, ind1, inv1, cnts1 = unique(temp_array, return_index= True, return_inverse=True, return_counts=True, axis=0)
s1 = [[] for i in cnts1]
for i in range(temp_unq.shape[0]): 
        whr = np.where(inv1==i)[0]
        s1[i].append(list(Samples[whr]))
    unq_combo = master_df.iloc[ind1]
    unq_combo = unq_combo.reset_index(drop=True)
    unq_combo['Counts'] =pd.Series(cnts1)
    unq_combo['Samples#'] = pd.Series(s1)

最佳答案

使用groupby和agg:

df.groupby(['Chromosome', 'Position', 'Gene']).SAMPLE.agg([list, 'count'])
                               list  count
Chromosome Position Gene                  
1          100      CHD1   [S1, S4]      2
           220      BRCA2  [S2, S5]      2
           300      TP53       [S3]      1

(df.groupby(['Chromosome', 'Position', 'Gene']).SAMPLE
   .agg([list, 'count'])
   .reset_index())

   Chromosome  Position   Gene      list  count
0           1       100   CHD1  [S1, S4]      2
1           1       220  BRCA2  [S2, S5]      2
2           1       300   TP53      [S3]      1

关于python - 识别重复项和相应的索引，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55031858/

25

4

0

文章推荐： python - 使用 contextmanager 捕获指令以供以后执行

文章推荐： c - 如何按顺序显示平衡二叉树的下一个元素？ (为了)

文章推荐： pandaboard 的 linux i2c 驱动程序

java - 相应 try 语句的主体中永远不会抛出异常
我在 Java 中遇到异常处理问题，这是我的代码。当我尝试运行此行时出现编译器错误:throw new MojException("Bledne dane");。错误是: exception MojE
javascript - 如何在选中 asp.net、c# 中 tabcontainer 中的复选框时启用附近(相应)文本框
我刚刚开始学习asp.net。在你们的支持下，我希望我能从这个论坛学到更多东西。我的问题是，我在 asp.net 页面中有一个 TabContainer1，因为每个选项卡面板中有多个类似 (60)

首页

博学

6Ren·AI

商城

python - 识别重复项和相应的索引