python - 在 Pandas 中保留具有百分比重叠范围的行-6ren

python - 在 Pandas 中保留具有百分比重叠范围的行

转载作者：行者123 更新时间：2023-12-04 07:43:15

25

4

我有一个包含列的数据框:

[id, range_start, range_stop, score]

如果两行的范围重叠 x我保留得分较高的行的百分比。但是，我很困惑如何拉出与其他范围没有重叠的行。我正在使用嵌套循环和递归将重叠范围压缩到一个新的数据帧中。但是，当我寻找非重叠行时，这种结构会导致保留所有行。

## This is my function to recursively select the highest scoring overlapping regions

def overlap_retention(df_overlap, threshold, df_nonoverlap=None):
     if df_nonoverlap != None:
          df_nonoverlap = pd.DataFrame()
     
     df_overlap = pd.DataFrame() 
    
     for index, row in x.iterrows():
          rs = row['range_start']
          re = row['range_end']

          ## Silly nested loop to compare ranges between all rows 
          for index2, row2 in x.drop(index).iterrows():   
               rs2 = row2['range_start']
               re2 = row2['range_end']
               readRegion=[*range(rs,re,1)]
               refRegion=[*range(rs2,re2,1)]
               regionUnion = set(readRegion).intersection(set(refRegion))
               overlap_length = len(regionUnion)
            
               overlap_min = min(rs, rs2)
               overlap_max = max(re, re2)
               overlap_full_range = overlap_max-overlap_min

               overlap_percentage = (overlap_length/overlap_full_range)*100

               ## Check if they overlap by x_percentage and retain the higher score
               if overlap_percentage>x_percentage:
                    evalue = row['score']
                    evalue_2 = row2['score']
            
                    if evalue_2 > evalue:
                          df_overlap = df_overlap.append(row2)
                    else:
                         df_overlap = df_overlap.append(row)
#----------------------------------------------------------
                ## How to find non-overlapping rows without pulling everything?
               else:
                    df_nonoverlap = df_nonoverlap.append(row)
# ---------------------------------------------

          ### Recursion here to condense overlapped list further
          if len(df_overlap)>1:
              overlap_retention(df_overlap, threshold, df_nonoverlap)
          else:
              return(df_nonoverlap)

示例输入如下:

data = {'id':['id1', 'id2', 'id3', 'id4', 'id5', 'id6'],
       'range_start':[1,12,11,1,20, 10],
       'range_end':[4,15,15,6,23,16],
       'score':[3,1,8,2,5,1]}
input = pd.DataFrame(data, columns=['id', 'range_start', 'range_end', 'score'])

所需的输出可以根据重叠阈值而改变。在上面的例子中 id1和 id4既可以保留也可以简单地保留 id1取决于重叠阈值:

data = {'id':['id1', 'id3', 'id5'],
       'range_start':[1,11,20],
       'range_end':[4,15,23],
       'score':[3,8,5]}
output = pd.DataFrame(data, columns=['id', 'range_start', 'range_end', 'score'])

最佳答案

您可以在所有范围之间进行笛卡尔连接，然后找到每对重叠的长度和百分比，并根据 x_overlap 对其进行过滤。临界点。
之后，对于每个范围，我们可以找到得分最高的重叠范围(可能是范围本身，重叠率为 100%):

# set min overlap parameter
x_overlap = 0.5

# cartesian join all ranges
z = df.assign(k=1).merge(
    df.assign(k=1), on='k', suffixes=['_1', '_2'])

# find lengths of overlaps
z['len_overlap'] = (
    z[['range_end_1', 'range_end_2']].min(axis=1) -
    z[['range_start_1', 'range_start_2']].max(axis=1)).clip(0)

# we're only interested in cases where ranges overlap, so the total
# range is the range between min(start1, start2) and max(end1, end2)
z['len_total'] = (
    z[['range_end_1', 'range_end_2']].max(axis=1) -
    z[['range_start_1', 'range_start_2']].min(axis=1)).clip(0)

# find % overlap and filter out pairs above threshold
# these include 'pairs' where a range is paired to itself
z['pct_overlap'] = z['len_overlap'] / z['len_total']
z = z[z['pct_overlap'] > x_overlap]

# for each range find an overlapping range with the highest score
# (could be the range itself)
z = z.sort_values('score_2').groupby('id_1')['id_2'].last()

# filter the inputs
df_out = df[df['id'].isin(z)]

df_out

输出:

    id  range_start  range_end  score
0  id1            1          4      3
2  id3           11         15      8
4  id5           20         23      5

附言请注意，目前还不清楚 id4 会发生什么情况。在你的例子中。由于您的输出中没有它，我假设(希望正确)您对输出中的零长度范围不感兴趣
P.P.S. pandas 中有笛卡尔连接的新语法1.2.0+ 与 how=cross merge 中的参数方法。我在回答中使用了一个带有虚拟变量的版本 k=1 , 更冗长，但与旧版本兼容

关于python - 在 Pandas 中保留具有百分比重叠范围的行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67335818/

25

4

0

文章推荐： language-agnostic - 如何表示遗传算法的路径？

文章推荐： actions-on-google - 在 Google Assistant App 中调用电话

文章推荐： C++: "Iterable"接口(interface)

Python通过特定方程列出交叉识别(重叠？)
我对具有 2 个轴的数据有交叉识别问题，例如 A = array([['x0', 'y0', 'data0', 'data0'], ['x0', 'y0', 'data0', '
Haskell 重叠/不连贯的实例
我知道这是代码有点傻，但有人可以解释为什么 isList [42]返回 True而isList2 [42]打印 False ，以及如何防止这种情况？我想更好地理解一些更晦涩的 GHC 类型扩展，我认为
c - Memmove 重叠
我正在使用memmove()，但目标似乎正在覆盖源，或者也许我不明白覆盖是什么。我有一个 char 数组(目标)，然后是一个指向目标的指针，该指针位于 vector 内部。 char destinat
flash - Flash中的流音频播放多次，重叠
以下AS3代码有时会导致音频多次播放，就像疯狂的回声一样，几乎同时播放。通常使用该URL都可以，但是当我使用https://soundcloud.com url时，它总是会发疯。在极少数情况下，我认为
java - 线性布局不可见/重叠
我正在尝试在 android 2.2 中实现类似操作栏的东西。这是我的 main.xml
ios图表框架值(value)重叠
如何避免第一个值的重叠问题而且，我怎样才能看到最后一个被剪裁的值？最佳答案我认为您在修改轴上的样式和调整视口(viewport)之间有几种选择。我会尝试: 禁用左轴，启用右轴 chart.le
ios - UIScrollView 重叠
我正在构建一个简单的应用程序，您可以在其中使用纸娃娃之类的工具来描述您的外观。 Check out this image.计划是有 4 个水平 ScrollView :第一个用于发型，第二个用于面部毛
android - 重叠 ScrollView
我有一个问题...我在绝对布局中有两个 ScrollView 。换句话说，它们是全屏的并且相互重叠上面的scrollview是水平滚动的，下面的是垂直滚动的scrollview。当我水平滚动时，我
几个旋转屏幕后Android fragment 重叠
我看了一些类似的问题，但我不太明白在我的层次结构中我应该做什么？我有用于屏幕底部的标签菜单和对于其他将创建的 fragment 。我有 9 个标签菜单，每个都是 fragment 。一
Android fragment 重叠
在我的 Android 应用程序中，我有一个编辑文本和一个按钮，单击该按钮会向我的主要 Activity 添加一个 fragment ，其中包含在我的编辑文本中写入的消息。问题是，当我更改消息并单击按
ios - 分段控件的标题不适合，重叠
在我的分段控件中，有时标题比其段宽。我怎样才能让它截断？假设第 1 段的标题是 Text overlaps，第 2 段的名称是 ok。我希望它看起来如何: [Text ov...| ok
iphone - UITableViewCell 重叠
我想创建一个带有重叠单元格的 uitableview，如下图所示。问题是，即使我为单元格的内容 View 设置 clipsToBounds = NO，单元格假标题(例如，将与前一个单元格重叠的西类牙语
CSS 重叠 div
有了这个CSS .addProblemClass{ width:300px; height:300px; /*width:25%; height:40%;*/
javascript - 离开窗口选项卡时图像堆叠(重叠)
我有跨窗口移动的图像(2 行)，当我离开页面选项卡时，然后返回它，所有图像都相互堆叠。 JS代码(记入jfriend00) function startMoving(img) { va
javascript - SetTimeout 重叠？
这是我的一段代码。图像在 23 毫秒后正常可见，但永远不会像第二行所示那样返回隐藏状态。如果我将其从 17 毫秒更改为大于 23 毫秒的值，它就会起作用。反之亦然，如果我将第一行更改为 16 毫秒，它
javascript - javascript中for循环中的碰撞/重叠
我正在可汗学院为学校项目编写一款太空入侵者游戏，但我不知道如何在子弹和外星人之间进行碰撞，然后摆脱子弹所碰撞的外星人。这是非常基本的 JS，尽管我尝试过，但我不太明白如何将有关该主题的其他答案放入我的
iOS UITableViewCell 重叠
当我尝试重新加载 tableView 的数据时出现奇怪的重叠，导致单元格的高度发生变化(使用 UITableViewAutomaticDimension)，然后内容与上面的单元格重叠，无法弄清楚怎么做
html - 标题和部分相互合并/重叠
我是一个新手，如果这是一个愚蠢的问题，请原谅我。我想有一个部分与标题分开，但发生了两种情况: (1) 当我把在下面，它们相互重叠，如下所示: Section overlapping header
css - Div 重叠
我正在尝试创建两个那是重叠的。唯一的问题是第二个在第一个的前面它必须是相反的。我尝试设置第一个的 z-index至 1但它仍然不起作用。这是我的代码: #content{ backgrou
CSS - 重叠 - 有效
是否有重叠 2 个 div 的有效方法。我有以下内容，但无法让它们重叠。 #top-border{width:100%; height:60px; background:url(image.jpg)

首页

博学

6Ren·AI

商城

python - 在 Pandas 中保留具有百分比重叠范围的行