python - Pandas 系列 : compare values all vs. 所有-6ren

python - Pandas 系列 : compare values all vs. 所有

转载作者：行者123 更新时间：2023-11-28 18:14:33

44

4

我有一个包含两列的 DataFrame:sequence 和 id 例如:

import pandas as pd
data = {"id":["seq1", "seq2", "seq3"], "sequence":["ATCTGC", "AACTGC", "AACTCC"]}
df = pd.DataFrame(data)

(这是 +20k 序列的实际数据集的一个小例子)

我正在尝试以一种有效的方式获得序列距离矩阵。距离被理解为每个序列之间不同字符的数量。
为此，我需要在 sequence 列中应用所有值与所有值的函数。

我当前的代码如下所示:

def count_differences( seq, df ):
  return df.apply(lambda x: sum(1 for i, j in zip(x["sequence"], seq) if i != j), axis=1)

df2 = df.apply(lambda x: count_differences( x["sequence"], df), axis=1)
df2 = df2.rename(df["id"], axis="columns").rename(df["id"], axis="rows")

#      seq1 seq2 seq3
# seq1    0    1    2
# seq2    1    0    1
# seq3    2    1    0

这是应用中的应用。它工作正常，但在我拥有的所有序列上运行它时确实需要相当多的时间。

有没有更有效的方法呢？我一直在尝试查看是否可以使用 Series.map 来加快速度，但到目前为止我还没有找到任何解决方案。

最佳答案

这是一个想法，涉及到 numpy。

有几个步骤，但由于底层工作是通过 numpy 数值数组完成的，这可能更有效。

import pandas as pd, numpy as np

data = {"id":["seq1", "seq2", "seq3"], "sequence":["ATCTGC", "AACTGC", "AACTCC"]}
df = pd.DataFrame(data)

a = np.array(list(map(list, df['sequence'])))
values = np.unique(a, return_inverse=True)[1].reshape(a.shape)

n = len(a)
d = {(i, j): np.sum(a[i]!=a[j]) for i in range(n) for j in range(n) if j > i}

res = np.zeros((n, n))
keys = list(zip(*d.keys()))

res[keys[0], keys[1]] = list(d.values())
res += res.T

df_res = pd.DataFrame(res, columns=data['id'], index=data['id'], dtype=int)

#       seq1  seq2  seq3
# seq1     0     1     2
# seq2     1     0     1
# seq3     2     1     0

解释

将您的序列转换为 numpy 数组，其中每个元素都是一个字母。
使用 np.unique 分解您的数组(即将每个字母与一个数字相关联)。
使用 np.sum 查找因式分解数组中各行之间的字母差异，并将结果添加到字典中。由于您的结果是三角形的，因此只需执行一半的计算。
从字典中创建新的 numpy 数组并添加逆数组使三角数组满。
将您的字典转换为数据框。

性能基准测试

我看到了大约 7 倍的性能提升。

%timeit original(df)  # 3.32s
%timeit jp(df)        # 461ms

import pandas as pd, numpy as np

data = {"id":["seq1", "seq2", "seq3"], "sequence":["ATCTGC", "AACTGC", "AACTCC"]}
df = pd.DataFrame(data)

df = pd.concat([df]*100)

def original(df):
    def count_differences( seq, df ):
        return df.apply(lambda x: sum(1 for i, j in zip(x["sequence"], seq) if i != j), axis=1)

    df2 = df.apply(lambda x: count_differences( x["sequence"], df), axis=1)

    return df2

def jp(df):

    a = np.array(list(map(list, df['sequence'])))
    values = np.unique(a, return_inverse=True)[1].reshape(a.shape)

    n = len(a)
    d = {(i, j): np.sum(a[i]!=a[j]) for i in range(n) for j in range(n) if j > i}

    res = np.zeros((n, n))
    keys = list(zip(*d.keys()))

    res[keys[0], keys[1]] = list(d.values())
    res += res.T

    df_res = pd.DataFrame(res, columns=range(len(df['id'])), index=range(len(df['id'])), dtype=int)

    return df_res

关于python - Pandas 系列 : compare values all vs. 所有，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49235538/

44

4

0

文章推荐： iphone - 无法写入文本文件

文章推荐： ios - 为什么 retainCount = 2 - 发布后？

文章推荐： python - Django 中的抽象基类模型与代理模型

文章推荐： python - Pandas groupby 聚合截断最早日期而不是最旧日期

java - 将 Comparable 从 Comparator 转换为 Comparator？
我经常有一个 Comparator 类型，而我需要一个 Comparable 类型，反之亦然。是否有可重用的 JDK API 可以相互转换？类似的东西: public static Comp
java-8 - Comparator.compareBoolean() 和 Comparator.compare() 一样吗？
我怎么能写这个 Comparator sort = (i1, i2) -> Boolean.compare(i2.isOpen(), i1.isOpen()); 像这样(代码不起作用): Compa
java - 类型 new Comparator(){} 必须实现继承的抽象方法 Comparator.compare(Object, Object)
请帮助她。我有一个错误 Collections.sort(var4, new Comparator() { public int compare(TreeMap var1, TreeMa
java - Comparator.compare() 是如何工作的？
学习 Kotlin，我试图了解 Java 的 Comparator接口(interface)有效 - 主要是 compare() 函数，这样我就可以利用它。我已经尝试阅读 compare() 的文档
java - 如何编写 Comparator.comparing
我有以下程序 List numbers = Arrays.asList("10", "68", "97", "9", "21", "12"); Collections.sort(numbers, (
java - Comparator.comparing 使用嵌套对象的字段对列表进行排序
我想根据嵌套类的属性对如下所示的列表进行排序。 class Test { private NestedClass nestedClass; private AnotherNes
compare - Beyond Compare 软件算法如何工作？
我很好奇“Beyond Compare”的算法是如何工作的？我猜想他们使用了一种标准的(众所周知的？)算法来实现“字符与字符”的比较。你知道这个算法的名字吗？谢谢最佳答案 Beyond Compa
java - Comparable/Comparator 使用的排序的内部工作
这个问题已经有答案了: How does the sort() method of the Collection class call the Comparable's compareTo()? (1
Java : Comparable vs Comparator
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicates: difference between compare() and compareTo() Java: What i
java - 使用具有依赖性的 Comparable/Comparator
我被要求为某个类实现Comparable或Compartor，我们称之为V。假设我有一个 V 的 Collection 或 Set(还不确定，但我认为这并不重要)。 V 有一个方法，可以评估它的“权
java - Comparator.comparing 中的比较器和可序列化之间的按位与
我正在查看Java8中实现的Comparator.comparing方法的源代码这是代码 public static Comparator comparing( Function
java - Comparator#comparing 按类属性的属性排序
假设我有一个类 ClassA，它的属性是 ClassB: public ClassA { private String attr; private ClassB classB; } p
java - Comparator compare() 如何在内部为下面实现的方法工作？
我有一个自定义比较器，其比较逻辑如下: List l = new ArrayList(); l.add("tendercoupon"); l.add("giftcard
java - Comparator/Comparable/ComparatorChain问题
我正在努力实现一个处理 Comparator 和 Comparable 接口(interface)的层次结构。我不清楚的几件事: 如果我将比较器添加到比较器链中，这段代码究竟意味着什么 chain.a
Java Comparator.comparing 不比较？
正在关注 this question关于按另一个列表对列表进行排序，我尝试做同样的事情 - 但由于某种原因它对我不起作用。我错过了什么？ List nums = Arrays.asList(5
java - 嵌套字段的 Comparator.comparing(...)
假设我有一个像这样的领域模型: class Lecture { Course course; ... // getters } class Course { Teache
java - ">"和 ">>"之间的区别？
在表达式 > 中像这样的签名 public static > foo(T x) { ... } T的描述递归地依赖于Comparable . 如果T延伸Comparable ，和Comparable延
C# Comparer.Default.Compare 和 Comparer.Default 不返回 -1、0 或 1
所有“数字”比较器(例如 Comparer.Default 、 Comparer.Default 等)返回 -1 的原因是什么？ , 0或 1 ，但是 Comparer.Default和 Compar
java.util.Comparator.naturalOrder 采用 > 并返回一个 Comparator - 为什么？
(如果这是重复的，请指出正确的答案!我搜索并阅读了几个(> 5)个相关问题，但似乎没有一个是正确的。还查看了泛型常见问题解答和其他来源...) 当一个集合类接受一个比较器时，它应该具有 Compara
common-lisp - #'equal compare true compared to (list 7 1) but false when compared to ' (7 1)，为什么？
SBCL 1.3.1 综上所述，a是一个列表，'(7)，b通过setq sbcl This is SBCL 1.3.1.debian, an implementation of ANSI Common

首页

博学

6Ren·AI

商城

python - Pandas 系列 : compare values all vs. 所有