python - Pandas groupby : get best zscore for counts() of each group

转载作者：行者123 更新时间：2023-12-01 09:20:29

26

4

我有一个 pandas groupby 对象，它返回每种基因类型的计数，大致如下所示(为清楚起见，手动格式化列标题):

counts = df.groupby(["ID", "Gene"]).size()

counts
ID      Gene      Count
1_1_1   SMARCB1     1
        smad       12
1_1_10  SMARCB1     2
        smad       17
1_1_100 SMARCB1     3

我需要获取组内的zscore，然后返回zscore最高的基因。

我尝试了以下方法，但它似乎正在计算整个数据集的 zscore，并且没有返回正确的 zscore:

zscore = lambda x: (x - x.mean()) / x.std()
counts = df.groupby(["ID", "Match"]).size().pipe(zscore)

我尝试过转换并得到了相同的结果。

我尝试过:

counts = match_df.groupby(["ID", "Match"]).size().apply(zscore)

这给了我以下错误:

'int' object has no attribute 'mean'

无论我尝试什么，它都不会给出正确的输出。前两行的 zscores 应为 [-1,1]，在这种情况下，我将返回 1_1_1 SMARCB1 的行。等等谢谢!

更新

感谢 @ZaxR 的帮助并切换到 numpy 均值和标准差，我能够解决这个问题，如下所示。该解决方案还提供了每个基因的原始计数和 zscore 的摘要数据框:

# group by id and gene match and sum hits to each molecule
counts = df.groupby(["ID", "Match"]).size()

# calculate zscore by feature for molecule counts
# features that only align to one molecule are given a score of 1
zscore = lambda x: (x - np.mean(x)) / np.std(x) 
zscores = counts.groupby('ID').apply(zscore).fillna('1').to_frame('Zscore')

# group results back together with counts and output to 
# merge with positions and save to file 
zscore_df = zscores.reset_index()
zscore_df.columns = ["ID", "Match", "Zscore"]
count_df = counts.reset_index()
count_df.columns = ["ID", "Match", "Counts"]
zscore_df["Counts"] = count_df["Counts"]

# select gene with best zscore meeting threshold
max_df = zscore_df[zscore_df.groupby('ID')['Zscore'].transform(max) \
                       == zscore_df['Zscore']]

最佳答案

为什么 df.groupby(["ID", "Gene"]).size().transform(zscore) 不起作用的原因是最后一组是只有一个项目的系列，因此当您尝试将 lambda 函数 zscore 应用于单个 [integer] 时，您会收到 'int' object has no attribute 'mean' 错误。请注意，x.mean() 的行为与 pandas 的“mean”不同。

更新

我认为应该这样做:

# Setup code
df = pd.DataFrame({"ID": ["1_1_1", "1_1_1", "1_1_10", "1_1_10", "1_1_100"],
                   "Gene": ["SMARCB1", "smad", "SMARCB1", "smad", "SMARCB1"],
                   "Count": [1, 12, 2, 17, 3]})
df = df.set_index(['ID', 'Gene'])

# Add standard deviation for every row
# Note: .transform(zscore) would also work
df['std_dev'] = df.groupby('ID')['Count'].apply(zscore)

# Find the max standard deviation for each group and
# use that as a mask for the original df
df[df.groupby('ID')['std_dev'].transform(max) == df['std_dev']]

Out:
                  Count   std_dev
ID       Gene
1_1_1    smad     12      0.707107
1_1_10   smad     17      0.707107

关于python - Pandas groupby : get best zscore for counts() of each group，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50827574/

26

4

0

文章推荐： python - 无法将 numpy 数组转换为 SageMath 中的图形

文章推荐： java - 如何在没有包的情况下引用 Java 文件？

文章推荐： PHP:允许为用户上传 .php 文件，如何阻止它们运行？

azure - 流分析: Best parameters to choose for the autopause of a day wise TUMBLINGWINDOW stream job and best trigger time to set for that function
上下文我有一个日间 TUMBLINGWINDOW(类似于下面所示的) SELECT DATEADD(day, -1, System.Timestamp()) AS WindowStart
javascript - 点亮元素 : best practise (or best performance) when creating many custom style rules vs a couple of dynamic rules inside a tiny web component?
因此，我正在开发一个非常小的 Web 组件，以作为更大的设计系统的一部分。我对网络组件的使用有点陌生，但我知道这个特定的网络组件可以在一个布局中使用很多很多次。此 Web 组件控制在传递给它的任何
Android后台蓝牙处理: What's the best approach?
我刚刚开发了一个 Android 应用程序(minSdkVersion 23/targetSdkVersion 29)，可以连接到 BluetoothLE 设备以定期获取数据。现在，在 MainAc
WPF 日期选择器 : What is the best?
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
c - 而对于 : what is the best?
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
PC上的iPhone开发: Best Option?
我一直在阅读有关 Airplay SDK 和 Dragonfire SDK 的内容。这些是在没有 Mac 的情况下进行 iphone 开发的合法选择吗？大家有更好的解决办法吗？最佳答案由于签名等原
DTO : best practices
我正在考虑使用 DTO 而不是传递我的域对象。我在这里和其他地方都读过几篇文章，我知道有几种方法可以完成这项工作。如果我总共只有大约 10 个域类，并且考虑到我想在我的 View (WPF 前端)中
django - "best"获取列表大小的方法
我的问题是，如果我有一个列表 list = [1,2,3,4,5,6,7] 如果我想知道这个列表中元素的数量，是len(list) 或 list.count 更好的选择？还是 .count 仅适用于来
Django休息框架: Best practices?
我想知道 Django Rest Framework 的最佳实践。我一直通过每个用户使用不同的序列化程序(员工、帐户所有者、其他人)和 HTTP 方法来限制更改帐户上某些属性的访问权限，但我觉得这太不
storage - "best"存放脚本的方式是什么？
我有数百个用于测试组件的脚本。这些脚本中的每一个都包含一组下标和单独的记录。下标可以在多个 TC_Level 脚本中使用，甚至可以在其他下标中使用。每个脚本都有一个唯一的名称。例子: TC_1
django - "Best"有条件地显示Django模板中不同模型字段的值的方法？
我正在建立一个以两种语言提供产品信息的网站:英文和中文。每个产品必须有英文名称，也可以有中文名称。每次请求产品页面时，request检查对象以确定产品名称应该以英文还是中文显示。在后一种情况下，如
Java属性: best practices?
场景:应用程序具有可以启用某些优化的算法。默认情况下，有些是打开的，有些是关闭的。在 Java 中是否有一种方便的方法来实现某种全局属性系统？要求: 必须很容易两次使用不同的设置运行程序的多个实例
复杂的状态转换 : best practices
我从事嵌入式工作，我有一些管理硬件的软件模块。这个模块有状态，状态转换很复杂:根据事件，模块可以从状态 A 到状态 B 或者可能到 C .但是，当它退出某个状态时，它应该对硬件执行一些操作，以使其也保
javascript - "best"如何让网页访问者构建数学或统计工具？
我有一个免费网站，可以流式传输实时股票期权数据。我想让用户制作并保存他们自己的 JavaScript 可调用工具来解释选项数据。用户可以调用这些自定义工具来帮助他们自己做出有关期权的买卖决定。但对于
C++ "Best"参数传递方式
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 2 年前。社区在 6 个
数据库设计 : best approach
我不是 DBA，我不知道什么是最好的解决方案。我有两个表， Custumers Table CustomerId (primary key, identity) ... 和 Suppliers Tab
Golang "best"使用空值和数据库时的实践
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
cvs - 版本控制 "best practice"
我一直在阅读关于版本控制主题的所有问题，但我认为我没有找到一个看起来像我自己的场景。场景是: 我们有一个中型/大型 Web 应用程序，它有(至少应该有)一个部署到所有客户端的核心。当我们向客户演示应
algorithm - "Best-Effort"拓扑排序
我希望根据继承来组织一些项目，目的是确定哪些项目是连接最密集的父项，并且还只是看到形成的连接。通常这将通过拓扑排序来完成，但我的图有循环。是否有类似“尽力而为”拓扑排序的东西，它可以尝试根据连接数或
JQuery 事件处理程序 - "Best"方法是什么
以下在 JQuery 中附加事件处理程序的方法有什么区别？ (function () { var $body = $("body"); $('button').click(functi

首页

博学

6Ren·AI

商城

python - Pandas groupby : get best zscore for counts() of each group

更新

更新