python - Pandas 数据框 : create new columns of labels based on other columns-6ren

python - Pandas 数据框 : create new columns of labels based on other columns

转载作者：太空宇宙更新时间：2023-11-03 14:05:43

27

4

我有这个例子 pandas.DataFrame 有 +20K 行，格式如下:

import pandas as pd
import numpy as np

data = {"first_column": ["A", "B", "B", "B", "C", "A", "A", "A", "D", "B", "A", "A"],
        "second_column": [0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0]}

df = pd.DataFrame(data)

>>> df
   first_column  second_column
0             A              0
1             B              1
2             B              1
3             B              1
4             C              0
5             A              0
6             A              0
7             A              1
8             D              1
9             B              1
10            A              1
11            A              0
....

first_column 列的每一行都有 A、B、C 和 D。在第二列中，有一个二进制标签表示一组值。所有连续的 1 分组都是一个独特的“组”，例如第 1-3 行是一组，第 7-10 行是另一组。

我想通过“AB”(该组仅由 A 或 B 组成)、“CD”(该组仅由 C 或 D 组成)或“混合”(如果存在混合，例如所有 B 和一个 C)。了解这些分组中的一些“如何”与百分比混合也会很有用，即 AB 在总标签中的百分比。因此，如果它只是A 或B，则标识应该是AB。如果只是C或D，则标识应该是CD。它是 A、B、C 和/或 D 的混合，然后是 mixed。百分比是(AB 行数)/(总行数)

这是生成的 DataFrame 的样子:

>>> df
   first_column  second_column    identity    percent
0             A              0           0          0
1             B              1          AB        1.0
2             B              1          AB        1.0
3             B              1          AB        1.0
4             C              0           0          0
5             A              0           0          0
6             A              0           0          0
7             A              1       mixed       0.75  # 3/4, 3-AB, 4-total
8             D              1       mixed       0.75
9             B              1       mixed       0.75
10            A              1       mixed       0.75
11            A              0           0          0 
....

我最初的想法是首先尝试将 df.loc() 与

一起使用

if (df.first_column == "A" | df.first_column == "B"):
    df.loc[df.second_column == 1, "identity"] = "AB"
if (df.first_column == "C" | df.first_column == "D"):
    df.loc[df.second_column == 1, "identity"] = "CD"

但这并没有考虑到混合，也不适用于孤立的分组。

最佳答案

这是一种方法。

代码:

import pandas as pd

from collections import Counter
a_b = set('AB')
c_d = set('CD')

def get_id_percent(group):
    present = Counter(group['first_column'])
    present_set = set(present.keys())

    if group['second_column'].iloc[0] == 0:
        ret_val = 0, 0
    elif present_set.issubset(a_b) and len(present_set) == 1:
        ret_val = 'AB', 0
    elif present_set.issubset(c_d) and len(present_set) == 1:
        ret_val = 'CD', 0
    else:
        ret_val = 'mixed', \
               float(present['A'] + present['B']) / len(group)

    return pd.DataFrame(
        [ret_val] * len(group), columns=['identity', 'percent'])

测试代码:

data = {"first_column": ["A", "B", "B", "B", "C", "A", "A",
                         "A", "D", "B", "A", "A"],
        "second_column": [0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0]}

df = pd.DataFrame(data)

groupby = df.groupby((df.second_column != df.second_column.shift()).cumsum())

results = groupby.apply(get_id_percent).reset_index()
results = results.drop(['second_column', 'level_1'], axis=1)
df = pd.concat([df, results], axis=1)
print(df)

结果:

   first_column  second_column identity  percent
0             A              0        0     0.00
1             B              1       AB     0.00
2             B              1       AB     0.00
3             B              1       AB     0.00
4             C              0        0     0.00
5             A              0        0     0.00
6             A              0        0     0.00
7             A              1    mixed     0.75
8             D              1    mixed     0.75
9             B              1    mixed     0.75
10            A              1    mixed     0.75
11            A              0        0     0.00

关于python - Pandas 数据框 : create new columns of labels based on other columns，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43596242/

27

4

0

文章推荐： python - 使用lepture/authlib获取refresh_token

文章推荐： python - 鲁棒线性模型 - 没有外生变量，只有常数

文章推荐： azure - 保护 Azure WebApp 免受 BEAST 攻击

c++ - `Base *b = new Base;` 与 `Base *b = new Base();` 没有定义我自己的构造函数
如果我不定义自己的构造函数，Base *b = new Base; 与 Base *b = new Base(); 之间有什么区别吗？最佳答案初始化是标准中要遵循的一种 PITA...然而，这两个
c# - 在 C# 中将 base-27(或 base-X)转换为 base-10？
是否有现成的函数可以在 C# 中进行基本转换？我希望将以 26 为基数和以 27 为基数的数字转换为以 10 为基数。我可以在纸上完成，但我不是一个非常有经验的程序员，如果可能的话，我宁愿不要从头开始
java - JNA 的 Pointer.getPointerArray(long base) 和 Pointer.getStringArray(long base) 中的 'base' 是什么意思？
JNA 中'base'是什么意思 Pointer.getPointerArray(long base) Pointer.getStringArray(long base) ? JNA Document
C++ base 10 to base 2逻辑错误
我正在做一个将数字从 10 进制转换为 2 进制的基本程序。我得到了这段代码: #include #include #include #include using namespace std;
c# - 从 "base.base"类调用方法？
“假设以下代码: public class MultiplasHerancas { static GrandFather grandFather = new GrandFather();
三进制计算机与其他基于二进制的算法分析，4th based 5th based
当我分析算法的时候，我突然问自己这个问题，如果我们有三元计算机时间复杂度会更便宜吗？还是有任何基础可以让我们构建计算机，这样时间复杂度分析就无关紧要了？我在互联网上找不到太多，但是基于三元的计算机在给
c# - Base Base Constructor C# 初始化
一个简化的场景。三个类，GrandParent，Parent 和 Child。我想要做的是利用 GrandParent 和 Parent 构造函数来初始化一个 Child 实例。 class Gran
javascript - 评估javascript base 10 to base 2转换函数
我编写了一个简单的函数来将基数为 10 的数字转换为二进制数。我编写的函数是我使用我所知道的简单工具的最佳尝试。我已经在这个网站上查找了如何执行此操作的其他方法，但我还不太了解它。我确定我编写的函数非
c++ - 将数字从 base-10 转换为另一个 base
我尝试了以下代码将数字从 base-10 转换为另一个 base。如果目标基地中没有零(0)，它就会工作。检查 79 和 3 并正确打印正确的 2221。现在尝试数字 19 和 3，结果将是 21 而
algorithm - 分析时间复杂度时log base 2等于log base 3？
这个问题在这里已经有了答案: Is Big O(logn) log base e? (7 个答案) 关闭 8 年前。 Intro 练习 4.4.6 的大多数解决方案。算法第三版说，n*log3(n)
c++ - 运行时检查实例 (Base*) 是否覆盖父函数 (Base::f())
如何判断基类(B)的指针是否(多态)重写了基类的某个虚函数？ class B{ public: int aField=0; virtual void f(){}; }; class C
c# - 为什么 C# 不支持 base.base？
我测试了这样的代码: class A { public A() { } public virtual void Test () { Console.WriteL
html - WPF的grid based layout和html中禁忌的table based layout不一样吗？
两者都采用相同的概念:定义一些行和列并将内容添加到特定位置。但是 Grid 是最常见的 WPF 布局容器，而 html 中基于表格的布局是 very controversial .那么，为什么 WPF
javascript - JS中的继承 : this. base = Class(); this.base() 还是……？
我试图在 JS 中“获得”继承。我刚刚发现了一种基本上可以将所有属性从一个对象复制到另一个对象的简洁方法: function Person(name){ this.name="Mr or Miss
c# - 如何调用像 base.base.GetHashCode() 这样的二级基类方法
class A { public override int GetHashCode() { return 1; } } class B : A { pu
php - 如何将比特种子信息哈希从 Base 32 转换为 Base 16
我有一个 Base32 信息哈希。例如IXE2K3JMCPUZWTW3YQZZOIB5XD6KZIEQ ，我需要将其转换为base16。我怎样才能用 PHP 做到这一点？我的代码如下所示: $ha
google-analytics - 谷歌分析内容实验 : Session Based or User-Based?
我已经使用其实验界面对 Google Analytics 进行了一些实验，一切似乎都运行良好，但我无法找到 Google Analytics 属性如何达到变体目标的答案，即归因 session - 基
flutter - 为什么 "base is derivedA || base is derivedB"没有按预期工作？
if (state is NoteInitial || state is NewNote) return ListView.builder(
c++ - Derived1::Base 和 Derived2::Base 是否指代相同的类型？
MSVC、Clang 和 GCC 不同意此代码: struct Base { int x; }; struct Der1 : public Base {}; struct Der2 : public
javascript - Base 10 到 Base 2 转换器
我已经尝试构建一个 Base 10 到 Base 2 转换器... var baseTen = window.prompt("Put a number from Base 10 to conver

首页

博学

6Ren·AI

商城

python - Pandas 数据框 : create new columns of labels based on other columns