python - 解决python中的pd.get_dummies功能障碍-6ren

python - 解决python中的pd.get_dummies功能障碍

转载作者：行者123 更新时间：2023-11-28 21:39:52

24

4

我有

 a={0: ['I3925'], 1: ['I3925'], 2: ['I3925'], 3: ['I2355'], 4: ['I2355'], 5: ['I2355'], 6: ['I111'], 7: ['I111'], 8: ['I111'], 9: ['I405'], 10: ['I405'], 11: ['I3878', 'I2864'], 12: ['I3878'], 13: ['I534'], 14: ['I534'], 15: ['I134', 'I2276'], 16: ['I107'], 17: ['I107'], 18: ['I2864']}

其中包含一把 key 的一个补充 I 编号。

b = pd.Series(a,\
                              index = a.keys(),
                               name = "a")
pd.get_dummies(b.apply(pd.Series))

然后 get_dummies 不起作用，因为它创建了一个重复的列 1_15 来存储与第二个 I 编号的匹配，而不是将它们堆叠到同一列中。我不明白为什么。

    0_I107  0_I111  0_I134  0_I2355 0_I2864 0_I3878 0_I3925 0_I405  0_I534  1_I2276 1_I2864
0   0   0   0   0   0   0   1   0   0   0   0
1   0   0   0   0   0   0   1   0   0   0   0
2   0   0   0   0   0   0   1   0   0   0   0
3   0   0   0   1   0   0   0   0   0   0   0
4   0   0   0   1   0   0   0   0   0   0   0
5   0   0   0   1   0   0   0   0   0   0   0
6   0   1   0   0   0   0   0   0   0   0   0
7   0   1   0   0   0   0   0   0   0   0   0
8   0   1   0   0   0   0   0   0   0   0   0
9   0   0   0   0   0   0   0   1   0   0   0
10  0   0   0   0   0   0   0   1   0   0   0
11  0   0   0   0   0   1   0   0   0   0   1
12  0   0   0   0   0   1   0   0   0   0   0
13  0   0   0   0   0   0   0   0   1   0   0
14  0   0   0   0   0   0   0   0   1   0   0
15  0   0   1   0   0   0   0   0   0   1   0
16  1   0   0   0   0   0   0   0   0   0   0
17  1   0   0   0   0   0   0   0   0   0   0
18  0   0   0   0   1   0   0   0   0   0   0

谁能解释一下我做错了什么？

最佳答案

选项 1

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
pd.DataFrame(mlb.fit_transform(b), b.index, mlb.classes_)

    I107  I111  I134  I2276  I2355  I2864  I3878  I3925  I405  I534
0      0     0     0      0      0      0      0      1     0     0
1      0     0     0      0      0      0      0      1     0     0
2      0     0     0      0      0      0      0      1     0     0
3      0     0     0      0      1      0      0      0     0     0
4      0     0     0      0      1      0      0      0     0     0
5      0     0     0      0      1      0      0      0     0     0
6      0     1     0      0      0      0      0      0     0     0
7      0     1     0      0      0      0      0      0     0     0
8      0     1     0      0      0      0      0      0     0     0
9      0     0     0      0      0      0      0      0     1     0
10     0     0     0      0      0      0      0      0     1     0
11     0     0     0      0      0      1      1      0     0     0
12     0     0     0      0      0      0      1      0     0     0
13     0     0     0      0      0      0      0      0     0     1
14     0     0     0      0      0      0      0      0     0     1
15     0     0     1      1      0      0      0      0     0     0
16     1     0     0      0      0      0      0      0     0     0
17     1     0     0      0      0      0      0      0     0     0
18     0     0     0      0      0      1      0      0     0     0

选项 2

b.str.join('|').str.get_dummies()

    I107  I111  I134  I2276  I2355  I2864  I3878  I3925  I405  I534
0      0     0     0      0      0      0      0      1     0     0
1      0     0     0      0      0      0      0      1     0     0
2      0     0     0      0      0      0      0      1     0     0
3      0     0     0      0      1      0      0      0     0     0
4      0     0     0      0      1      0      0      0     0     0
5      0     0     0      0      1      0      0      0     0     0
6      0     1     0      0      0      0      0      0     0     0
7      0     1     0      0      0      0      0      0     0     0
8      0     1     0      0      0      0      0      0     0     0
9      0     0     0      0      0      0      0      0     1     0
10     0     0     0      0      0      0      0      0     1     0
11     0     0     0      0      0      1      1      0     0     0
12     0     0     0      0      0      0      1      0     0     0
13     0     0     0      0      0      0      0      0     0     1
14     0     0     0      0      0      0      0      0     0     1
15     0     0     1      1      0      0      0      0     0     0
16     1     0     0      0      0      0      0      0     0     0
17     1     0     0      0      0      0      0      0     0     0
18     0     0     0      0      0      1      0      0     0     0

关于python - 解决python中的pd.get_dummies功能障碍，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46245124/

24

4

0

文章推荐：用于小数字的 Python numpy linspace

文章推荐： python - Pandas 数据框 - 删除异常值

文章推荐： video - 如何在 Blender VSE 中裁剪 strip (宽度 x 高度)？

文章推荐： ios - 解析中的 block

pandas - 反向 get_dummies()
在使用 get_dummies() 将分类数据转换为数字数据后，我的数据框看起来像这样 score1 score2 country_CN country _AU category_leader ca
python - get_dummies 拆分字符
我有需要应用单热编码的标记数据:'786.2', 'ICD-9-CM|786.2', ' ICD-9-CM', '786.2b|V13.02', 'V13.02', '279.12' , 'ICD-9
python - 将字典合并到数据框 get_dummies
在包含有关文本文件中字符串信息的字典中，其中键是字符串，值是文件名。 Dict1 = {'str1A':'file1', 'str1B':'file1', 'str1C':'file1', 'str1
python - 在这种情况下如何使用 get_dummies() ？
我需要对 userId X movieId 进行分类，我有两列:userId 和 movieId。 userId movieId 60265 2123 60265 2291 60265
python - get_dummies python内存错误
我在处理包含 400,000 行和 300 个变量的数据集时遇到问题。我必须为包含 3,000 多个不同项目的分类变量获取虚拟变量。最后，我想得到一个包含 3,300 个变量或特征的数据集，以便我可以
python - PySpark get_dummies 等效
我有一个具有以下架构的 pyspark 数据框: Key1Key2Key3值一个一个一个"value1"一个一个一个"value2"一个一个b"value1"bb一个"value2" (在现实生活中这
python - 如何使用 get_dummies 或一种热编码对具有多个元素的分类特征进行编码？
我正在研究一个数据集，它有一个称为类别的功能。该特征中每个观察的数据由分号分隔的列表组成，例如。行类别第 1 行 "categorya;categoryb;categoryc" 第 2 行 “类
python - 用于具有预定义列表的多列的 pandas get_dummies()
我正在努力为我的数据框创建虚拟列。这是我的原始数据框: df = pd.DataFrame({'id': ['01', '02', '03'], 'Q1':
python - Pandas - get_dummies 与选定的集合
使用以下数据框: >>> df = pd.DataFrame(data={'category':['a','b','c'],'val':[1,2,3]}) >>> df category val
python - 使用 pandas.get_dummies
所以本质上我有一个包含一堆列的数据框，其中一些我想保留(存储在 to_keep 中)，还有一些其他列我想使用 pandas.get_dummies 创建分类变量(这些列存储在 to_change 中)
python - Pandas get_dummies 为同一特征生成多个列
我正在使用 pandas 系列并尝试将其转换为一种热门编码。我使用 describe 方法来检查该系列有多少个独特的类别。输出为: input['pattern'].describe(include=
Python:pd.get_dummies() 会丢弃空值
我有一个 Pandas DataFrame，df。它由数字变量和分类变量组成，其中包含 NaN/NULL 值。要继续进行数据预处理，我必须对 calcategori 变量进行 one-hot 编码，并
python - 使用 get_dummies 将分类值转换为数字？
我正在制作一个简单的可重现示例来了解培训和测试的工作原理: 示例我想根据原产地位置预测年龄: import pandas as pd # create a simple dataset of peo
python - 如何使用 get_dummies 从现有列创建新列
我有这个数据框: column1 column2 column3 column4 0 A A D D 1 B
python - pandas get_dummies 如何记住哪个值成为哪个新类别？
这个问题已经有答案了: Dummy variables when not all categories are present (10 个回答) 已关闭 5 年前。使用 get_dummies 方法
python - 使用 get_dummies 时删除冗余列
你好，有一个包含分类变量的 Pandas 数据框 df。 df=pandas.DataFrame(data=[['male','blue'],['female','brown'], ['male','
python - Pandas - get_dummies 具有来自另一列的值
我有一个如下所示的数据框。 Mfr Number 列是分类数据类型。我想对其执行 get_dummies 或一种热编码，但如果它来自该行，我不想用 1 填充新列，而是希望它填充数量列。所有其他新的“
python - pandas get_dummies 无法处理测试数据中看不见的标签
我有一个 Pandas DataFrame，train，我是单热编码。它看起来像这样: car 0 Mazda 1 BMW 2 Honda 如果我使用 pd.get_dummies
python - 我可以将列名列表传递给 get_dummies() 以用作所有可能答案的列标签吗？
(已编辑:我刚刚意识到我想问一个无法回答但不确定如何删除这个问题的问题...请忽略或建议我如何删除。我想我需要考虑一个不同的解决这个问题的方法。) ******--------------------
python - 用于嵌套表的 Pandas Get_dummies
我希望利用 pandas get_dummy() 功能来编码一组(相当广泛的)分类变量。但是，数据当前采用嵌套表格格式。这意味着每一行代表另一个变量实例，例如 Instance, Cat_Col 1,

首页

博学

6Ren·AI

商城

python - 解决python中的pd.get_dummies功能障碍