- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我对 python 和一般编程都很陌生,似乎找不到解决我的问题的方法。我有一个从 Excel 工作表导入的数据框,其中包含 15 行物种及其数量和 3 列(它们的位置)。这是按站划分的物种矩阵:
A1 A2 A3
Species 1 1259 600 151
Species 2 912 1820 899
Species 3 1288 1491 631
Species 4 36 609 1946
Species 5 1639 819 1864
Species 6 1989 748 843
Species 7 688 271 1206
Species 8 1031 341 756
Species 9 1517 1164 138
Species 10 1290 669 811
Species 11 16 409 1686
Species 12 329 521 954
Species 13 1782 958 1727
Species 14 464 1804 1105
Species 15 1002 1483 109
我想计算每一列的前 10 个物种(指数)、它们的值、列中总数的百分比、累积百分比,并在每个现有列之后插入新列并在一个数据帧中返回。
这是我正在寻找的结果(例如前两列):
Species A1 pct cum_pct Species A2 pct cum_pct
0 Species 6 1989 13 13 Species 2 1820 13 13
1 Species 13 1782 11 24 Species 14 1804 13 26
2 Species 5 1639 10 35 Species 3 1491 10 37
3 Species 9 1517 9 45 Species 15 1483 10 48
4 Species 10 1290 8 53 Species 9 1164 8 56
5 Species 3 1288 8 62 Species 13 958 6 63
6 Species 1 1259 8 70 Species 5 819 5 69
7 Species 8 1031 6 77 Species 6 748 5 75
8 Species 15 1002 6 83 Species 10 669 4 79
9 Species 2 912 5 89 Species 4 609 4 84
我成功地通过计算每一列并创建新的数据帧并使用 concat 最后使用以下代码将数据帧合并在一起来做到这一点:
df = pd.read_excel(r"") #local excel file
#extract first column and remove others
df = df.drop(df.columns[1:], axis=1)
# create column which has percentage for each element: divide value by total sum
df["pct"] = 100*(df.iloc[:, 0] /df.iloc[:, 0].sum())
#sort by value in Column 1 (0) return only top n (10) values
df = df.sort_values(by=df.columns[0], ascending=False).head(10)
# Create column with cumulative sum
df["cum_pct"] = df.pct.cumsum()
#make index as column and change name to Species
df = df.reset_index()
df = df.rename(index=str, columns={"index": "Species"})
# For column 2
df1 = pd.read_excel(r"") #local excel file
df1 = df1.drop(df1.columns[2:], axis=1)
df1 = df1.drop(df1.columns[0], axis=1)
# create column which has percentage for each element: divide value by total sum
df1["pct"] = 100*(df1.iloc[:, 0] /df1.iloc[:, 0].sum())
#sort by value in Column 1 (0) return only top n (10) values
df1 = df1.sort_values(by=df1.columns[0], ascending=False).head(10)
# Create column with cumulative sum
df1["cum_pct"] = df1.pct.cumsum()
# set index as first column
df1 = df1.reset_index()
df1 = df1.rename(index=str, columns={"index": "Species"})
# concatenate all dataframes
result = pd.concat([df, df1,], axis=1, join_axes=[df.index])
#convert numbers to int, exception = ignore
result = result.astype(int, errors="ignore")
print(result)
这段代码可以工作,但我的数据集要大得多,通常超过 50 列,所以我想知道是否可以对每列进行迭代,从而产生如上所示的相同数据帧。抱歉读了这么长。
最佳答案
使用for
循环,Series.nlargest
, DataFrame.assign
使用lambda
函数来计算pct
和cum_pct
和pandas.concat
合并为最终输出帧:
frames = []
for col in df:
frames.append(df[col].nlargest(10).to_frame()
.assign(pct=lambda x: x[col] / df[col].sum(),
cum_pct=lambda x: x['pct'].cumsum())
.rename_axis('Species').reset_index())
df_new = pd.concat(frames, axis=1)
[输出]
Species A1 pct cum_pct Species A2 pct cum_pct \
0 Species 6 1989 0.130495 0.130495 Species 2 1820 0.132779 0.132779
1 Species 13 1782 0.116914 0.247408 Species 14 1804 0.131612 0.264390
2 Species 5 1639 0.107532 0.354940 Species 3 1491 0.108777 0.373167
3 Species 9 1517 0.099528 0.454468 Species 15 1483 0.108193 0.481360
4 Species 10 1290 0.084635 0.539102 Species 9 1164 0.084920 0.566280
5 Species 3 1288 0.084503 0.623606 Species 13 958 0.069891 0.636171
6 Species 1 1259 0.082601 0.706207 Species 5 819 0.059750 0.695922
7 Species 8 1031 0.067642 0.773849 Species 6 748 0.054571 0.750492
8 Species 15 1002 0.065739 0.839588 Species 10 669 0.048807 0.799300
9 Species 2 912 0.059835 0.899423 Species 4 609 0.044430 0.843729
Species A3 pct cum_pct
0 Species 4 1946 0.131256 0.131256
1 Species 5 1864 0.125725 0.256981
2 Species 13 1727 0.116485 0.373466
3 Species 11 1686 0.113719 0.487185
4 Species 7 1206 0.081344 0.568528
5 Species 14 1105 0.074531 0.643059
6 Species 12 954 0.064346 0.707406
7 Species 2 899 0.060637 0.768043
8 Species 6 843 0.056860 0.824902
9 Species 10 811 0.054701 0.879603
<小时/>
如果需要将计算字段 pct
和 cum_pct
格式化为 int
,请改为使用:
frames = []
for col in df:
frames.append(df[col].nlargest(10).to_frame()
.assign(pct=lambda x: x[col] / df[col].sum(),
cum_pct=lambda x: x['pct'].cumsum())
.assign(pct=lambda x: x['pct'].mul(100).astype(int),
cum_pct=lambda x: x['cum_pct'].mul(100).astype(int))
.rename_axis('Species').reset_index())
df_new = pd.concat(frames, axis=1)
[输出]
Species A1 pct cum_pct Species A2 pct cum_pct Species \
0 Species 6 1989 13 13 Species 2 1820 13 13 Species 4
1 Species 13 1782 11 24 Species 14 1804 13 26 Species 5
2 Species 5 1639 10 35 Species 3 1491 10 37 Species 13
3 Species 9 1517 9 45 Species 15 1483 10 48 Species 11
4 Species 10 1290 8 53 Species 9 1164 8 56 Species 7
5 Species 3 1288 8 62 Species 13 958 6 63 Species 14
6 Species 1 1259 8 70 Species 5 819 5 69 Species 12
7 Species 8 1031 6 77 Species 6 748 5 75 Species 2
8 Species 15 1002 6 83 Species 10 669 4 79 Species 6
9 Species 2 912 5 89 Species 4 609 4 84 Species 10
A3 pct cum_pct
0 1946 13 13
1 1864 12 25
2 1727 11 37
3 1686 11 48
4 1206 8 56
5 1105 7 64
6 954 6 70
7 899 6 76
8 843 5 82
9 811 5 87
关于python - 迭代 python 数据框中的列以进行计算并在现有列之间插入新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56289734/
我有 512 行要插入到数据库中。我想知道提交多个插入内容是否比提交一个大插入内容有任何优势。例如 1x 512 行插入 -- INSERT INTO mydb.mytable (id, phonen
已经提出了类似的问题,但由于它总是取决于,我单独询问我的具体情况。 我有一个网站页面,显示来自数据库的一些数据,要从该数据库生成数据,我必须执行一些相当复杂的多连接查询。 数据每天(每晚)更新一次。
我正在使用 MongoDb 和 MySQL 的 python 连接器 pymongo 和 pymysql 测试 MongoDb 和 MySQL,特别是插入功能。 pymongo版本是3.4,pymys
从 C# 应用程序插入大型数组(10M 元素)的最快方法是什么? 到目前为止,我使用的是批量插入。 C# 应用程序生成一个大文本文件,我使用 BULK INSERT 命令加载它。出于好奇,我编写了一个
我编写了一个枚举类型,当我为它运行我创建的 JUnit 测试时会出现以下语法错误: java.lang.Error: Unresolved compilation problems: Synt
我正在尝试创建一个程序,它将单词列表作为输入,并将它们排序为二叉树,以便能够找到它们,例如像字典。这是我到目前为止所做的,但是 newEl -> el = input; 出现段错误,我知道这是因为它试
你好 我有编译这个问题 \begin{equation} J = \sum_{j=1}^{C} \end{equation} 我不断收到错误 missing $ inserted 这很奇怪,因
我需要使用 LINQ to SQL 将记录插入到没有主键的表中。 table 设计得很差;我无法控制表结构。该表由几个 varchar 字段、一个文本字段和一个时间戳组成。它用作其他实体的审计跟踪。
我正在尝试使用 itextsharp 创建 Pdf。我添加了一张包含两列的表格,其中一列包含文本和其他图像。我想要恒定的图像大小 如果另一个单元格中的文本增加并且其他单元格中的图像大小不同,我的图像会
我想把 calory 作为 fruits 的第一个值,我做不到,有人能帮忙吗? $sql = 'INSERT INTO fruits VALUES('', ?, ?, ?)'
我有一个包含季度观察结果的 data.frame。我现在想插入每月值(首选三次,线性很好)。中间目标应该是使用 DATE 创建一个 data.frame作为所有每月观察的索引和缺失值。 谷歌搜索表明我
我想知道是否有办法在值列表中使用“插入”。我正在尝试这样做: insert into tblMyTable (Col1, Col2, Col3) values('value1', value
我想让人们能够在他们的网站中插入单个 Javascript 行,这实际上允许我插入包含我网站内容的固定大小的 IFRAME。它实际上是一个小部件,允许他们搜索我的网站或接收其他信息。这可能吗? 最佳答
我有一个包含时间的表,列名为 time,数据类型为 Date。 在 asp.net 中,我想要一个查询插入日期,另一个查询则在 2 个日期之间进行选择。 我已经尝试过这个: string data =
这是我的代码: create or replace trigger th after insert on stock for each row declare sqty number;
这是一个带有具体示例的通用问题。 我有一个包含三个字段(流派 ID (PK IDENTITY)、流派和子流派)的表。该表对(流派,子流派)组合具有唯一约束。 我想知道如何修改存储过程以在表中不存在时插
因此,我正在遍历二叉树,节点包含字符串,以及读取文件时该字符串是否出现多次。我只查找读取文件时出现次数最多的前 10 个单词,因此本质上我只是比较 int 值。 我的问题是我正在尝试找出一种有效的方法
我有一张机票和行李 map , 每张门票必须是唯一的,并且必须与 map 上的位置相对应 是否可以仅更改行李(m_bagage->秒)而不更改 key ? std::unordered_map m_c
我正在使用 jdbc 驱动程序做一个示例项目。我的问题是,如果我在 2 文本字段中输入空值。 null 不应该加载到数据库中吗?有没有办法避免在数据库中插入空字段?任何帮助将不胜感激。 //Execu
我想知道 SSIS 中是否有特定的插入或更新选项。 如果我想让程序检查它是更新还是插入,我是否必须做一些编码?或者是否可以启用一个选项,以便它会自行检查 PK 是否存在,然后更新,否则插入? 亲切的问
我是一名优秀的程序员,十分优秀!