- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个 DataFrame 如下:
A B C
a d '1.1'
a d ' 2 '
a e '1'
a e ' 3 '
c f '3.2 '
我需要的是对 C 列的值求和,同时将它们与 A 和 B 分组。但是,这些值是字符串而不是 float ,有些有空格,有些没有。
我需要 DataFrame 像这样结束:
A B C
a d 1.1+2
a e 1+3
c f 3.2
我尝试做的是:
df.groupby(['A','B']).sum()
然而,由于它们是字符串,它只是将它们合并在一起,并没有真正对它们求和。之后,我尝试将它们转换为 float ,但由于空格不允许我这样做。最后,我试图删除字符串,但它说它不能对某些元素进行操作,因为它们是整数 (??)。我猜后者是因为它没有空格。
注意:为了更好理解,这些值带有“+”,但我需要的结果是 3.1、4 和 3.2
我的显式 csv 是这样的:
DL_INSTITUCION,PERIODO_QUE_SE_REPORTA, RESPONSABILIDAD_TOTAL
Santander,201412,"92,467"
Banca Mifel,201412," 39,089 "
Banca Mifel,201412," 28,286 "
Banca Mifel,201412," 310,902 "
CIBanco,201412," 10,106 "
CIBanco,201412," 46,872 "
Banorte/Ixe,201412," 3,127,120 "
CIBanco,201412," 10,163 "
Santander,201412," 545,027 "
Banca Mifel,201412," 10,291 "
Banca Mifel,201412," 80,738 "
Banca Mifel,201412," 46,329 "
HSBC,201412," 583,274 "
CIBanco,201412," 24,094 "
虽然是 2800 万行。
最佳答案
使用 pd.to_numeric
很简单
此解决方案的优点是使用 pd.to_numeric
简洁高效这是有效的,因为如果将 pd.Series
对象传递给它,pd.to_numeric
会返回一个带有索引的 pd.Series
对象。这为我们提供了将结果轻松传输到 groupby
所需的便利。
pd.to_numeric(df.C).groupby([df.A, df.B]).sum()
A B
a d 3.1
e 4.0
c f 3.2
Name: C, dtype: float64
errors='coerce'
还有一个额外的好处是,如果我们需要处理不能解析为 float
的字符串,我们可以使用参数 errors='coerce'
。这会将不可解析的字符串强制为 np.nan
,并且仍然允许有用的聚合。
pd.to_numeric(df.C, errors='coerce').groupby([df.A, df.B]).sum()
处理逗号
pd.to_numeric(df.C.str.replace(',', ''), 'coerce').groupby([df.A, df.B]).sum()
设置
df = pd.DataFrame(dict(
A=list('aaaac'),
B=list('ddeef'),
C='1.1| 2 |1| 3 |3.2 '.split('|')
))
您可以使用 pd.read_csv
解决其中的许多问题
from io import StringIO
import pandas as pd
txt = """DL_INSTITUCION,PERIODO_QUE_SE_REPORTA, RESPONSABILIDAD_TOTAL
Santander,201412,"92,467"
Banca Mifel,201412," 39,089 "
Banca Mifel,201412," 28,286 "
Banca Mifel,201412," 310,902 "
CIBanco,201412," 10,106 "
CIBanco,201412," 46,872 "
Banorte/Ixe,201412," 3,127,120 "
CIBanco,201412," 10,163 "
Santander,201412," 545,027 "
Banca Mifel,201412," 10,291 "
Banca Mifel,201412," 80,738 "
Banca Mifel,201412," 46,329 "
HSBC,201412," 583,274 "
CIBanco,201412," 24,094 "
"""
df = pd.read_csv(StringIO(txt), skipinitialspace=True, thousands=',')
您现在会注意到 dtypes
已被正确推断
df.dtypes
DL_INSTITUCION object
PERIODO_QUE_SE_REPORTA int64
RESPONSABILIDAD_TOTAL int64
dtype: object
我们可以毫无问题地进行聚合。
df.groupby(['DL_INSTITUCION', 'PERIODO_QUE_SE_REPORTA']).sum()
RESPONSABILIDAD_TOTAL
DL_INSTITUCION PERIODO_QUE_SE_REPORTA
Banca Mifel 201412 515635
Banorte/Ixe 201412 3127120
CIBanco 201412 91235
HSBC 201412 583274
Santander 201412 637494
关于python - 将字符串列从 DataFrame 转换为 float for .sum(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43745301/
我有这个示例代码: #include #include int main() { Eigen::MatrixXf M = Eigen::MatrixXf::Random(1000, 1000)
我有一个像这样的数据框: +-----+--------+ |count| country| +-----+--------+ | 12| Ireland| | 5|Thailand| +-
我想要 SUM(tot_bill_1+tot_bill_2) AS 总计,但这不起作用 SELECT *, IF(SUM(bill_1) IS NULL, '99', SUM(bill_1)) AS
如果我们有两个矩阵 X 和 Y,都是二维的,现在在数学上我们可以说:sum(X-Y)=sum(X)-总和(Y). Matlab 哪个效率更高?哪个更快? 最佳答案 在我的机器上,sum(x-y) 对于
我正在运行 Hive 1.1.0 并看到对于两个 bigint 列,active_users 和 inactive_users,SUM(active_users + inactive_users) <
是否可以在一个选择查询中求和? 类似这样的事情: SELECT id, SUM(current_price - bought_price)*amount AS profit FROM purchase
这是一个相当奇怪的结果。我希望这些具有相同的产量。 下面还有从数据库中提取的 excel 链接。 https://twentius.opendrive.com/files?89038281_muoyg
我必须对 2 个字段求和,然后再求和。从性能的角度来看,先添加字段还是在对列求和之后添加字段有什么区别? 方法 1 = SELECT SUM(columnA + columnB) 方法 2 = SEL
这是一个经典问题,但我很好奇是否有可能在这些条件下做得更好。 问题:假设我们有一个长度为4*N的排序数组,即每个元素重复4次。请注意,N 可以是任何自然数。此外,数组中的每个元素都受制于 0 A. 执
我正在编写一个 Pig 程序,该程序加载一个用制表符分隔整个文件的文件 例如:名称 TAB 年份 TAB 计数 TAB... file = LOAD 'file.csv' USING PigStora
我有一个包含以下字段的表: EmpID, Code, Amount, TransDate, CM, CMDate 我想要进入数据网格的是 SUM所有的Amount具有相同的 Code和 SUM CM具
我有两个单独的查询用于提取报告信息。一年效果很好。但是,如果一个月超过 1 年,则不会显示正确的响应。 这是我的两个查询: select SUM(rpt_complete.total) total,
我想查询一个团队的积分。通过在列上执行 SUM + 来自具有相同团队 ID 的另一个表的 SUM 来添加这些点。我试着这样写: SELECT k.id, s.fylke, s.
这个问题在这里已经有了答案: How to deal with floating point number precision in JavaScript? (47 个回答) Unexpected
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 5 年前。 Improve
我已经找了一段时间,但找不到这个问题的答案(也许我没有搜索正确的术语或其他东西)。基本上,我有一个数据库,每个日期有任意数量的条目。我需要取包含条目的最后 X 天的总和(忽略没有条目的天数)。我知道如
我正在尝试获取 B 行中包含 A 行中某个值的所有值中的一些值。我猜这个问题很简单。 这是我的查询: =QUERY('Sheet1'!$A$16:D, "Select sum(D) Where C c
我正在尝试运行以下查询,但出现以下错误: You have an error in your SQL syntax; check the manual that corresponds to your
我有一个 tableA,其中包含以下结构 我将此结构修改为如下所示的tableB,以减少行数,并且类别是固定长度的 假设我在 tableA 中修改为新结构后有 210 万条数据,tableB 仅包含
我的表在 Postgres 中的数据: id user_id sell_amount sell_currency_id buy_amount buy_currency_id type
我是一名优秀的程序员,十分优秀!