- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
编辑(感谢Jezrael引导我做到这一点):
我有一个电话号码列表,我想为每个号码计算每个数字出现的次数。您会明白,双重 for
循环是不可能的,因为我有几十万个电话号码需要计算。
为此,我创建了一个数据框(因为我觉得这可能是一种有效的方法),其中每行包含电话号码的分割:
numbers = ['0615260518','0815465948','0215616235','0415291826']
df = pd.DataFrame([list(number) for number in numbers])
Out[1]:
0 1 2 3 4 5 6 7 8 9
0 0 6 1 5 2 6 0 5 1 8
1 0 8 1 5 4 6 5 9 4 8
2 0 2 1 5 6 1 6 2 3 5
3 0 4 1 5 2 9 1 8 2 6
然后我需要用所需的计数填充它。期望的输出:
Out[2]:
0 1 2 3 4 5 6 7 8 9
0615260518 2 2 1 0 0 2 2 0 1 0
0815465948 1 1 0 0 2 2 1 0 2 1
0215616235 1 2 2 1 0 2 2 0 0 0
0415291826 1 2 2 0 1 1 1 0 1 1
这是一种非Python式的实现方式:
for num in df.index:
for col in df.columns:
df.ix[num,col] = num.count(str(col))
计算时间太长,然后 Jezrael 为我提供了这个解决方案:
df.apply(lambda x: x.value_counts(), axis=1).fillna(0).astype(int)
这好多了,但仍然太长。所以我尝试替换不是为小数据帧设计的 value_counts:
df.apply(lambda x: digit_count(''.join(x)), axis=1)
地点:
def digit_count(number):
my_string = list(number.lower())
my_dict = []
for i in np.arange(10):
my_dict.append(my_string.count(str(i)))
return my_dict
速度大约快了 3 倍。但是有没有什么方法可以做得更快(我觉得这个迭代不是最佳的)。
最佳答案
可以先转换index
to_series
,因为apply
尚不适用于 index
。最后apply
value_counts
, fillna
并通过 astype
转换为 int
:
a = (df.index.to_series().apply(lambda x: pd.Series(list(x))))
print (a)
0 1 2 3 4 5 6 7 8 9
0615260518 0 6 1 5 2 6 0 5 1 8
0815465948 0 8 1 5 4 6 5 9 4 8
0215616235 0 2 1 5 6 1 6 2 3 5
0415291826 0 4 1 5 2 9 1 8 2 6
print (a.apply(lambda x: x.value_counts(), axis=1).fillna(0).astype(int))
0 1 2 3 4 5 6 8 9
0615260518 2 2 1 0 0 2 2 1 0
0815465948 1 1 0 0 2 2 1 2 1
0215616235 1 2 2 1 0 2 2 0 0
0415291826 1 2 2 0 1 1 1 1 1
编辑:
from collections import Counter
print (pd.DataFrame([x for x in a.apply(Counter, axis=1)]))
0 1 2 3 4 5 6 8 9
0 2 2 1.0 NaN NaN 2 2 1.0 NaN
1 1 1 NaN NaN 2.0 2 1 2.0 1.0
2 1 2 2.0 1.0 NaN 2 2 NaN NaN
3 1 2 2.0 NaN 1.0 1 1 1.0 1.0
时间(len(df)=4
):
In [288]: %timeit (a.apply(lambda x: x.value_counts(), axis=1))
100 loops, best of 3: 3.74 ms per loop
In [289]: %timeit (pd.DataFrame([x for x in a.apply(Counter, axis=1)]))
1000 loops, best of 3: 1.27 ms per loop
(len(df)=4k
):
In [296]: %timeit (pd.DataFrame([x for x in a.apply(Counter, axis=1)]))
10 loops, best of 3: 87 ms per loop
In [297]: %timeit (a.apply(lambda x: x.value_counts(), axis=1))
1 loop, best of 3: 2.45 s per loop
关于python - 在索引上使用 str.count() 创建一个数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37526889/
目录 count作用 测试 count(*) count(1) count(col) count(id):统计id count(inde
目录 1.初识COUNT 2.COUNT(字段)、COUNT(常量)和COUNT(*)之间的区别 3.COUNT(*)的优化 MyIS
以下 SQL Server 2008 语句之间有什么区别? SELECT COUNT(*) FROM dbo.Regular_Report SELECT COUNT(0) FROM dbo.Regul
如果字符串(短语)中只有元音,它(对我而言)说True;否则说 False。我不明白为什么它总是返回 False,因为 (x >= x) 总是返回 True。我感谢任何人检查此查询的解决方案。 (st
1.概述 在这个文章之前,我一直用count(1) 查询所有数据,以前我们都是说 count(*) 是最慢的。但是这个博客恰恰相反。 对于 count(主键 id) 来说,InnoDB 引擎会遍历整张
这个问题已经有答案了: Count(*) vs Count(1) - SQL Server (13 个回答) 已关闭 8 年前。 我经常发现这三种变体: SELECT COUNT(*) FROM Fo
为什么三个查询的成本相同?我想至少应该有一个更快。否则,只使用关键字 COUNT() 而不是 COUNT(parameter) 就可以了。 例如,以下是不依赖于参数的 COUNT() 示例实现: wh
我有一个“产品”表和一个“评论”表。 我想编写一个查询来返回每个产品的评论的 COUNT 和 AVG。 并且如果没有评论,我希望它为 COUNT 和 AVG 返回 0/null。 产品表 +-----
我会保持简短和亲切,因为我确信我缺少的是一些简单的东西。我正在尝试获取一个 NSMutableArray 的计数,它可以包含可变数量的对象(id 号)。数组是从 JSon 数据创建的,数组本身是完美创
我想知道查询计数的计数。 查询是 sourcetype="cargo_dc_shipping_log" OR sourcetype="cargo_dc_deliver_log" | stats cou
任何人都知道我如何在 SQL 炼金术中进行计数 COUN(IF(table_row = 1 AND table_row2 =2),1,0) 我做了这样的东西, func.COUNT(func.IF((
我有一个有四列的表(销售); id, user_id, product_id, and date_added. 我需要统计某个用户已售出的具有特定 id 的产品数量,并获取该用户当月售出的产品总数。
我是来问这个问题的实现的 MYSQL count of count? 我的问题是将我从一个表中提取结果的结果联系起来,使用它们来查询同一数据库的另一个表 (抱歉,我不是强大的 xySQL)。 我有一个
这是我的查询 SELECT COUNT(*) as total, toys, date FROM T1 WHERE (date >= '2012-06-26'AND date '0') UNION
我有 2 个表:成员,订单。 Members: MemberID, DateCreated Orders: OrderID, DateCreated, MemberID 我想找出给定月份中新成员的数
我最近在一次采访中被问到这个问题。我在 mySQL 中尝试了这个,并得到了相同的结果(最终结果)。All 给出了该特定表中的行数。谁能解释它们之间的主要区别。 最佳答案 没什么,除非您在表格中指定字段
我有一个包含 2157 条记录的表,假设有 3 列(A、B、C),我知道在 A 列中有 2154 个不同的值。 使用连接到 BigQuery 的 Tableau Desktop(及其自身的功能),我得
我试图查看当天的车辆销量,并创建另外两个列来告诉我过去 10 天的销量和过去 20 天的销量。同一天和同一辆车可能有多个销售。我的目标是获取不同的车辆和日期并查看他们的销售数量。 N 天计数应与该行中
我有一个非常简单的问题。我想知道某个数据库行是否存在。 我通常使用: SELECT 1 FROM `my_table` WHERE `field_x` = 'something' 然后我获取结果: $
我想要的输出的描述:我想要两个线程 Gaurav 和 john 完成一个 while 循环(从 1 到 8),这样无论哪个线程启动 ist,都会运行 5 次迭代(即直到 count=5 ) ,然后进入
我是一名优秀的程序员,十分优秀!