python - 加快附近组的计算？-6ren

python - 加快附近组的计算？

转载作者：太空狗更新时间：2023-10-29 20:25:04

25

4

我有一个包含组 ID、两个距离度量(经度/纬度类型度量)和一个值的数据框。对于一组给定的距离，我想找到附近其他组的数量，以及附近其他组的平均值。

我已经编写了以下代码，但它的效率太低，以至于对于非常大的数据集，它根本无法在合理的时间内完成。附近零售商的计算很快。但是计算附近零售商的平均值非常慢。有没有更好的方法来提高效率？

distances = [1,2]

df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)),
                  columns=['Group','Dist1','Dist2','Value'])

# get one row per group, with the two distances for each row
df_groups = df.groupby('Group')[['Dist1','Dist2']].mean()

# create KDTree for quick searching
tree = cKDTree(df_groups[['Dist1','Dist2']])

# find points within a given radius
for i in distances:
    closeby = tree.query_ball_tree(tree, r=i)

    # put into density column
    df_groups['groups_within_' + str(i) + 'miles'] = [len(x) for x in closeby]

    # get average values of nearby groups
    for idx, val in enumerate(df_groups.index):
        val_idx = df_groups.iloc[closeby[idx]].index.values
        mean = df.loc[df['Group'].isin(val_idx), 'Value'].mean()
        df_groups.loc[val, str(i) + '_mean_values'] = mean

    # merge back to dataframe
    df = pd.merge(df, df_groups[['groups_within_' + str(i) + 'miles', 
                                 str(i) + '_mean_values']], 
                  left_on='Group', 
                  right_index=True)

最佳答案

很明显，问题出在使用 isin 方法索引主数据框。随着数据帧长度的增长，必须进行更大的搜索。我建议您在较小的 df_groups 数据框上进行相同的搜索，并改为计算更新后的平均值。

df = pd.DataFrame(np.random.randint(0,100,size=(100000, 4)),
                  columns=['Group','Dist1','Dist2','Value'])
distances = [1,2]
# get means of all values and count, the totals for each sample
df_groups = df.groupby('Group')[['Dist1','Dist2','Value']].agg({'Dist1':'mean','Dist2':'mean',
                                                                  'Value':['mean','count']})
# remove multicolumn index
df_groups.columns = [' '.join(col).strip() for col in df_groups.columns.values]
 #Rename columns 
df_groups.rename(columns={'Dist1 mean':'Dist1','Dist2 mean':'Dist2','Value mean':'Value','Value count':
                          'Count'},inplace=True)


# create KDTree for quick searching
tree = cKDTree(df_groups[['Dist1','Dist2']])

for i in distances:
    closeby = tree.query_ball_tree(tree, r=i)
    # put into density column
    df_groups['groups_within_' + str(i) + 'miles'] = [len(x) for x in closeby]
    #create column to look for subsets
    df_groups['subs'] = [df_groups.index.values[idx] for idx in closeby]
    #set this column to prep updated mean calculation
    df_groups['ComMean'] = df_groups['Value'] * df_groups['Count']

    #perform updated mean
    df_groups[str(i) + '_mean_values'] = [(df_groups.loc[df_groups.index.isin(row), 'ComMean'].sum() /
                                          df_groups.loc[df_groups.index.isin(row), 'Count'].sum()) for row in df_groups['subs']]
    df = pd.merge(df, df_groups[['groups_within_' + str(i) + 'miles',
                                 str(i) + '_mean_values']],
                  left_on='Group',
                  right_index=True)

更新均值的公式是 (m1*n1 + m2*n2)/(n1+n2)

old setup 

100000 rows
%timeit old(df)
1 loop, best of 3: 694 ms per loop

1000000 rows
%timeit old(df)
1 loop, best of 3: 6.08 s per loop

10000000 rows
%timeit old(df)
1 loop, best of 3: 6min 13s per loop

新设置

100000 rows
%timeit new(df)
10 loops, best of 3: 136 ms per loop

1000000 rows
%timeit new(df)
1 loop, best of 3: 525 ms per loop

10000000 rows
%timeit new(df)
1 loop, best of 3: 4.53 s per loop

关于python - 加快附近组的计算？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45373501/

25

4

0

文章推荐： c# - IEnumerable 在底层与 IObservable 有何不同？

文章推荐： c++ - 模板特化不适用于派生类

文章推荐： c++ - 为什么跳过 std::getline()？

文章推荐： c++ - 访问 C++ 容器中元素的最有效方法是什么？

SQL子查询错误，附近)
我的子查询给出了一个错误:Msg 102, Level 15, State 1, Line 17 Incorrect syntax near ')'. SELECT SalesArea, Branch
sql - SQL语法错误:“(”附近
当我尝试运行此查询时： select branch_no, max (avg_salary) from (select allocatedto, avg (salary) from sta
mysql - 意想不到的角色。 ( "\"附近
所以我正在更新 phpmyadmin 中的表。数据在里面，列已成功创建。当我尝试使用下面的代码添加图像时，出现此错误 Unexpected character. (near "\" at positi
mysql - 意想不到的性格。 (在 "?"附近)
我正在尝试在 phpMyAdmin 中执行以下查询，但出现错误。我已经查看过类似的问题，但我仍然无法弄清楚为什么它不起作用。 INSERT INTO discussion_forum (event_t
C 程序卡在 strcmp 附近
我正在用 C 构建一个 client-server socket 模拟我接受来自客户端的 TCP 连接然后客户端发送消息到我的服务器。我已成功收到消息，然后遍历 structs 的 array 以
sqlite - 错误在 'Autoincrement' 附近
我在 AUTOINCREMENT 附近遇到语法错误。这个错误的原因是什么？ CREATE TABLE person ( id INTEGER NOT NULL AUTOINCREMENT,
java - SQLite: "DATABASE"附近:语法错误
当我尝试使用 java 在 SQLite 中以编程方式创建数据库时，它会在控制台中生成以下错误。 java.sql.SQLException: near "DATABASE": syntax erro
sqlite - 错误:“DISTINCT”附近:语法错误
我似乎无法弄清楚出了什么问题。我尝试查询的子部分，但仍然无法解决问题。表格格式： poi(id int, minX float, minY float, maxX float, maxY float
compiler-errors - “'附近” : syntax error
我在VHDL中编写了以下代码: library IEEE ; use IEEE.STD_LOGIC_1164.all ; entity encoder is port( x : in std_
lua - 预计在 'end' 附近
我在我的游戏服务器中使用这些文件，每次我添加一个新的玩家模型时，我都会得到 [ERROR] lua/autorun/server/fastdlskins.lua:938: '' expected ne
java - 缺少数据库( "where": syntax error) 附近
我正在尝试更新我的 sqlite3 数据库，但出现此错误。我能够成功地将数据插入同一数据库，但无法更新它。请帮忙。 [SQLITE_ERROR] SQL error or missing databa
c# - .NET:如何将我的窗口放在通知区域(系统托盘)附近？
我想在通知区域旁边显示一个小弹出窗口。它类似于 Outlook/Skype/Live! Messenger/etc 在显示有关新消息的通知时会执行此操作。在我的例子中，它将有一些输入控件(文本框、日期
sql - gorp: "auto_increment"附近:语法错误
我正在尝试编写简单的程序以使用 gorp 将行插入表中，但在创建表时出现错误。代码如下: package main import _ "github.com/mattn/go-sqlite3" im
Octave 音阶错误文件名未定义在行 x 列 y 附近
我正在尝试运行工作目录中的 Octave 文件，但出现错误。 Octave 似乎没有认识到它应该运行该文件。 unknown@unknown> dir .
syntax-error - “when”附近: syntax error in VHDL
我正在尝试编写一些代码来模拟具有两个三态缓冲器和VHDL中的上拉电阻的电路。下面是我的代码: library ieee; use ieee.std_logic_1164.all; entity Pul
java - SQL 错误或丢失数据库( "?": syntax error) 附近
你能好心告诉我这里出了什么问题吗？ conn 是 DriverManager.getConnection(DB_URL) try { PreparedState
sqlite - 在“SET”附近:语法错误，尝试设置隔离级别时
我想在go中创建一个事务，同时这样做会出现错误:near "SET": syntax error。代码: db.Exec("SET TRANSACTION ISOLATION LEVEL REPEAT
r - 使用 RColorBrewer 将颜色集中在 0 附近
所以我想用这样的颜色可视化一个矩阵 library(RColorBrewer) vec = rbinom(10000,1,0.1) n = sum(vec) vec = ifelse(vec == 1
java - SQL 错误或丢失数据库( “?” : syntax error) 附近
private static final String QUERY = "SELECT * FROM " + TABLE_SONG_DETAILS + " WHERE " + TABLE_SONG_D
MySQL - 创建触发器错误 1064( 'DELIMITER ; ' 附近)
希望大家一切都好。我正在尝试创建一个 mysql 触发器，但是我不断收到以下错误: [Err] 1064 - You have an error in your SQL syntax; check

首页

博学

6Ren·AI

商城

python - 加快附近组的计算？