python - 通过两个 Pandas DataFrame 加速嵌套 for 循环-6ren

python - 通过两个 Pandas DataFrame 加速嵌套 for 循环

转载作者：太空宇宙更新时间：2023-11-04 04:58:02

25

4

我将纬度和经度存储在 pandas 数据框 (df) 中，填充点为 NaN 用于 stop_id、stoplat、stoplon，在另一个数据框 areadf 中，它包含更多的纬度/经度和任意 id；这是要填充到 df 中的信息。

我正在尝试将两者连接起来，以便 df 中的停止列包含有关最接近该纬度/经度点的停止的信息，或者将其保留为 NaN如果在该点的半径 R 内没有停靠点。

现在我的代码如下，但它需要很长时间(我正在运行的代码 > 40 分钟，然后将区域更改为 df 并使用 itertuples；不确定这有多大差异会做吗？)因为每组数据都有数千个纬度/经度点和停靠点，这是一个问题，因为我需要在多个文件上运行它。我正在寻找让它运行得更快的建议。我已经做了一些非常小的改进(例如，移动到数据框，使用 itertuples 而不是 iterrows，在循环之外定义 lats 和 lons 以避免在每个循环中都从 df 检索它)但我没有想法加快速度。 getDistance 使用定义的 Haversine 公式来获取 parking 标志与给定经纬度点之间的距离。

import pandas as pd
from math import cos, asin, sqrt

R=5
lats = df['lat']
lons = df['lon']
for stop in areadf.itertuples():
    for index in df.index:
        if getDistance(lats[index],lons[index],
                       stop[1],stop[2]) < R:
            df.at[index,'stop_id'] = stop[0] # id
            df.at[index,'stoplat'] = stop[1] # lat
            df.at[index,'stoplon'] = stop[2] # lon

def getDistance(lat1,lon1,lat2,lon2):
    p = 0.017453292519943295     #Pi/180
    a = (0.5 - cos((lat2 - lat1) * p)/2 + cos(lat1 * p) * 
         cos(lat2 * p) * (1 - cos((lon2 - lon1) * p)) / 2)
    return 12742 * asin(sqrt(a)) * 100

示例数据:

df
lat        lon         stop_id    stoplat    stoplon
43.657676  -79.380146  NaN        NaN        NaN
43.694324  -79.334555  NaN        NaN        NaN

areadf
stop_id    stoplat    stoplon
0          43.657675  -79.380145
1          45.435143  -90.543253

期望:

df
lat        lon         stop_id    stoplat    stoplon
43.657676  -79.380146  0          43.657675  -79.380145
43.694324  -79.334555  NaN        NaN        NaN

最佳答案

一种方法是使用 here 中的 numpy haversine 函数, 只需稍微修改一下，以便您可以考虑所需的半径。

只需使用 apply 遍历 df 并在给定半径内找到最接近的值

def haversine_np(lon1, lat1, lon2, lat2,R):
    """
    Calculate the great circle distance between two points
    on the earth (specified in decimal degrees)
    All args must be of equal length.    
    """
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])
    dlon = lon2 - lon1
    dlat = lat2 - lat1
    a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2
    c = 2 * np.arcsin(np.sqrt(a))
    km = 6367 * c
    if km.min() <= R:
        return km.argmin()
    else:
        return -1

df['dex'] = df[['lat','lon']].apply(lambda row: haversine_np(row[1],row[0],areadf.stoplon.values,areadf.stoplat.values,1),axis=1)

然后合并两个数据框。

df.merge(areadf,how='left',left_on='dex',right_index=True).drop('dex',axis=1)

         lat        lon  stop_id    stoplat    stoplon
0  43.657676 -79.380146      0.0  43.657675 -79.380145
1  43.694324 -79.334555      NaN        NaN        NaN

注意:如果您选择遵循此方法，则必须确保两个数据帧索引都已重置，或者它们按顺序从 0 到 df 的总 len 排序。因此，请务必在运行此之前重置索引。

df.reset_index(drop=True,inplace=True)
areadf.reset_index(drop=True,inplace=True)

关于python - 通过两个 Pandas DataFrame 加速嵌套 for 循环，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46572860/

25

4

0

文章推荐： python - Pandas 数据框中两列的条件测试和比较

文章推荐： c - 我怎样才能让 swig 包装一个链表类型的结构？

文章推荐： iphone - 花栗鼠物理学 : Velocity question

dataframe - 将 DataFrame 的集合组合成一个大的 DataFrame
假设我有 3 个 DataFrame。其中一个 DataFrame 的列名不在其他两个中。 using DataFrames df1 = DataFrame([['a', 'b', 'c'], [1,
dataframe - 将 DataFrame 的集合组合成一个大的 DataFrame
假设我有 3 个 DataFrame。其中一个 DataFrame 的列名不在其他两个中。 using DataFrames df1 = DataFrame([['a', 'b', 'c'], [1,
dataframe - 根据指定拒绝列表条件的另一个 DataFrame 过滤 Spark DataFrame
我有一个 largeDataFrame(多列和数十亿行)和一个 smallDataFrame(单列和 10,000 行)。只要 largeDataFrame 中的 some_identifier 列
dataframe - Julia:将 DataFrame 传递给函数会创建一个指向 DataFrame 的指针吗？
我有一个函数，可以在其中规范化 DataFrame 的前 N 列。我想返回规范化的 DataFrame，但不要管原来的。然而，该函数似乎也会对传递的 DataFrame 进行变异! using D
dataframe - 如何创建具有指定模式的空 DataFrame？
我想在 Scala 中使用指定架构在 DataFrame 上创建。我尝试过使用 JSON 读取(我的意思是读取空文件)，但我认为这不是最佳实践。最佳答案假设您想要一个具有以下架构的数据框: roo
dataframe - 如何改变 DataFrame？
我正在尝试从数据框中删除一些列，并且不希望返回修改后的数据框并将其重新分配给旧数据框。相反，我希望该函数只修改数据框。这是我尝试过的，但它似乎并没有做我所除外的事情。我的印象是参数是作为引用传递的，而
python - Pandas - 将一个大的 DataFrame 分成几个小的 DataFrame 并通过一个函数运行每个 DataFrame
我有一个包含大约 60000 个数据的庞大数据集。我会首先使用一些标准对整个数据集进行分组，接下来我要做的是将整个数据集分成标准内的许多小数据集，并自动对每个小数据集运行一个函数以获取参数对于每个小数
python - 将 DataFrame 拆分为两个 DataFrame 并过滤这两个 DataFrame 以获得相同的维度
我遇到了以下问题，并有一个想法来解决它，但没有成功:我有一个月内每个交易日的 DAX 看涨期权和看跌期权数据。经过转换和一些计算后，我有以下 DataFrame: DaxOpt 。现在的目标是消除没有
python - Pandas:将小 DataFrame 合并为大 DataFrame，用小 DataFrame 覆盖
我正在尝试做一些我认为应该是单行的事情，但我正在努力把它做好。我有一个大数据框，我们称之为lg，还有一个小数据框，我们称之为sm。每个数据帧都有一个 start 和一个 end 列，以及多个其他列所
python - 我如何(或者应该)将 DataFrame 的 DataFrame 转换为多索引 DataFrame？
我有一个像这样的系列数据帧的数据帧: state1 state2 state3 ... sym1 sym
python - pandas dataframe 通过复制前一个 dataframe 的 n 次行并更改日期来创建一个新的 dataframe
我有一个大约有 9k 行和 57 列的数据框，这是“df”。我需要一个新的数据框:'df_final'- 对于“df”的每一行，我必须将每一行复制“x”次，并将每一行中的日期逐一增加，也就是“x”次
python - 为什么使用 read_csv() 创建的 DataFrame 与使用相同数据的 DataFrame() 创建的另一个 DataFrame 不同？
假设有一个 csv 文件如下: # data.csv 0,1,2,3,4 a,3.0,3.0,3.0,3.0,3.0 b,3.0,3.0,3.0,3.0,3.0 c,3.0,3.0,3.0,3.0,3
python - Pandas 将 DataFrame 求和到一个更大的 DataFrame 中，该 DataFrame 已经包含具有相同列名的相同索引
我只想知道是否有人对以下问题有更优雅的解决方案: 我有两个 Pandas DataFrame: import pandas as pd df1 = pd.DataFrame([[1, 2, 3], [
python - 将 pyspark.sql.dataframe.DataFrame 类型 Dataframe 转换为 Dictionary
我有一个 pyspark 数据框，我需要将其转换为 python 字典。下面的代码是可重现的: from pyspark.sql import Row rdd = sc.parallelize([R
dataframe - 在 DataFrame 链中分配中间结果
我有一个 DataFrame，我想在 @chain 的帮助下对其进行处理。如何存储中间结果？ using DataFrames, Chain df = DataFrame(a = [1,1,2,2,2
dataframe - Julia DataFrame 中的多个条件
我有一个包含 3 列的 DataFrame，名为 :x :y 和 :z，它们是 Float64 类型。 :x 和 "y 在 (0,1) 上是 iid uniform 并且 z 是 x 和 y 的总和。
dataframe - PySpark DataFrame 过滤器列包含多个值
这个问题在这里已经有了答案: pyspark dataframe filter or include based on list (3 个答案) 关闭 2 年前。只是想知道是否有任何有效的方法来过
dataframe - Julia - DataFrame 的频率表
我刚找到这个包FreqTables ，它允许人们轻松地从 DataFrames 构建频率表(我正在使用 DataFrames.jl)。以下代码行返回一个频率表: df = CSV.read("exa
dataframe - Julia DataFrames 中的高效自定义排序？
是否有一种快速的方法可以为 sort 指定自定义订单？/sort!在 Julia DataFrames 上？ julia> using DataFrames julia> srand(1); juli
dataframe - Julia Dataframes 中的重复列
在 Python Pandas 和 R 中，可以轻松去除重复的列 - 只需加载数据、分配列名，然后选择那些不重复的列。使用 Julia Dataframes 处理此类数据的最佳实践是什么？此处不允许

首页

博学

6Ren·AI

商城

python - 通过两个 Pandas DataFrame 加速嵌套 for 循环