gpt4 book ai didi

python - 来自数据框 Pandas 的数据的多线程

转载 作者:太空狗 更新时间:2023-10-29 22:21:34 26 4
gpt4 key购买 nike

我正在努力使用多线程来计算购物篮中有不同购物项目的客户列表之间的相关性。所以我有一个包含 1,000 个客户的 pandas 数据框,这意味着我必须计算相关性 100 万次,这需要很长时间才能处理

数据框的示例如下所示:

  ID     Item       
1 Banana
1 Apple
2 Orange
2 Banana
2 Tomato
3 Apple
3 Tomato
3 Orange

这是代码的简化版本:

import pandas as pd

def relatedness (customer1, customer2):
# do some calculations to measure the relation between the customers

data= pd.read_csv(data_file)
customers_list= list (set(data['ID']))

relatedness_matrix = pd.DataFrame(index=[customers_list], columns=[customers_list])
for i in customers_list:
for j in customer_list:
relatedness_matrix.loc[i,j] = relatedness (i,j)

最佳答案

正在寻找关于使用 pandas DataFrame 进行大量计算的相同问题并找到了

DASK http://dask.pydata.org/en/latest/

(来自这个 SO https://datascience.stackexchange.com/questions/172/is-there-a-straightforward-way-to-run-pandas-dataframe-isin-in-parallel )

希望对你有帮助

关于python - 来自数据框 Pandas 的数据的多线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37312109/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com