gpt4 book ai didi

python - 基于另一个数据集过滤一个数据集

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:38:45 25 4
gpt4 key购买 nike

我有很多用户,他们有最喜欢的颜色。我有一个数据集——它的每条记录都有颜色数据——我想给每个用户发送一封电子邮件。在每封电子邮件中,用户将看到根据他/她最喜欢的颜色过滤的数据,这意味着我需要根据他们最喜欢的颜色过滤此数据集。

例如;用户最喜欢的颜色是这样的:
[用户 1:(“绿色”,“黄色”),用户 2:(“绿色,蓝色”),用户 3:(“红色”),用户 4:(“橙色”,“紫色”,“红色”),用户 5:(“蓝色”,“黄色”)...]

我怎样才能根据用户最喜欢的颜色有效地过滤这个数据集?

最直接的方法是循环遍历用户列表,并在每次迭代中按当前用户最喜欢的颜色过滤数据集。但是,这可能会导致对相同或常见颜色的冗余查询。所以,如果我有 100 万用户,那么我将对同一个数据集进行 100 万次查询。

有人可以提出一个让这个过程更优雅的想法吗?我会用 Python 来做,但答案可以与语言无关。

最佳答案

扩展@jake2389 的想法,您可以使用多种技巧。你真正能做什么在很大程度上取决于你的数据集有多大,以及你可以将它放入内存(或数据库)中的次数。提高性能的明显方法是进行一些缓存。假设您有一个方法 getRecordsForColors(colors) 执行真正的过滤(或对数据库的真正查询)。一些非常天真的方法会像这样(注意我没有尝试这段代码所以可能会有很多小错误):

cache = dict()

def getRecordsCached(colors):
global cache
if colors not in cache:
records = getRecordsForColors(colors)
cache[colors] = records
return records
else:
return cache[colors]

这种方法的明显缺点是您必须在缓存中保存所有颜色组合,即使只有 1 个用户使用它们也是如此,而且这可能很多。

更聪明的方法可能是选择一些阈值,例如您可以存储所有组合的 3 种颜色:

cache = dict()

def getRecordsCached(colors):
global cache
if colors not in cache:
records = getRecordsForColors(colors)
if len(colors) < threshold:
cache[colors] = records
return records
else:
return cache[colors]

这将覆盖大部分用户,那些具有罕见长组合的用户将产生一些重复的查询。

显然,您根本不必使用简单的基于 dict 的缓存或内存缓存。您可以将数据缓存在同一个数据库中,也可以使用一些专门用于缓存的数据库,例如 Memcached 或 Redis。此外,您可以使用一些支持 LRU 缓存或 some other replacement police 的专用缓存库,而不是 colors 长度形式的阈值。

最后,如果您的逻辑是给定颜色集的结果只是每种颜色结果的并集,您可以尝试通过单独缓存每种颜色的结果来覆盖客户端那些罕见的大颜色组合,并且然后,如果颜色组合不直接在缓存中,则通过合并每种颜色的缓存结果中的项目来计算它。

关于python - 基于另一个数据集过滤一个数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54245053/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com