gpt4 book ai didi

python - 删除重复的 Pandas 和 SQLAlchemy

转载 作者:行者123 更新时间:2023-12-01 04:43:17 24 4
gpt4 key购买 nike

我正在尝试为调用中心编写一个脚本,希望能够将数百万条记录从 csv 文件上传到数据库,并从上传中过滤掉所有重复的电话号码。为此,我使用 Pandas 和 SQLAlchemy

df = read_csv('test.csv')

rd = models.session.query(Test).all()

我知道 pandas 中有 drop_duplicates() 但只能找到从同一数据帧中删除重复项的示例。这是否适用于我的情况

更新:

这就是我迄今为止在其他人的帮助下所拥有的。

df = read_csv('phones.csv')

result_dict = [u.__dict__ for u in models.session.query(Dedupe).all()]

df['tel'] = df.index

rd = DataFrame.from_dict(result_dict)

print df[~df['tel'].isin(rd['tel'].unique())]

它仍在打印所有 csv。即使有重复

最佳答案

我认为这说明了如何检查数据库中的电话号码。

In [59]:  data = pd.DataFrame(range(10), columns=['number'])

In [60]: data
Out[60]:
number
0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9

In [61]: check = range(5)

In [62]: check
Out[62]: [0, 1, 2, 3, 4]

In [63]: data = data[~data['number'].isin(check)]

In [64]: data
Out[64]:
number
5 5
6 6
7 7
8 8
9 9

数据替换为您的上传表,检查将需要是从数据库中查询到的电话号码列表。

关于python - 删除重复的 Pandas 和 SQLAlchemy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30079856/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com