gpt4 book ai didi

python - Pandas - 根据行值生成唯一 ID

转载 作者:行者123 更新时间:2023-12-03 16:49:45 25 4
gpt4 key购买 nike

我想为用户生成一个基于整数的唯一 ID(在我的 df 中)。

假设我有:

index  first  last    dob
0 peter jones 20000101
1 john doe 19870105
2 adam smith 19441212
3 john doe 19870105
4 jenny fast 19640822

我想像这样生成一个 ID 列:
index  first  last    dob       id
0 peter jones 20000101 1244821450
1 john doe 19870105 1742118427
2 adam smith 19441212 1841181386
3 john doe 19870105 1742118427
4 jenny fast 19640822 1687411973

10 位 ID,但它基于字段的值(john doe 相同的行值获得相同的 ID)。

我研究了散列、加密、UUID,但找不到与这个特定的非安全用例有太多关系。它只是生成一个内部标识符。
  • 我不能使用 groupby/cat 代码类型方法,以防
    行改变。
  • 数据集不会超过 50k 行。
  • 可以安全地假设不会有第一个,最后一个,dob 重复。

  • 感觉我可能以错误的方式解决这个问题,因为我找不到太多关于它的文献!

    谢谢

    最佳答案

    您可以尝试使用哈希函数。

    df['id'] = df[['first', 'last']].sum(axis=1).map(hash)

    请注意哈希 id 大于 10 位并且是唯一的整数序列。

    关于python - Pandas - 根据行值生成唯一 ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60393668/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com