gpt4 book ai didi

database - 启发式查找文本文件中的主键

转载 作者:搜寻专家 更新时间:2023-10-30 20:08:56 26 4
gpt4 key购买 nike

我正在寻找一个库来从文本文件中找到主键。想象一下,我有一个 CSV 文件,但我不知道哪一列是主键。有没有图书馆可以帮助我做到这一点(使用某种启发式方法)?

最佳答案

我相信不知道文件中的哪个字段(如果有的话)是主键不是编程问题,而是业务问题。这是我会发回公司以获得答案的东西。原因如下。

首先,预期为主键但不在文件的特定版本中的内容通常表明该文件存在问题,不应对其进行处理。例如,在我的工作中,我经常需要处理可能以 CSV 格式提供的销售名册。在它们中,任何销售销售区域都应该是唯一的。这是商业规则。有时我们得到的花名册不是唯一的,但我们无法导入,因为两个人不能同时分配到同一地区。通常是一个人离开另一个人代替他的问题,但是我们无法知道这两个记录中的哪一个是正确的。因此导入失败。但是,以编程方式检查包含此类信息的文件将无法将其作为 PK 找到,因为它在文件中不是唯一的,而它应该是唯一的。

接下来,在首次处理文件时检查列中唯一数据的存在性并不能保证数据会随着时间的推移保持唯一性,或者它作为 PK 是有意义的。

例如,邮政编码在今天可能是唯一的,但三周后可能就不是了,因为有新人加入。

除非文件仅与邮政编码有关,否则邮政编码也不太可能成为候选 PK。

零件号是另一种情况,它可能看起来是唯一的但不在 CSV 文件中,因为来自不同制造商的零件可能具有相同的零件号,因此唯一性来自零件号和制造商的组合。但这又是一个商业规则,因为一些制造商可能对同一事物的不同版本使用相同的零件号,例如不同颜色的版本,而其他制造商可能有一个商业规则,它们是独一无二的。如果不知道数据对提供文件和使用数据的特定人员的意义,您就不知道它是否应该是 PK。

PK 的确定不仅仅与数据的唯一性有关,还与数据的含义有关。是的,您可以识别可能的 PK(然后像上面描述的第一种情况一样,您使用自动化工具可能会出错)进行检查,但您不应该在不解决数据含义的情况下自动选择一个。

关于database - 启发式查找文本文件中的主键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31464485/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com