gpt4 book ai didi

php - SQL从脏数据集创建新数据库

转载 作者:行者123 更新时间:2023-11-29 00:19:30 25 4
gpt4 key购买 nike

我有一个难题:我正在开发一个供内部使用的医疗设备制造商和型号的关系数据库。此数据的来源(来自 FDA 的转储)非常脏,并且以 CSV 格式提供,因此它被导入到一个没有相关键的单个表中。
与此同时,我希望移动导入数据到

  1. 制造商表
  2. 型号表(相对于制造商)

... 由我的应用程序使用

虽然很容易匹配确切的制造商和型号名称,或者通过唯一索引去除特殊字符的制造商和型号名称字符串,但问题似乎是在很多情况下名称有后缀和变体,比如:

  • 圣犹大
  • 圣朱迪斯公司
  • ST JUDES - 神经
  • ST JUDES INC CARDIO
  • 圣犹达国际

理想情况下,一旦从 CSV 导入表移动到我正在开发供内部使用的表结构,所有这些都应该是 1 个制造商记录。

三个也将是每周一次的批处理作业,下载新的 CSV,导入到 CSV 的表中,并更新内部表结构。

我最初的想法是使用 soundex 值的唯一索引或干净的字符串,但在上面的示例中,这些都不起作用。

关于如何完成此任务有什么建议吗?我熟悉 Bash、SQL、PHP 和一点 Python。这是脏 CSV 的一个非常小的片段。所有的CSV,大约有3000万条记录
http://www.accessdata.fda.gov/MAUDE/ftparea/foidev2013.zip

最佳答案

查看 OpenRefine ,旨在进行此类数据规范化/清理。主页上的视频很好地介绍了它的功能。

我上次使用它时它不是完全可批处理的,但可以将您的规范化规则序列化为 JSON 字符串并使用该字符串对新数据集重新应用相同的操作。

关于php - SQL从脏数据集创建新数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21617942/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com