gpt4 book ai didi

mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列

转载 作者:行者123 更新时间:2023-11-29 12:24:19 32 4
gpt4 key购买 nike

有一个免费的public data set具有 300 多个字段。我想创建一个 ETL 过程来更新数据并将其本地存储在 mysql 或 sql 服务器上。由于记录太大而无法放入数据库表中,因此我可能必须进行反规范化,或者可能以不同的方式进行规范化。以下是我的数据集的表示:

+------------+---------+---------+-----+-----------+---------+
| Column1 | Column2 | Column3 | …. | Column319 | ColumnN |
+------------+---------+---------+-----+-----------+---------+
| HUEBERT | ALLISON | L | DR. | | M.D. |
| YOUNGMAYKA | CYNTHIA | | | | P.A. |
| DIFILIPPO | EMIL | A | DR. | | M.D. |
| THACKER | RICHARD | RANDALL | DR. | | D.O. |
| | | | | | |
| ROTHSTEIN | MARK | TERRY | DR. | | M.D. |
| GIBBS | ELMER | RICKEY | DR. | | M.D. |
| MARKMAN | ALAN | WILLIAM | DR. | | M.D. |
| TROTCHIE | DEBBIE | C | | | APN |
| DYSART | STANLEY | H | | | M.D. |
| | | | | | |
| GRUNERT | GEORGE | M | DR. | | M.D. |
| GOLDBERG | STEVEN | M | DR. | | M.D. |
| DUBOSE | JON | | DR. | | MD |
+------------+---------+---------+-----+-----------+---------+

我想通过拥有两个表来以这种方式进行非规范化。

左表:

+------------+---------+---------+
| Column1 | Column2 | Column3 |
+------------+---------+---------+
| HUEBERT | ALLISON | L |
| YOUNGMAYKA | CYNTHIA | |
| DIFILIPPO | EMIL | A |
| THACKER | RICHARD | RANDALL |
| | | |
| ROTHSTEIN | MARK | TERRY |
| GIBBS | ELMER | RICKEY |
| MARKMAN | ALAN | WILLIAM |
| TROTCHIE | DEBBIE | C |
| DYSART | STANLEY | H |
| | | |
| GRUNERT | GEORGE | M |
| GOLDBERG | STEVEN | M |
| DUBOSE | JON | |
+------------+---------+---------+

右表:

+-----+-----------+---------+
| …. | Column319 | ColumnN |
+-----+-----------+---------+
| DR. | | M.D. |
| | | P.A. |
| DR. | | M.D. |
| DR. | | D.O. |
| | | |
| DR. | | M.D. |
| DR. | | M.D. |
| DR. | | M.D. |
| | | APN |
| | | M.D. |
| | | |
| DR. | | M.D. |
| DR. | | M.D. |
| DR. | | MD |
+-----+-----------+---------+

整个数据集可能有 10 GB,或者大约 500 万行,实际上可能需要 4-6 个连接才能获取整行数据。

处理需要以这种方式分区的数据的标准是什么?

可以查看前1000条记录的excel文件here

最佳答案

请阅读范式。互联网上有大量关于此的 Material 。例如this poster似乎是很好的概述。或者这个视频:Normalisation Demonstration , Database Normalization - Explained with Examples

一般来说,一张表应该“关于”一个实体,例如地址、人员、业务部门等。

例如,在此数据集中,提供商组织名称(合法企业名称)列,提供者姓氏(法定名称),提供者名字,提供商中间名,提供商名称前缀文本,提供商名称后缀文本,提供商凭证文本,似乎与一个实体(提供商?)有关。

列提供者其他组织名称,提供者其他组织名称类型代码,提供者其他姓氏,提供者其他名字,提供商其他中间名,提供商其他名称前缀文本,提供商其他名称后缀文本,提供者其他凭证文本,提供商其他姓氏类型代码似乎与第二个提供商实体有关。

列提供商一线业务邮寄地址,提供商二线业务邮寄地址,提供商企业邮寄地址城市名称,提供商企业邮寄地址 州名称,提供商业务邮寄地址邮政编码,提供商企业邮寄地址国家/地区代码(如果在美国境外),提供商业务邮寄地址电话号码,提供商业务邮寄地址传真号码似乎与地址实体有关。

列集提供商业务实践位置...似乎是另一个地址。

授权官方姓氏,授权官方名字,授权官方中间名,授权的官方头衔或职位,授权官方电话号码可以是另一个实体。

医疗保健提供者分类代码_n,提供商许可证号_n,提供商许可证号州代码_n,医疗保健提供者主要分类法 Switch_n(其中 n 为 1 到 15)似乎是另一个实体的实例列表。

与其他提供商标识符_n相同,其他提供商标识符类型 Code_n,其他提供商标识符 State_n,其他提供商标识符 Issuer_n

以及医疗保健提供者分类组_n - 这里似乎是一个字段实体。

关于mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28570132/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com