- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
有一个免费的public data set具有 300 多个字段。我想创建一个 ETL 过程来更新数据并将其本地存储在 mysql 或 sql 服务器上。由于记录太大而无法放入数据库表中,因此我可能必须进行反规范化,或者可能以不同的方式进行规范化。以下是我的数据集的表示:
+------------+---------+---------+-----+-----------+---------+
| Column1 | Column2 | Column3 | …. | Column319 | ColumnN |
+------------+---------+---------+-----+-----------+---------+
| HUEBERT | ALLISON | L | DR. | | M.D. |
| YOUNGMAYKA | CYNTHIA | | | | P.A. |
| DIFILIPPO | EMIL | A | DR. | | M.D. |
| THACKER | RICHARD | RANDALL | DR. | | D.O. |
| | | | | | |
| ROTHSTEIN | MARK | TERRY | DR. | | M.D. |
| GIBBS | ELMER | RICKEY | DR. | | M.D. |
| MARKMAN | ALAN | WILLIAM | DR. | | M.D. |
| TROTCHIE | DEBBIE | C | | | APN |
| DYSART | STANLEY | H | | | M.D. |
| | | | | | |
| GRUNERT | GEORGE | M | DR. | | M.D. |
| GOLDBERG | STEVEN | M | DR. | | M.D. |
| DUBOSE | JON | | DR. | | MD |
+------------+---------+---------+-----+-----------+---------+
我想通过拥有两个表来以这种方式进行非规范化。
左表:
+------------+---------+---------+
| Column1 | Column2 | Column3 |
+------------+---------+---------+
| HUEBERT | ALLISON | L |
| YOUNGMAYKA | CYNTHIA | |
| DIFILIPPO | EMIL | A |
| THACKER | RICHARD | RANDALL |
| | | |
| ROTHSTEIN | MARK | TERRY |
| GIBBS | ELMER | RICKEY |
| MARKMAN | ALAN | WILLIAM |
| TROTCHIE | DEBBIE | C |
| DYSART | STANLEY | H |
| | | |
| GRUNERT | GEORGE | M |
| GOLDBERG | STEVEN | M |
| DUBOSE | JON | |
+------------+---------+---------+
右表:
+-----+-----------+---------+
| …. | Column319 | ColumnN |
+-----+-----------+---------+
| DR. | | M.D. |
| | | P.A. |
| DR. | | M.D. |
| DR. | | D.O. |
| | | |
| DR. | | M.D. |
| DR. | | M.D. |
| DR. | | M.D. |
| | | APN |
| | | M.D. |
| | | |
| DR. | | M.D. |
| DR. | | M.D. |
| DR. | | MD |
+-----+-----------+---------+
整个数据集可能有 10 GB,或者大约 500 万行,实际上可能需要 4-6 个连接才能获取整行数据。
处理需要以这种方式分区的数据的标准是什么?
可以查看前1000条记录的excel文件here 。
最佳答案
请阅读范式。互联网上有大量关于此的 Material 。例如this poster似乎是很好的概述。或者这个视频:Normalisation Demonstration , Database Normalization - Explained with Examples
一般来说,一张表应该“关于”一个实体,例如地址、人员、业务部门等。
例如,在此数据集中,提供商组织名称(合法企业名称)列,提供者姓氏(法定名称),提供者名字,提供商中间名,提供商名称前缀文本,提供商名称后缀文本,提供商凭证文本,似乎与一个实体(提供商?)有关。
列提供者其他组织名称,提供者其他组织名称类型代码,提供者其他姓氏,提供者其他名字,提供商其他中间名,提供商其他名称前缀文本,提供商其他名称后缀文本,提供者其他凭证文本,提供商其他姓氏类型代码似乎与第二个提供商实体有关。
列提供商一线业务邮寄地址,提供商二线业务邮寄地址,提供商企业邮寄地址城市名称,提供商企业邮寄地址 州名称,提供商业务邮寄地址邮政编码,提供商企业邮寄地址国家/地区代码(如果在美国境外),提供商业务邮寄地址电话号码,提供商业务邮寄地址传真号码似乎与地址实体有关。
列集提供商业务实践位置...似乎是另一个地址。
授权官方姓氏,授权官方名字,授权官方中间名,授权的官方头衔或职位,授权官方电话号码可以是另一个实体。
医疗保健提供者分类代码_n,提供商许可证号_n,提供商许可证号州代码_n,医疗保健提供者主要分类法 Switch_n(其中 n 为 1 到 15)似乎是另一个实体的实例列表。
与其他提供商标识符_n相同,其他提供商标识符类型 Code_n,其他提供商标识符 State_n,其他提供商标识符 Issuer_n
以及医疗保健提供者分类组_n - 这里似乎是一个字段实体。
关于mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28570132/
本周我将在 Windows Server 2008 上设置一个专用的 SQL Server 2005 机器,并希望将其精简为尽可能简单,同时仍能发挥全部功能。 为此,“服务器核心”选项听起来很有吸引力
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 8 年前。 Improve
我获取了 2014 版本数据库的备份,并尝试在另一台服务器中将其恢复到具有相同名称和登录名的数据库中。此 SQL Server 版本是 2016。 恢复备份文件时,出现此错误: TITLE: Micr
我获取了 2014 版本数据库的备份,并尝试在另一台服务器中将其恢复到具有相同名称和登录名的数据库中。此 SQL Server 版本是 2016。 恢复备份文件时,出现此错误: TITLE: Micr
TFS 是否提供任何增强的方法来存储对 sql server 数据库所做的更改,而不是使用它来对在数据库上执行的 sql 语句的文本文件进行版本控制? 或者我正在寻找的功能是否仅在第 3 方工具(如
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
我即将将我的 SQL Server 2012 实例升级到 SQL Server 2014。 我已经克隆了主机 Windows VM 并将其重命名为 foo-2012至 foo-2014 . 重新启动时
我想为 SQL Server 登录授予对数据库的访问权限。我知道 sp_grantdbaccess,但它已被弃用。我可以改用什么以及如何检查登录名是否还没有访问数据库的权限? 场景:UserA 创建数
客户别无选择,只能在接下来的几天内从 sql server 2000 迁移到 2008。测试显示 2005 年的重要功能出现了 Not Acceptable 性能下降,但 2008 年却没有。好消息是
我有一个测试数据库,我需要将其导出到我们客户的测试环境中。 这将是一次性的工作。 我正在使用 SQL Server 2005(我的测试数据库是 SQL Server 2005 Express) 执行此
我需要将一个 CSV 文件导入到 mongoDB 不幸的是我遇到了以下错误: error connecting to host: could not connect to server: se
我以为 R2 是一个补丁/服务包。我一直在寻找下载,但没有看到。因此,我假设 R2 是一个新版本,并且我需要 sqlserver 2008 r2 的安装介质来进行升级? 另外,我需要为新许可证付费吗?
我无法使用 SQL Server Management Studio 连接到 SQL Server。 我有一个连接字符串: 我尝试通过在服务器名中输入 myIP、在登录名中输入 MyID、在密码中
我们希望使用 SQL Server 加密来加密数据库中的几个列。我们还需要在生产和测试环境之间传输数据。看来最好的解决方案是在生产和测试服务器上使用相同的主 key 、证书和对称 key ,以便我可以
有没有可以分析 SQL Server 数据库潜在问题的工具? 例如: a foreign key column that is not indexed 没有 FILL FACTOR 的 uniquei
我正在尝试从我的 SQL 2012 BI 版本建立复制,但我收到一条奇怪的错误消息! "You cannot create a publication from server 'X' because
如果您使用 SQL Server 身份验证 (2005),登录详细信息是否以明文形式通过网络发送? 最佳答案 如您所愿,安全无忧... 您可以相当轻松地配置 SSL,如果您没有受信任的证书,如果您强制
我想将数据从一个表复制到不同服务器之间的另一个表。 如果是在同一服务器和不同的数据库中,我使用了以下 SELECT * INTO DB1..TBL1 FROM DB2..TBL1 (to copy w
我希望得到一些帮助,因为我在这个问题上已经被困了 2 天了! 场景:我可以从我的开发计算机(和其他同事)连接到 SERVER\INSTANCE,但无法从另一个 SQL Server 连接。我得到的错误
我正在尝试从我的 SQL 2012 BI 版本建立复制,但我收到一条奇怪的错误消息! "You cannot create a publication from server 'X' because
我是一名优秀的程序员,十分优秀!