- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
有一个免费的public data set具有 300 多个字段。我想创建一个 ETL 过程来更新数据并将其本地存储在 mysql 或 sql 服务器上。由于记录太大而无法放入数据库表中,因此我可能必须进行反规范化,或者可能以不同的方式进行规范化。以下是我的数据集的表示:
+------------+---------+---------+-----+-----------+---------+
| Column1 | Column2 | Column3 | …. | Column319 | ColumnN |
+------------+---------+---------+-----+-----------+---------+
| HUEBERT | ALLISON | L | DR. | | M.D. |
| YOUNGMAYKA | CYNTHIA | | | | P.A. |
| DIFILIPPO | EMIL | A | DR. | | M.D. |
| THACKER | RICHARD | RANDALL | DR. | | D.O. |
| | | | | | |
| ROTHSTEIN | MARK | TERRY | DR. | | M.D. |
| GIBBS | ELMER | RICKEY | DR. | | M.D. |
| MARKMAN | ALAN | WILLIAM | DR. | | M.D. |
| TROTCHIE | DEBBIE | C | | | APN |
| DYSART | STANLEY | H | | | M.D. |
| | | | | | |
| GRUNERT | GEORGE | M | DR. | | M.D. |
| GOLDBERG | STEVEN | M | DR. | | M.D. |
| DUBOSE | JON | | DR. | | MD |
+------------+---------+---------+-----+-----------+---------+
我想通过拥有两个表来以这种方式进行非规范化。
左表:
+------------+---------+---------+
| Column1 | Column2 | Column3 |
+------------+---------+---------+
| HUEBERT | ALLISON | L |
| YOUNGMAYKA | CYNTHIA | |
| DIFILIPPO | EMIL | A |
| THACKER | RICHARD | RANDALL |
| | | |
| ROTHSTEIN | MARK | TERRY |
| GIBBS | ELMER | RICKEY |
| MARKMAN | ALAN | WILLIAM |
| TROTCHIE | DEBBIE | C |
| DYSART | STANLEY | H |
| | | |
| GRUNERT | GEORGE | M |
| GOLDBERG | STEVEN | M |
| DUBOSE | JON | |
+------------+---------+---------+
右表:
+-----+-----------+---------+
| …. | Column319 | ColumnN |
+-----+-----------+---------+
| DR. | | M.D. |
| | | P.A. |
| DR. | | M.D. |
| DR. | | D.O. |
| | | |
| DR. | | M.D. |
| DR. | | M.D. |
| DR. | | M.D. |
| | | APN |
| | | M.D. |
| | | |
| DR. | | M.D. |
| DR. | | M.D. |
| DR. | | MD |
+-----+-----------+---------+
整个数据集可能有 10 GB,或者大约 500 万行,实际上可能需要 4-6 个连接才能获取整行数据。
处理需要以这种方式分区的数据的标准是什么?
可以查看前1000条记录的excel文件here 。
最佳答案
请阅读范式。互联网上有大量关于此的 Material 。例如this poster似乎是很好的概述。或者这个视频:Normalisation Demonstration , Database Normalization - Explained with Examples
一般来说,一张表应该“关于”一个实体,例如地址、人员、业务部门等。
例如,在此数据集中,提供商组织名称(合法企业名称)列,提供者姓氏(法定名称),提供者名字,提供商中间名,提供商名称前缀文本,提供商名称后缀文本,提供商凭证文本,似乎与一个实体(提供商?)有关。
列提供者其他组织名称,提供者其他组织名称类型代码,提供者其他姓氏,提供者其他名字,提供商其他中间名,提供商其他名称前缀文本,提供商其他名称后缀文本,提供者其他凭证文本,提供商其他姓氏类型代码似乎与第二个提供商实体有关。
列提供商一线业务邮寄地址,提供商二线业务邮寄地址,提供商企业邮寄地址城市名称,提供商企业邮寄地址 州名称,提供商业务邮寄地址邮政编码,提供商企业邮寄地址国家/地区代码(如果在美国境外),提供商业务邮寄地址电话号码,提供商业务邮寄地址传真号码似乎与地址实体有关。
列集提供商业务实践位置...似乎是另一个地址。
授权官方姓氏,授权官方名字,授权官方中间名,授权的官方头衔或职位,授权官方电话号码可以是另一个实体。
医疗保健提供者分类代码_n,提供商许可证号_n,提供商许可证号州代码_n,医疗保健提供者主要分类法 Switch_n(其中 n 为 1 到 15)似乎是另一个实体的实例列表。
与其他提供商标识符_n相同,其他提供商标识符类型 Code_n,其他提供商标识符 State_n,其他提供商标识符 Issuer_n
以及医疗保健提供者分类组_n - 这里似乎是一个字段实体。
关于mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28570132/
我在网上搜索但没有找到任何合适的文章解释如何使用 javascript 使用 WCF 服务,尤其是 WebScriptEndpoint。 任何人都可以对此给出任何指导吗? 谢谢 最佳答案 这是一篇关于
我正在编写一个将运行 Linux 命令的 C 程序,例如: cat/etc/passwd | grep 列表 |剪切-c 1-5 我没有任何结果 *这里 parent 等待第一个 child (chi
所以我正在尝试处理文件上传,然后将该文件作为二进制文件存储到数据库中。在我存储它之后,我尝试在给定的 URL 上提供文件。我似乎找不到适合这里的方法。我需要使用数据库,因为我使用 Google 应用引
我正在尝试制作一个宏,将下面的公式添加到单元格中,然后将其拖到整个列中并在 H 列中复制相同的公式 我想在 F 和 H 列中输入公式的数据 Range("F1").formula = "=IF(ISE
问题类似于this one ,但我想使用 OperatorPrecedenceParser 解析带有函数应用程序的表达式在 FParsec . 这是我的 AST: type Expression =
我想通过使用 sequelize 和 node.js 将这个查询更改为代码取决于在哪里 select COUNT(gender) as genderCount from customers where
我正在使用GNU bash,版本5.0.3(1)-发行版(x86_64-pc-linux-gnu),我想知道为什么简单的赋值语句会出现语法错误: #/bin/bash var1=/tmp
这里,为什么我的代码在 IE 中不起作用。我的代码适用于所有浏览器。没有问题。但是当我在 IE 上运行我的项目时,它发现错误。 而且我的 jquery 类和 insertadjacentHTMl 也不
我正在尝试更改标签的innerHTML。我无权访问该表单,因此无法编辑 HTML。标签具有的唯一标识符是“for”属性。 这是输入和标签的结构:
我有一个页面,我可以在其中返回用户帖子,可以使用一些 jquery 代码对这些帖子进行即时评论,在发布新评论后,我在帖子下插入新评论以及删除 按钮。问题是 Delete 按钮在新插入的元素上不起作用,
我有一个大约有 20 列的“管道分隔”文件。我只想使用 sha1sum 散列第一列,它是一个数字,如帐号,并按原样返回其余列。 使用 awk 或 sed 执行此操作的最佳方法是什么? Accounti
我需要将以下内容插入到我的表中...我的用户表有五列 id、用户名、密码、名称、条目。 (我还没有提交任何东西到条目中,我稍后会使用 php 来做)但由于某种原因我不断收到这个错误:#1054 - U
所以我试图有一个输入字段,我可以在其中输入任何字符,但然后将输入的值小写,删除任何非字母数字字符,留下“。”而不是空格。 例如,如果我输入: 地球的 70% 是水,-!*#$^^ & 30% 土地 输
我正在尝试做一些我认为非常简单的事情,但出于某种原因我没有得到想要的结果?我是 javascript 的新手,但对 java 有经验,所以我相信我没有使用某种正确的规则。 这是一个获取输入值、检查选择
我想使用 angularjs 从 mysql 数据库加载数据。 这就是应用程序的工作原理;用户登录,他们的用户名存储在 cookie 中。该用户名显示在主页上 我想获取这个值并通过 angularjs
我正在使用 autoLayout,我想在 UITableViewCell 上放置一个 UIlabel,它应该始终位于单元格的右侧和右侧的中心。 这就是我想要实现的目标 所以在这里你可以看到我正在谈论的
我需要与 MySql 等效的 elasticsearch 查询。我的 sql 查询: SELECT DISTINCT t.product_id AS id FROM tbl_sup_price t
我正在实现代码以使用 JSON。 func setup() { if let flickrURL = NSURL(string: "https://api.flickr.com/
我尝试使用for循环声明变量,然后测试cols和rols是否相同。如果是,它将运行递归函数。但是,我在 javascript 中执行 do 时遇到问题。有人可以帮忙吗? 现在,在比较 col.1 和
我举了一个我正在处理的问题的简短示例。 HTML代码: 1 2 3 CSS 代码: .BB a:hover{ color: #000; } .BB > li:after {
我是一名优秀的程序员,十分优秀!