mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列-6ren

mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列

转载作者：行者123 更新时间：2023-11-29 12:24:19

32

4

有一个免费的public data set具有 300 多个字段。我想创建一个 ETL 过程来更新数据并将其本地存储在 mysql 或 sql 服务器上。由于记录太大而无法放入数据库表中，因此我可能必须进行反规范化，或者可能以不同的方式进行规范化。以下是我的数据集的表示:

+------------+---------+---------+-----+-----------+---------+
|  Column1   | Column2 | Column3 | ….  | Column319 | ColumnN |
+------------+---------+---------+-----+-----------+---------+
| HUEBERT    | ALLISON | L       | DR. |           | M.D.    |
| YOUNGMAYKA | CYNTHIA |         |     |           | P.A.    |
| DIFILIPPO  | EMIL    | A       | DR. |           | M.D.    |
| THACKER    | RICHARD | RANDALL | DR. |           | D.O.    |
|            |         |         |     |           |         |
| ROTHSTEIN  | MARK    | TERRY   | DR. |           | M.D.    |
| GIBBS      | ELMER   | RICKEY  | DR. |           | M.D.    |
| MARKMAN    | ALAN    | WILLIAM | DR. |           | M.D.    |
| TROTCHIE   | DEBBIE  | C       |     |           | APN     |
| DYSART     | STANLEY | H       |     |           | M.D.    |
|            |         |         |     |           |         |
| GRUNERT    | GEORGE  | M       | DR. |           | M.D.    |
| GOLDBERG   | STEVEN  | M       | DR. |           | M.D.    |
| DUBOSE     | JON     |         | DR. |           | MD      |
+------------+---------+---------+-----+-----------+---------+

我想通过拥有两个表来以这种方式进行非规范化。

左表:

+------------+---------+---------+
|  Column1   | Column2 | Column3 |
+------------+---------+---------+
| HUEBERT    | ALLISON | L       |
| YOUNGMAYKA | CYNTHIA |         |
| DIFILIPPO  | EMIL    | A       |
| THACKER    | RICHARD | RANDALL |
|            |         |         |
| ROTHSTEIN  | MARK    | TERRY   |
| GIBBS      | ELMER   | RICKEY  |
| MARKMAN    | ALAN    | WILLIAM |
| TROTCHIE   | DEBBIE  | C       |
| DYSART     | STANLEY | H       |
|            |         |         |
| GRUNERT    | GEORGE  | M       |
| GOLDBERG   | STEVEN  | M       |
| DUBOSE     | JON     |         |
+------------+---------+---------+

右表:

+-----+-----------+---------+
| ….  | Column319 | ColumnN |
+-----+-----------+---------+
| DR. |           | M.D.    |
|     |           | P.A.    |
| DR. |           | M.D.    |
| DR. |           | D.O.    |
|     |           |         |
| DR. |           | M.D.    |
| DR. |           | M.D.    |
| DR. |           | M.D.    |
|     |           | APN     |
|     |           | M.D.    |
|     |           |         |
| DR. |           | M.D.    |
| DR. |           | M.D.    |
| DR. |           | MD      |
+-----+-----------+---------+

整个数据集可能有 10 GB，或者大约 500 万行，实际上可能需要 4-6 个连接才能获取整行数据。

处理需要以这种方式分区的数据的标准是什么？

可以查看前1000条记录的excel文件here 。

最佳答案

请阅读范式。互联网上有大量关于此的 Material 。例如this poster似乎是很好的概述。或者这个视频:Normalisation Demonstration , Database Normalization - Explained with Examples

一般来说，一张表应该“关于”一个实体，例如地址、人员、业务部门等。

例如，在此数据集中，提供商组织名称(合法企业名称)列，提供者姓氏(法定名称)，提供者名字，提供商中间名，提供商名称前缀文本，提供商名称后缀文本，提供商凭证文本，似乎与一个实体(提供商？)有关。

列提供者其他组织名称，提供者其他组织名称类型代码，提供者其他姓氏，提供者其他名字，提供商其他中间名，提供商其他名称前缀文本，提供商其他名称后缀文本，提供者其他凭证文本，提供商其他姓氏类型代码似乎与第二个提供商实体有关。

列提供商一线业务邮寄地址，提供商二线业务邮寄地址，提供商企业邮寄地址城市名称，提供商企业邮寄地址州名称，提供商业务邮寄地址邮政编码，提供商企业邮寄地址国家/地区代码(如果在美国境外)，提供商业务邮寄地址电话号码，提供商业务邮寄地址传真号码似乎与地址实体有关。

列集提供商业务实践位置...似乎是另一个地址。

授权官方姓氏，授权官方名字，授权官方中间名，授权的官方头衔或职位，授权官方电话号码可以是另一个实体。

医疗保健提供者分类代码_n，提供商许可证号_n，提供商许可证号州代码_n，医疗保健提供者主要分类法 Switch_n(其中 n 为 1 到 15)似乎是另一个实体的实例列表。

与其他提供商标识符_n相同，其他提供商标识符类型 Code_n，其他提供商标识符 State_n，其他提供商标识符 Issuer_n

以及医疗保健提供者分类组_n - 这里似乎是一个字段实体。

关于mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28570132/

32

4

0

文章推荐： mysql - 连接两个表的 SQL 查询返回错误

文章推荐： MySQL在Join语句中创建动态表名

文章推荐： mysql - 用于更复杂表结构的 Eloquent/Query Builder

javascript - 使用 WebScriptEndpoint 使用 javascript 使用 WCF 服务
我在网上搜索但没有找到任何合适的文章解释如何使用 javascript 使用 WCF 服务，尤其是 WebScriptEndpoint。任何人都可以对此给出任何指导吗？谢谢最佳答案这是一篇关于
c - 没有结果!!使用 fork() 使用 dup2 使用 2 个管道运行 execlp()
我正在编写一个将运行 Linux 命令的 C 程序，例如: cat/etc/passwd | grep 列表 |剪切-c 1-5 我没有任何结果 *这里 parent 等待第一个 child (chi
python - 处理文件上传，使用 Pillow 调整大小，使用 SQLAlchemy 存储，使用 Flask 提供文件
所以我正在尝试处理文件上传，然后将该文件作为二进制文件存储到数据库中。在我存储它之后，我尝试在给定的 URL 上提供文件。我似乎找不到适合这里的方法。我需要使用数据库，因为我使用 Google 应用引
excel - 使用 IF 使用 VBA 在单元格中添加公式的问题
我正在尝试制作一个宏，将下面的公式添加到单元格中，然后将其拖到整个列中并在 H 列中复制相同的公式我想在 F 和 H 列中输入公式的数据 Range("F1").formula = "=IF(ISE
使用 OperatorPrecedenceParser 使用 FParsec 解析函数应用程序？
问题类似于this one ，但我想使用 OperatorPrecedenceParser 解析带有函数应用程序的表达式在 FParsec . 这是我的 AST: type Expression =
sql - 使用 sequelize 使用 where 查询编码计数
我想通过使用 sequelize 和 node.js 将这个查询更改为代码取决于在哪里 select COUNT(gender) as genderCount from customers where
bash - 使用 “let”分配Bash失败，使用 “/”
我正在使用GNU bash，版本5.0.3(1)-发行版(x86_64-pc-linux-gnu)，我想知道为什么简单的赋值语句会出现语法错误: #/bin/bash var1=/tmp
javascript - 使用 JavaScript 使用 FOR OF 数组循环时出现错误？
这里，为什么我的代码在 IE 中不起作用。我的代码适用于所有浏览器。没有问题。但是当我在 IE 上运行我的项目时，它发现错误。而且我的 jquery 类和 insertadjacentHTMl 也不
javascript - 使用 javascript 使用 for 属性更改表单标签内容
我正在尝试更改标签的innerHTML。我无权访问该表单，因此无法编辑 HTML。标签具有的唯一标识符是“for”属性。这是输入和标签的结构:
javascript - 使用 jquery 使用 .on() 将事件附加到页面上的动态插入按钮
我有一个页面，我可以在其中返回用户帖子，可以使用一些 jquery 代码对这些帖子进行即时评论，在发布新评论后，我在帖子下插入新评论以及删除按钮。问题是 Delete 按钮在新插入的元素上不起作用，
使用 awk 使用 sha1sum 进行散列
我有一个大约有 20 列的“管道分隔”文件。我只想使用 sha1sum 散列第一列，它是一个数字，如帐号，并按原样返回其余列。使用 awk 或 sed 执行此操作的最佳方法是什么？ Accounti
mysql - 使用 insert into 使用 mysql
我需要将以下内容插入到我的表中...我的用户表有五列 id、用户名、密码、名称、条目。 (我还没有提交任何东西到条目中，我稍后会使用 php 来做)但由于某种原因我不断收到这个错误:#1054 - U
jquery - 将输入字段值修剪为仅字母数字字符/使用 .使用 jQuery
所以我试图有一个输入字段，我可以在其中输入任何字符，但然后将输入的值小写，删除任何非字母数字字符，留下“。”而不是空格。例如，如果我输入: 地球的 70% 是水，-!*#$^^ & 30% 土地输
javascript - 使用 .innerHTML 使用 DOM
我正在尝试做一些我认为非常简单的事情，但出于某种原因我没有得到想要的结果？我是 javascript 的新手，但对 java 有经验，所以我相信我没有使用某种正确的规则。这是一个获取输入值、检查选择
php - 使用 angularjs 使用 where 子句从数据库获取数据
我想使用 angularjs 从 mysql 数据库加载数据。这就是应用程序的工作原理；用户登录，他们的用户名存储在 cookie 中。该用户名显示在主页上我想获取这个值并通过 angularjs
ios - 使用 UITableViewCell 使用 AutoLayout
我正在使用 autoLayout，我想在 UITableViewCell 上放置一个 UIlabel，它应该始终位于单元格的右侧和右侧的中心。这就是我想要实现的目标所以在这里你可以看到我正在谈论的
mysql - 使用 ElasticSearch 使用 or 和运算符搜索多个字段
我需要与 MySql 等效的 elasticsearch 查询。我的 sql 查询: SELECT DISTINCT t.product_id AS id FROM tbl_sup_price t
ios - 使用 Swift 使用 JSON
我正在实现代码以使用 JSON。 func setup() { if let flickrURL = NSURL(string: "https://api.flickr.com/
javascript - 使用 JavaScript 使用 for 循环声明变量
我尝试使用for循环声明变量，然后测试cols和rols是否相同。如果是，它将运行递归函数。但是，我在 javascript 中执行 do 时遇到问题。有人可以帮忙吗？现在，在比较 col.1 和
jquery - 使用 :after 使用 jquery 更改样式
我举了一个我正在处理的问题的简短示例。 HTML代码: 1 2 3 CSS 代码: .BB a:hover{ color: #000; } .BB > li:after {

首页

博学

6Ren·AI

商城

mysql - 使用 MySQL 或 Sql Server Express 处理 300 多个列