- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我有一个关于数据建模的问题。假设我有下表 3 个学生表。 Source_table1 包含 A_ID 作为主键和 Name 作为属性。 Source_table2 将 B_ID 作为主键,将 Name & Address 作为其他属性。Source_table3 将 C_ID 作为主键,将 Name、Address 和 Age 作为属性。如果我们想创建一个新表作为 Student Master 并包含该表中的所有记录,我们该怎么做?如果我们要创建交叉引用表,那么我们应该如何处理该问题?
最佳答案
整合来自不同来源的数据很复杂。最后,您希望得到如下结果:
student (student_id PK, name, address, source1_id, source2_id, source3_id)
但是,要实现这一点,还有一些问题需要解决。
身份
您将如何识别不同来源中的匹配记录?看起来您的来源使用了代理标识符,但这些标识符在源数据库的上下文之外没有任何意义。您正在寻找的是合适的自然键。来源中唯一的共同点是学生的名字,但名字是众所周知的糟糕标识符。
实际测试数据而不是假设它会或不会起作用会很有用。例如,查询如下:
SELECT s1.name, COUNT(*) AS amount
FROM student_source_1 s1
INNER JOIN student_source_2 s2 ON s1.name = s2.name
GROUP BY s1.name
HAVING COUNT(*) > 1
重复 (student_source_2, student_source_3) 和 (student_source_1, student_source_3) 应该能让您对问题的规模有一些了解。
您可以根据姓名和地址匹配 student_source_2 和 student_source_3。如果两个来源对同一个学生有不同的地址(或其拼写),这可能会产生更好的结果,或者更糟。这就引出了我们的第二个问题:
不一致
假设您可以解决身份问题,您可能需要处理不一致的数据。如果来源 2 和来源 3 对同一个学生有不同的地址怎么办?您如何确定正确的地址?
在某些情况下,仅映射源代码而不解决不一致就足够了。
在现实世界中即兴发挥
我在较难的情况下使用的一种技术是手动构建映射表,例如
student_map (student_id PK, source1_id, source2_id, source3_id)
每个 source_id 列都应该有一个唯一的约束,通常所有 3 个都可以为空。这是朝着上面的学生表迈出的第一步。
我将从插入所有完美的一对一匹配开始,然后将每个源与映射表左连接以获得不匹配的记录。将不匹配的源记录并排并排序,可以很容易地从视觉上发现可能的匹配项。这是一项繁琐且容易出错的工作,但有时无论如何都必须完成。对于不一致的地方,我可能会选择最完整/最好看的来源作为基础,并填补其他来源的空白。如果您能让老师或熟悉实际学生的人参与进来,或者向他们提供可供选择的备选方案,一定要这样做。
更多数据可能非常有用。如果来源有社会安全号码、家庭信息等,这些都可以用来匹配学生。在进行并排匹配之前,我会使用任意数量的查询来找到各种信息之间的完美匹配,并将它们插入到映射表中。
您很可能会发现由于设计不当而导致来源存在内部一致性问题 - 例如同一个学生的多个记录。这可能需要在继续之前修复源数据。
充分理解数据的关系模型对于此类工作非常重要,因为您将识别候选键、遵循依赖关系并遇到异常情况。
关于sql-server - 将多个相同类型的表数据建模为一个表,以将所有表聚合为一个表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38835746/
我正在寻找可以从 Eclipse 的 UML 图生成代码的工具。该工具应该从 UML 图生成代码,进行逆向工程以查看代码更改,并提供合并选项以防止因任何更改而删除文件。 是否有工具可以做到这一点,或者
我正在寻找有关建模的见解。我有一个关于设计模式和基本类图、序列图和用例的介绍类(class)。 我发现类图作为我编程中的组织工具非常宝贵。到目前为止,用例还算有用。 本学期我正在上课,更深入地学习 U
如何使用 flutter 数据建模技术访问“HH”和“mm”。我一直在尝试按以下方式使用它,但是下面给出了错误。 我的数据模型当前为它的简化版本。 class Week { final Strin
我正在使用 Neo4j 和 PHP。在我的项目中,我有餐厅节点。每个节点都有纬度、经度和分类属性。 我需要返回与用户给定分类相匹配的餐厅节点,其结果按距用户位置的距离排序(即第一个最近的餐厅)。 最简
我希望 POJO 包含一个 Status 字段(只有两个可能的值 SUCCESS、FAILED),并且根据此状态,第二个字段需要为 POJO 对象(如果 Status 为 SUCCESS) 或只是字符
我正在尝试将我的办公室迁移到数据库应用程序中。这是我得到的: (来源:phunkei.de) 公司和个人从客户继承(1:1关系)。这是因为他们都可以是“客户”并收到账单,我想引用订单中的单个表。公司和
我目前有这个数据库结构: 一个条目可以有多个"file"、“文本”和“url”类型的项目。 这些项目中的每一项在文本、网址或文件表(存储数据的位置)中都有一个对应的项目。 我需要一个查询来有效地选择一
下面的代码不应该像“if(condition)”语句一样工作吗,当它在另一个循环中并且“body”有自己的 break 或 continue 语句时,会出现明显的错误行为: for( ; condit
我一直在像这样存储和递增下载计数器: INCRBY downloads: 1 但现在我想要下载:* 按值排序,以便显示热门下载列表。 我觉得我可以更好地存储它。我愚弄了: ZINCRBY downlo
我开始使用图形数据库,在我的团队中,我们已经开始为我们的软件建模图形。当我们尝试“记录”模型以查看数据库的结构时,问题就出现了。对于 SQL 数据库,您只需查看 SQL 模式。 我们花了一些时间阅读
我正在做一个固定效应回归并且遇到了自相关问题,为了解决这个问题,我正在使用预测、lmtest 和 plm 包进行 ARIMA 建模。我的数据是一般面板数据,looks like this ,我正在尝试
我想知道是否有任何工具可以帮助我对 C 应用程序(即函数式编程)进行建模。例如。我目前正在构建一个共享库。但是为了直观地传达我的设计,我需要类似 UML 的东西。我想这样做,以便审查我的设计的人不需要
我正在尝试将 JSON 转换为 GSON ,但我无法建模。谁能给我举个例子。 [ { "id": "1", "name": "lalala",
正如标题所说,在 中建模 optional 参数的最佳方法是什么?斯卡拉 ? 对于 optional 参数,我的意思是执行函数体不需要的值。 要么因为该参数存在默认值,要么根本不需要该参数本身(例如配
我发现 UML 可用于记录 OO 系统的各个方面,尤其是用于整体架构的类图和用于说明特定例程的序列图。我想为我的 clojure 应用程序做同样的事情。我目前对模型驱动开发不感兴趣,只是在交流应用程序
我想知道是否有人知道如何使用 UML 在属性中建模 DateTime 基元类型? 最佳答案 我想这取决于日期的格式......请参阅下面的示例,其中我使用两个整数(分别为日和年)和一个名为“Month
我有一些与我的问题建模相关的问题。我正在研究基于模型的测试的论文项目。还想从专家的角度了解我是否采用正确的方法来建模我的场景。我正在对 Android 应用程序的 UI 进行建模,遍历它们,生成测试用
我正在尝试建立对 CouchDB 以及如何为某些现实世界场景建模数据的理解。我现在已经尽可能多地“按日期获取我的博客文章”;) 给定这样的文件: { "_id": "couch1",
一个模型资源是如何分层的?例如假设一个人有一个“留言板”并且“消息”是一种资源。假设“消息”可以有回复,从而形成一个讨论线程。如何模拟线程的概念? “消息”是否包含它的子项? “线程”是它自己的资源吗
我正在尝试创建一个像通用 POJO 一样工作的对象,因为我必须通过不同的对象传递它,并且我需要一个接口(interface)来访问其属性。 目前,我使用具有 getField 方法的基础对象来完成此操
我是一名优秀的程序员,十分优秀!