- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在处理一个涉及多个数据库实例的问题,每个实例都有不同的表结构。问题是,在这些表之间,有很多重复项,我需要一种方法来有效地找到它们、报告它们,并可能消除它们。
例如。我有两个表,第一个表,CustomerData
字段:
_countId, customerFID, customerName, customerAddress, _someRandomFlags
我还有另一个表,CustomerData2
(稍后构建),其中包含以下字段:
_countId, customerFID, customerFirstName, customerLocation, _someOtherRandomFlags.
在上面的两个表中,我知道一个事实,customerName
和customerFirstName
用于存储相同的数据,同样customerLocation
和 customerAddress
也用于存储相同的数据。
比方说,一些销售团队一直在使用 customerData
,而其他人一直在使用 customerData2
。我想要一种可扩展的方法来检测表之间的冗余并报告它们。可以肯定地假设两个表中的 customerFID
是一致的,并且指的是同一个客户。
我能想到的一个解决方案是,在 python 中创建一个 customerData
类,将两个表中的记录映射到这个类,并为类中的对象计算哈希/签名是必需的(customerName、customerLocation/Address
)并将它们存储到签名表中,其中包含以下列:
sourceTableName, entityType (customerData), identifyingKey (customerFID), signature
然后对于每个 entityType
,我为每个 customerFID
寻找重复的签名
实际上,我正在处理大量的生物医学数据,其中有很多列。它们是由不同的人创建的(遗憾的是没有标准的命名法或结构)并且存储在其中的重复数据
编辑:为简单起见,我可以将所有数据库实例移动到单个服务器实例。
最佳答案
如果我不关心性能,我会使用高级实用方法。使用 Django(或 SQLAlchemy 或...)构建您想要的模型(您的表)并获取数据进行比较。然后使用一种算法来有效地识别重复项(......从列表或字典中,这取决于你“如何”保存你的数据)。为了提高性能,您可以尝试使用多处理模块“增强”您的应用程序或考虑使用 map-reduce 解决方案。
关于python - 检测不同结构表之间数据冗余的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5865775/
我有下面提供的“示例代码”,我觉得这很多余,并且想请您与我一起解释是否有任何更少冗余的方法来处理以下代码。 public interface Bars { FOO1 FOO1 = (FOO1)
我们刚刚测试了一个由 2 个服务器组成的 AppFabric 集群,我们在其中删除了“领导”服务器。第二个服务器对它的任何请求超时并出现错误: Microsoft.ApplicationServer.
我正在设计一个关系数据库 - 底层是 MySQL - DBDesigner 4 . 我有 3 个表:module、page 和 lang。每个模块属于一个页面,每个页面都有特定的语言: 外键 pag
我的 Fraction 程序运行流畅,但 NetBeans IDE 告诉我以下 if 是多余的: public boolean equals(Object other) { Fraction bo
下面的代码显然是多余的,但根据我的经验,我经常使用这种模式。有没有更好的方法在 python 中执行此操作? if re.search("at (\d{1,2}):\d{2}", p): a=
我有一个用具体示例说明的一般性问题。当所有组件对象都已测试时,您建议对复合对象进行多少测试? 作为具体示例,请考虑下面的 NullTerminatedStringReader。它从字节缓冲区中读取一个
if ( a > b) { return true; } return false; 对于上面的代码,Netbeans 给出了 “Redundant if statement” 警告并建议将其更改
当我添加一些约束时,例如: create table Test( IDTest int primary key, Credit int not null constraint Credit
此代码适用于 Microchip 的 PIC32MX 微处理器。他们的编译器本质上是 GCC 3.4。 我倾向于使用 GCC 的 __packed__ attribute将位域打包到一个 union
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
我正在为我的应用程序使用apns通知,为此,我将apns设备 token 存储在我的sql数据库中。 问题在于,每次用户删除或安装该应用程序时,它都会生成一个新的设备 token ,并将其存储在数据库
Action Keyname Type Unique Packed Column Cardinality Collation Null Comment Edit Dro
我正在开发一个使用 ARM Cortex-M0 处理器的项目。在这个项目中,我需要提供计时器支持(CMSDK (SSE-200)计时器)。 因此,在 vector 表中,在 TIMER0_IRQn 表
有没有写的理由 corsFilter.setAllowedOrigins(new HashSet(Arrays.asList("*"))); 其中allowedOrigins在ReSTLet框架中的定
我正在创建一个包含 4 个链接的 HTML/CSS 页面, Home.html Details.html ContactMe.html AboutUs.html 我想在所有关联的 HTML 页面中将其
我试图理解并使用其他人编写的代码,但由于我对 typedef 经验不多。 , 我有时会感到困惑。 有两个不同的头文件,一个继承另一个,并且在两个文件上声明相同的typedef。 为什么会出现冗余,如何
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我有一个用于改造的 POJO 类。 public class AppData(){ String a; String b; String c;
我想知道: 编写这段代码: DataRow[] g = new DataRow[1] ; var t=new StringBuilder().AppendFormat("{0}", g[0]["a
只是一个性能问题...... 假设我有 5 个类,每个类都引用了 System.Data 和一个自己开发的库。这 5 个类是类库的一部分,最终将被构建并发布到一些 Web 应用程序作为引用。 通过将引
我是一名优秀的程序员,十分优秀!