hash - 从大型数据集中删除重复行-6ren

hash - 从大型数据集中删除重复行

转载作者：行者123 更新时间：2023-12-01 17:44:29

24

4

假设我有一个非常大的数据集，无法放入内存，数据集中有数百万条记录，我想删除重复的行(实际上是保留重复行中的一行)

就空间和时间复杂度而言，最有效的方法是什么？

我的想法:

1.使用布隆过滤器，我不确定它是如何实现的，但我猜副作用是有误报，在那种情况下我们如何才能确定它是否真的是重复的？

2.使用散列值，在这种情况下，如果我们有少量重复值，唯一散列值的数量会很大，我们可能再次遇到内存问题，

最佳答案

您的解决方案 2:使用哈希值不会强制出现内存问题。您只需将散列空间划分为适合内存的片。更准确地说:

考虑一个存储记录集的哈希表，每条记录仅由其在表中的索引表示。例如，这样的哈希表将是 4GB。然后你把你的散列空间分成 k=4 片。根据散列值的最后两位数字，每条记录进入一个切片。所以算法大致如下:

let k = 2^M
for i from 0 to k-1:
    t = new table
    for each record r on the disk:
        h = hashvalue(r)
        if (the M last bit of h == i) {
            insert r into t with respect to hash value h >> M
        }
    search t for duplicate and remove them
    delete t from memory

缺点是您必须对每条记录进行 k 次哈希处理。优点是可以轻松分发。

这是 Python 中的原型(prototype):

# Fake huge database on the disks
records = ["askdjlsd", "kalsjdld", "alkjdslad", "askdjlsd"]*100

M = 2
mask = 2**(M+1)-1
class HashLink(object):
    def __init__(self, idx):
        self._idx = idx
        self._hash = hash(records[idx]) # file access

    def __hash__(self):
        return self._hash >> M

    # hashlink are equal if they link to equal objects
    def __eq__(self, other):
        return records[self._idx] == records[other._idx] # file access

    def __repr__(self):
        return str(records[self._idx])

to_be_deleted = list()
for i in range(2**M):
    t = set()
    for idx, rec in enumerate(records):
        h = hash(rec)
        if (h & mask == i):
            if HashLink(idx) in t:
                to_be_deleted.append(idx)
            else:
                t.add(HashLink(idx))

结果是:

>>> [records[idx] for idx in range(len(records)) if idx not in to_be_deleted]
['askdjlsd', 'kalsjdld', 'alkjdslad']

关于hash - 从大型数据集中删除重复行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17887769/

24

4

0

文章推荐： bdd - SpecFlow/BDD 示例

文章推荐： java - 调试 JVM 中 CPU 使用率 100%

文章推荐： iphone - 减少应用程序大小超过50兆的最佳方法

hash - 我如何使用 std::hash::hash？
我正在尝试使用 Rust 的 std::hash 函数: use std::hash::{hash, Hash, SipHasher}; #[test] fn hash_test() { pr
ruby : Generate a Hash of Hashes from an Array of Hashes
我有以下内容 friends = [{ name: "Jack", attr1:"def", attr2:"def" }, { name: "Jill", attr1:"def", attr2:"de
ruby - 参数错误 : comparison of Hash with Hash failed - Sorting an array of hashes by hash name
我有以下数组: names = [ {"Adriana"=>{:gender=>"female", :nationality=>"danish"}}, {"Adriane"=>{:gender=>"f
Perl hash of hashes of hashes ... 是否有 'easy' 方法来获取列表末尾的元素？
我有一个哈希的 Perl 哈希......大约 11 或 12 个元素深。请原谅我没有重复下面的结构! 一些级别有固定的标签，例如'NAMES' , 'AGES'或类似的，因此访问这些级别很好，因为我
hash - 基于物理身份的替代Hashtbl.hash
我试图派生一个描述结构化值的Graphviz文件。这是出于诊断目的，因此我希望我的图形尽可能接近地反射(reflect)内存中的实际结构。我正在使用下面的方法将值映射到Graphviz顶点，以便当一个
ruby - 在 Ruby 中访问 Hash of Hash of Hash
我正在尝试获取在 xlm 中传递的事件日志条目，将它们转换为散列，然后存储到数据库中。我目前正在使用 XmlSimple gem 将 xml 输入转换为散列。测试样本输入: require 'xm
ruby - `Hash#reject!` 和 `Hash#reject` 与 `Hash#delete_if` 有何不同？
对于 Ruby 中的 Hash，reject! 和 reject 与 delete_if 有何不同？谁能用简单的代码片段解释它们之间的区别？最佳答案由于其他答案指的是 Array#delete_i
Perl Hash of Hashes 和计数
我正在尝试处理我使用 Data::Dumper 输出的 perl 数据结构 $VAR1 = 'GAHD'; $VAR2 = [ { 'COUNTRY' => 'US',
hash - DPDK Hash 无法从辅助进程中查找数据
无法使用来自辅助进程的现有 rte Hash: h = rte_hash_find_existing("some_hash"); if (h) { // this will w
Perl Hash of Hashes，获取最低数字键
我有一个散列的散列，其中第一个键是一个字符串，第二个键是一个整数。我试图在散列的散列中获得最低的第二个键。这是我的哈希。 %HoH = ( flintstones => { 8
perl - 数据库记录到 Hash-of-hashes
如何从一系列数组中生成哈希中的哈希？我需要从这里开始: my @data = /one two three/; my $value = 13: 为此: $hoh = { 'one' => { 'two
perl hash hash 中奇数个元素
我有这个配置文件 dbUser=customer dbPass=passwrd dbSid=customer.shadow passwdFile=/production/etc-user tmpUse
hash - 如何对使用rust 的单元结构执行 `Hash`？
我想实现一种thing，可以唯一标识，除此之外，它不包含其他字段。它有点像 ruby 中的 BasicObject 或 java 中的 Object。我添加了一个 PartialEq 特征。 s
ruby - Hash in Hash 给出错误的值作为返回？
我正在尝试使用以下键存储二维哈希: 维度 1 = 数字但不连续维度 2 = 字符串(如 :id 和 :value) 当元素未初始化时会出现问题。 memory = Hash.new(Hash.new
ruby - : "Hash.new takes a default value for the hash, which is the value of the hash for a nonexistent key"是什么意思
我目前正在学习 Michael Hartl 的 Ruby on Rails 教程不理解在 section 4.4.1 中找到的此语句的含义: Hashes, in contrast, are dif
ruby - 如何修改 Hash 以允许在 Ruby 中通过更短的 'hash[:a][:b]' 访问元素 'hash[:a,:b]'？
我很乐意通过更短的表达式访问多维哈希数组的任何元素 h = {a: {b: 'c'}} # default way p h[:a][:b] # => "c" # a nicer way p h[:a,
hash - 无法加载内核二进制文件 :Invalid SDK hash
我想在编写 flutter channel beta 后运行 flutter web 它回复:Can't load kernel binary:Invalid SDK hash，你知道如何解决这个问题
hash - DynamoDB : How is the hash key used?
我最近正在研究 Amazon 提供的新 NoSQL 服务，更具体地说是 DynamoDB。亚马逊说你应该避免使用不均匀分布的键作为主键，即主键应该越独特越好。我可以认为这是最好的情况下每个项目都有唯
hash - 如何在 Redis Hash 上执行搜索？
我的游戏中有很多哈希值，例如 HMSET('hash1', 'level', 25, 'connected', 2) HMSET('hash2', 'level', 50, 'connected',
hash - "over"中的 "overpass-the-hash"是什么意思？
我必须翻译这句话:'Susspected overpass-the-hash attack (Kerberos)' 我发现了这篇关于立交桥哈希的文章:https://blog.stealthbits.

首页

博学

6Ren·AI

商城

hash - 从大型数据集中删除重复行