Ruby:比较两个哈希数组-6ren

Ruby:比较两个哈希数组

转载作者：数据小太阳更新时间：2023-10-29 07:47:18

28

4

我绝对是 ruby 的新手(并且使用 1.9.1)，因此非常感谢您的帮助。我对 Ruby 的了解都是通过使用 google 获得的。我正在尝试比较两个散列数组，并且由于大小的原因，它会变得很长并且会因内存不足而调情。任何帮助将不胜感激。

我有一个具有多种方法(初始化、打开、比较、剥离、输出)的类 (ParseCSV)。我现在的工作方式如下(这确实通过了我编写的测试，只是使用了一个小得多的数据集):


file1 = ParseCSV.new(“some_file”)
file2 = ParseCSV.new(“some_other_file”)

file1.open #this reads the file contents into an Array of Hash’s through the CSV library 
file1.strip #This is just removing extra hash’s from each array index.  So normally there are fifty hash’s in each array index, this is just done to help reduce memory consumption.  

file2.open 
file2.compare(“file1.storage”) #@storage is The array of hash’s from the open method

file2.output

现在我纠结的是比较方法。在较小的数据集上工作根本不是什么大问题，工作速度足够快。然而，在这种情况下，我将大约 400,000 条记录(全部读入哈希数组)与大约 450,000 条记录进行比较。我正在努力加快速度。我也不能在 file2 上运行 strip 方法。这是我现在的做法:


def compare(x)
    #obviously just a verbose message
    puts "Comparing and leaving behind non matching entries"

    x.each do |row|
        #@storage is the array of hashes
        @storage.each_index do |y|       
            if row[@opts[:field]] == @storage[y][@opts[:field]]
               @storage.delete_at(y)
            end
       end
    end
end

希望这是有道理的。我知道这将是一个缓慢的过程，因为它必须每次迭代 400,000 行 440,000 次。但是对于如何加快速度并可能减少内存消耗，您有任何其他想法吗？

最佳答案

哎呀，这将是 O(n^2) 运行时间。讨厌。

更好的选择是使用内置的 Set类。

代码看起来像这样:

require 'set'

file1_content = load_file_content_into_array_here("some_file")
file2_content = load_file_content_into_array_here("some_other_file")

file1_set = Set[file1_content]

unique_elements = file1_set - file2_content

假设文件本身具有独特的内容。应该在一般情况下工作，但可能会有怪癖，具体取决于您的数据是什么样子以及您如何解析它，但只要这些行可以与 == 进行比较，它应该可以帮助您。

使用集合比使用嵌套循环遍历文件内容要快得多。

(是的，我实际上这样做是为了处理大约 200 万行的文件，因此它最终应该能够处理您的情况。如果您正在进行大量数据处理，Ruby 可能不是最佳选择虽然是工具)

关于Ruby:比较两个哈希数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1574776/

28

4

0

文章推荐： ruby - ParseTree 不适用于 ruby 1.9。为什么？

文章推荐： ios - FacebookSDK 和 Bolts 在构建时相互冲突(重复符号)

文章推荐： Ruby:将编码字符转换为实际的 UTF-8 字符

文章推荐： iphone - 应用 UIView 变换后查找帧坐标 (CGAffineTransform)

python - NetworkX Graph 对象的“同构”比较，而不是默认的 'address' 比较
我想使用 NetworkX Graph 对象作为 Python dict 中的键。但是，我不希望默认的比较行为(即通过对象的地址)。相反，我希望同构图是 dict 中相同元素的键。此行为是否已在某处
比较 float
这个问题已经有答案了: What is the most effective way for float and double comparison? (33 个回答) 已关闭 7 年前。在您认为我
C字符串与字符的输入、比较
我正在学习 C 编程，为了练习，我找到了一个需要解决的任务。这有点像一个游戏，有人选择一个单词，其他人猜测字母。我必须检查有多少给定的单词可能是所选单词的正确答案。输入: 3 3//数字 n 和 m
比较 If 语句中的字符
我两天前开始学习C，在做作业时遇到了问题。我们的目的是从字符数组中获取字符列表，并通过计算连续字符并将其替换为数字来缩短它。对“a4b5c5”说“aaaabbbbbccccc”。这是我到目前为止的代码
比较 if 语句中的指针值
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
JavaScript 比较
为什么我在 if 中的比较不起作用？答案应该是 8 但它返回 0。 function findMissing(missingArray){ var getArray = missing
JavaScript 比较
我想知道为什么以下 JavaScript 比较会给出不同的结果。 (1==true==1) true (2==true==2) false (0==false==0) false (0==false)
比较、组合和确定字符串的长度？
我想知道是否有人可以帮助我完成这个程序。编写一个接受两个字符串的函数。该函数应该将这两个字符串与字典顺序上排在第一位的字符串组合起来。两个字符串之间应该有一个空格。在一行上打印结果字符串。在一行上打印
JavaBeans 比较
有谁知道一个免费的开源库(实用程序类)，它允许您比较一个 Java bean 的两个实例并返回一个属性列表/数组，这两个实例的值不同？请发布一个小样本。干杯托马斯最佳答案 BeanCompara
Java - 比较
我是java新手。任何人都可以给出以下类声明的含义 public class ListNode, V> { K key; V value; ListNode next;
比较 C 中不同大小的矩阵乘法执行时间
我需要用 C 语言计算和比较 3 种不同大小(100 * 100、1000 * 1000 和 10000 * 10000)的 2 个矩阵相乘的执行时间。我编写了以下简单代码来为 1000 * 1000
聚合函数上的 SQL 比较
当我在 ACCESS 2007 中运行以下 SQL 时 Select Location, COUNT(ApartmentBuildings) AS TotalIBuildingsManaged Fro
multithreading - 互斥体与监视器——比较
根据我对互斥锁的了解——它们通常提供对共享资源的锁定功能。因此，如果一个新线程想要访问这个锁定的共享资源——它要么退出，要么必须不断轮询锁(并在等待锁时浪费处理器周期)。但是，监视器具有条件变量，它
Oracle NUMBER 比较
通常在编程中，不应该比较浮点数据类型是否相等，因为存储的值通常是近似值。由于两个非整数 Oracle NUMBER 值的存储方式不同(以 10 为基数)，是否可以可靠地比较它们是否相等？最佳答案
powershell - 没有隐式类型转换的身份运算符/比较
使用 PowerShell 时，我们偶尔会比较不同类型的对象。一个常见的场景是 $int -eq $bool (即其中 0 -eq $false 、 0 -ne $true 和任何非零值仅等于真，但不
比较 2 个字符串并保存结果
#include #define MAX 1000 void any(char s1[], char s2[], char s3[]); int main() { char string1[
c# - 比较.net中的日期
我想比较两个日期。从这两个日期中，我只使用 ToShortDateString() 获取日期组件，如下所示。现在的问题是当我比较两个日期时。它的 throw 错误—— "Operator >= c
iphone - 比较 NSNumber
用户输入一个数字( float 或整数)，并且它必须大于下限。这是从 UITextField 获取数字的代码: NSNumberFormatter * f = [[NSNumberFormatter
Javascript 子字符串验证/比较
我已经摆弄这段代码大约一个小时了，它让我难以置信。我认为解决方案相当简单，但我似乎无法弄清楚。无论如何，这里去。我制作了一个 javascript 函数来检查用户输入的字符，以便它只能接受 7 个字符
Scala 类和案例类 == 比较
我不太明白为什么当我们在不覆盖 equals 的情况下比较具有相同类属性的两个实例时方法，它将给出 false .但它会给出 true当我们比较一个案例类的两个实例时。例如 class A(val

首页

博学

6Ren·AI

商城

Ruby:比较两个哈希数组