c# - 查找已排序整数数组的交集-6ren

c# - 查找已排序整数数组的交集

转载作者：塔克拉玛干更新时间：2023-11-03 05:26:25

25

4

让我们有一些整数短排序数组，我们需要找到等于或大于预定义常量的交集。这是代码，它演示了我想做得更好然后我可以用文字解释它。问题是速度。我的代码运行很慢。 2000 个元素数组(在我的慢机器上)大约需要 15 秒。当然，我可以实现自己的交集方法并并行化代码，但它的改进非常有限。执行时间增长为 N^2 或类似的东西，并且对于 500k 数组来说已经需要非常非常长的时间。那么我该如何重写算法以获得更好的性能呢？我不限于 c# 语言，也许 CPU 或 GPU 对此类工作有很好的特殊说明。

Example:

Input:
1,3,7,8
2,3,8,10
3,10,11,12,13,14

minSupport = 1

Output:

1 and 2: 2, 8
1 and 3: 3
2 and 3: 3, 10

    var minSupport = 2;
    var random = new Random(DateTime.Now.Millisecond);

    // Numbers is each array are unique
    var sortedArrays = Enumerable.Range(0,2000)
    .Select(x => Enumerable.Range(0,30).Select(t => random.Next(1000)).Distinct()
    .ToList()).ToList();
    var result = new List<int[]>();
    var resultIntersection = new List<List<int>>();

    foreach (var array in sortedArrays)
    {
        array.Sort();
    }

    var sw = Stopwatch.StartNew();

    //****MAIN PART*****//

    for (int i = 0; i < sortedArrays.Count-1; i++)
    {
        for (int j = i+1; j < sortedArrays.Count; j++)
        {
            var intersect = sortedArrays[i].Intersect(sortedArrays[j]).ToList();
            if(intersect.Count()>=minSupport)
            {
                result.Add( new []{i,j});
                resultIntersection.Add(intersect);
            }
        }
    }

    //*****************//

    sw.Stop();

    Console.WriteLine(sw.Elapsed);

编辑:

现在它需要大约 9 秒，而旧算法在 2000 个元素上需要 15 秒。嗯……当然不够快。

//****MAIN PART*****//

    // This number(max value which array can contains) is known
    var maxValue = 1000;

    var reverseIndexDict = new Dictionary<int,List<int>>();

    for (int i = 0; i < maxValue; i++)
    {
        reverseIndexDict[i] = new List<int>();
    }

    for (int i = 0; i < sortedArrays.Count; i++)
    {
        for (int j = 0; j < sortedArrays[i].Count; j++)
        {
            reverseIndexDict[sortedArrays[i][j]].Add(i);
        }
    }

    var tempArr = new List<int>();
    for (int i = 0; i < sortedArrays.Count; i++)
    {
        tempArr.Clear();
        for (int j = 0; j < sortedArrays[i].Count; j++)
        {
            tempArr.AddRange(reverseIndexDict[j]);
        }

        result.AddRange(tempArr.GroupBy(x => x).Where(x => x.Count()>=minSupport).Select(x => new[]{i,x.Key}).ToList());

    }

    result = result.Where(x => x[0]!=x[1]).ToList();


    for (int i = 0; i < result.Count; i++)
    {
        resultIntersection.Add(sortedArrays[result[i][0]].Intersect(sortedArrays[result[i][1]]).ToList());
    }



    //*****************//

编辑:

一些改进。

//****MAIN PART*****//

    // This number(max value which array can contains) is known
    var maxValue = 1000;

    var reverseIndexDict = new List<int>[maxValue];

    for (int i = 0; i < maxValue; i++)
    {
        reverseIndexDict[i] = new List<int>();
    }

    for (int i = 0; i < sortedArrays.Count; i++)
    {
        for (int j = 0; j < sortedArrays[i].Count; j++)
        {
            reverseIndexDict[sortedArrays[i][j]].Add(i);
        }
    }



    for (int i = 0; i < sortedArrays.Count; i++)
    {
        var tempArr = new Dictionary<int, List<int>>();

        for (int j = 0; j < sortedArrays[i].Count; j++)
        {
            var sortedArraysij = sortedArrays[i][j];


            for (int k = 0; k < reverseIndexDict[sortedArraysij].Count; k++)
            {
                if(!tempArr.ContainsKey(reverseIndexDict[sortedArraysij][k]))
                {
                    tempArr[reverseIndexDict[sortedArraysij][k]] = new[]{sortedArraysij}.ToList();
                }
                else
                {
                   tempArr[reverseIndexDict[sortedArraysij][k]].Add(sortedArrays[i][j]);
                }

            }
        }


        for (int j = 0; j < reverseIndexDict.Length; j++)
        {
            if(reverseIndexDict[j].Count>=minSupport)
            {
                result.Add(new[]{i,j});
                resultIntersection.Add(reverseIndexDict[j]);
            }
        }

    }

    // and here we are filtering collections

    //*****************//

最佳答案

有两种解决方法:

假设您有 3 个排序数组，您必须找到它们之间的交集。遍历第一个数组并对两个数组的其余部分运行二进制搜索以查找第一个数组中的元素。如果对两个列表的相应二进制搜索给出肯定，则增加交集计数器。
```
result = List
for element in Array1:
    status1 = binarySearch(element, Array2)
    status2 = binarySearch(element, Array2)
    status = status & status
    if status == True:
        count++
        if count == MAX_INTERSECTION:
            result.append(element)
            break
```
时间复杂度:N * M * Log(N)，
在哪里，
N = 数组中的元素数
M = 阵列数
此解决方案仅在数组中的数字为正整数时才有效。计算所有排序数组中元素总数的最大值和最小值。当它被排序时，我们可以通过调查给定的排序数组的开始和结束元素来确定它。设最大数为max，最小数为min。创建一个大小为 max - min 的数组，并用零填充它。让我们假设您有 3 个数组，现在开始遍历第一个数组并转到相应的索引并增加先前创建的数组中的值。如下所述:
```
element is 5 in Array 1, the New_array[5]+=1
```
遍历所有三个排序列表，并执行上述操作。最后遍历new_array，寻找等于3的值，这些索引就是交集的结果。

时间复杂度:O(N) + O(N) + .. = O(N)
空间复杂度:O(maximum_element - minimum_element)
在哪里，
N = 数组中的元素数。

关于c# - 查找已排序整数数组的交集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10889479/

25

4

0

文章推荐： java - 查找对象的最快方法

文章推荐： java - 如何为 jar 配置 log4j 日志记录？

文章推荐： java - Java 中的字符串排列(非递归)

文章推荐： algorithm - 在搜索引擎查询日志中查找趋势

Fortran:整数*4 vs 整数(4) vs 整数(kind=4)
我正在尝试学习 Fortran，并且看到了很多不同的定义，我想知道他们是否正在尝试完成同样的事情。以下有什么区别？整数*4 整数(4) 整数(kind=4) 最佳答案在 Fortran >=90
list - 转换 [整数] -> 整数
我以前从未编程过，最近(1 周前)才开始学习!第一门类(class)是函数式编程，使用 Haskell。我有一项学校作业，我想通过删除一两个步骤来改进它，但我遇到了一个讨厌的错误。基本上，我创建了
graphql - 变量和参数的类型不匹配(整数/整数)
给定以下GraphQL请求和变量: 请求: query accounts($filter:AccountFilter, $first_:String, $skip_:Int) { accounts
javascript - 整数、整数+点和小数的正则表达式
我已经搜索了 StackOverflow，但找不到关于如何检查计算器应用程序的数字输入正则表达式的答案，该计算器应用程序将检查每个 keyup 的以下格式(jquery key up): 任何整数，例
Java 图形 : setClip vs clipRect vs repaint(int, 整数、整数、整数)
类似于我上一篇致歉的文章，但没有那么长篇大论。基本上我想知道当每次重绘调用只重绘屏幕的一小部分时，优化重绘到 JFrame/JPanel 的最佳选择是什么。此外，除了重绘重载之外，我并不是 100%
math - F#:整数 (%) 整数 - 是如何计算的？
所以在我的教科书中有一个使用 f# 的递归函数的例子 let rec gcd = function | (0,n) -> n | (m,n) -> gcd(n % m,m);; 使用此功能，我的教科书
haskell - 给测量数据结构的函数赋予什么类型？整数，整数，积分？
我有一个数据结构，例如表达式树或图形。我想添加一些“测量”功能，例如depth和 size . 如何最好地键入这些函数？我认为以下三个变体的用处大致相同: depth :: Expr -> Int
java - compareTo 与原语 -> 整数/整数
这样写比较好 int primitive1 = 3, primitive2 = 4; Integer a = new Integer(primitive1); Integer b = new Inte
Java 8 HashMap<整数, ArrayList<整数>>
我是 Java 8 新手，想根据键对 Map 进行排序，然后在值内对每个列表进行排序。我试图寻找一种 Java 8 方法来对键和值进行排序。HashMap>映射 map.entrySet().str
C++: vector <对< vector <整数>，整数>>
这就是我的目标... vector ,int> > var_name (x, pair (y),int>); 其中 x 是 vector var_name 的大小，y 是对内 vector 的大小。
java - 队列<整数> q = new LinkedList<整数>()
这里是 an answer to "How do I instantiate a Queue object in java?" , Queue is an interface. You can't i
java - 整数 i=3 vs 整数 i= 新整数 (3)
这个问题在这里已经有了答案: Weird Integer boxing in Java (12 个答案) Why are autoboxed Integers and .getClass() val
C++: 对< vector <整数>, vector <整数>> p;
我们可以使用 C++ STL 做这样的事情吗？如果是，我将如何初始化元素？我试图这样做，但没有成功。 pair,vector>p; p.first[0]=2; 最佳答案 Can we do som
javascript - 基于值(整数，字符串)或(整数， float )的混合返回数组的索引
您好，我正在尝试为百分比和整数数组中的数字找到索引。假设 arraynum = ['10%','250','20%','500'] 并且用户发送一个值 15%，这个数字在哪个范围内居住？我可以使用这段
mysql - 将 AVG(整数) 与类别的 AVG(整数) 进行比较
我与三列有关系:ProductName、CategoryID 和 Price。我需要选择仅那些价格高于给定类别中平均产品价格的产品。(例如，当apple(ProductName)是fruit(Cate
c++ - 如何打印对的第二部分？ EX : pair>
我已经坚持了一段时间，我正在尝试将一些数据配对在一起。这是我的代码。 #include #include using namespace std; int main() { pair data(
swift - '(整数，整数 )' is not identical to ' CGPoint'
我收到错误:'(Int, Int)' 与 'CGPoint' 不相同如何将 (Int, Int) 转换为 CGPoint let zigzag = [(100,100), (100,150)
c++ - 这是什么 C++ 语言构造 : # (i. e。哈希)整数 "path_to_header_or_cpp_file"<整数>？
我在 .cpp 文件中发现了以下代码。我不理解涉及头文件的构造或语法。我确实认识到这些特定的头文件与 Android NDK 相关。但是，我认为这个问题是关于 C++ 语法的一般问题。这些在某种程度上
scala - 整数 vs 整数 : type mismatch, 找到 : Int, 需要:字符串
我将这些输入到 Scala 解释器中: val a : Integer = 1; val b : Integer = a + 1; 我收到消息: :5: error: type mismatch;
c++ - vector <对<整数，整数>>v(大小)；打印时显示 0 作为值
C++:vector>v(size);当我试图打印出值时显示 0 作为值，但是当未声明 vector 大小时它显示正确的输出？为什么这样？例如: int x; cin>>x; vector>v(x);

首页

博学

6Ren·AI

商城

c# - 查找已排序整数数组的交集