algorithm - 计算排序统计数据的交换 - 只有两个分配而不是三个分配的交换-6ren

algorithm - 计算排序统计数据的交换 - 只有两个分配而不是三个分配的交换

转载作者：塔克拉玛干更新时间：2023-11-03 04:34:34

在帮助一名学生上课时，我实现了双枢轴快速排序算法来准备类(class)并对此产生了兴趣。运行一些统计，然后解决最坏的情况，然后再次运行统计，再次解决下一个最坏的情况，重复这个过程几次，得到的代码不超过 80 行简单直接的 Python 代码(有点少于弗拉基米尔的代码)。新颖的部分是如何结合一些非常简单但有效的后处理来构建 3 个分区。现在我需要一些关于如何正确测试和统计数据的帮助。

特别是关于如何计算交换:大多数交换只执行两个赋值而不是三个。那么我必须将它们算作完全掉期，还是仅将它们算作“2/3”掉期是否公平？

将每次交换计算为1，Cn * N * log2(N) 中的Cn 约为0.48 在短列表(<100 个元素)上，在 数百万 元素的较长列表上大约 0.55。这只是 Vladimir Yaroslavskiy 计算出的理论最小值。

相反，将较轻的交换计算为 2/3，对于任何列表大小，所需交换的数量几乎相等，并且大约为 0.36(stdev 大约为 0.015 )。

对于 200 万 记录的列表，比较次数的 Cn 平均在 1.3 左右，低于理论值 1.38 (从 2*N*ln(N) 开始)，对于较短的列表，即 1024 个元素，它在 1.21

左右

这是针对具有 100% 唯一编号 和使用 Python 的 random.shuffle() 进行随机排序 的列表。

所以我的问题是:

这样计算较轻的掉期是否可以，结果是否确实有希望？

同样有趣的是:

列表中的元素越多，排序越快。 Cn 是 0.03 和 0.1 分别用于所有 相等元素的 200 万 列表的交换和比较.
Cn sorted 和 reversed sorted lists 对于所有大小几乎相同:0.3 和 1 分别用于交换(用 2/3 计算)和比较。

我将很快发布一个包含更多统计信息的列表，其中包括最大堆栈深度、除交换和比较之外的递归调用次数。还有其他我应该算的东西吗？

此外，是否有一些“标准”测试套件包含各种情况(等号、部分排序等)的文件，可用于测试排序算法，并使结果与其他排序算法具有可比性。

5 月 5 日添加:我改进了算法，特别是对于排序列表。以下是每个运行 20 次的结果。这是好结果吗？

New statistics:
Random.shuffle(), unique number
  Length        Swaps/Nlog2(N)      Comparisons/Nlog2(N)   Maximum Stack/log2(N)
      16        0.367               0.922                  0.250
      64        0.360               1.072                  0.500
     256        0.342               1.122                  0.625
    1024        0.358               1.156                  0.800
    4096        0.359               1.199                  0.917
   16384        0.359               1.244                  1.071
   65536        0.360               1.244                  1.125
  262144        0.360               1.269                  1.167
 1048576        0.362               1.275                  1.200

Sorted, unique numbers
  Length        Swaps/Nlog2(N)      Comparisons/Nlog2(N)   Maximum Stack/log2(N)
      16        0.172               0.531                  0.250
      64        0.117               0.586                  0.333
     256        0.087               0.609                  0.375
    1024        0.075               0.740                  0.500
    4096        0.060               0.732                  0.500
   16384        0.051               0.726                  0.500
   65536        0.044               0.722                  0.500
  262144        0.041               0.781                  0.556
 1048576        0.036               0.774                  0.550
 2097152        0.035               0.780                  0.571

 Reversed order, unique numbers
   Length        Swaps/Nlog2(N)     Comparisons/Nlog2(N)   Maximum Stack/log2(N)
      16        0.344               0.828                  0.250
      64        0.279               0.812                  0.333
     256        0.234               0.788                  0.375
    1024        0.210               0.858                  0.500
    4096        0.190               0.865                  0.500
   16384        0.172               0.855                  0.500
   65536        0.158               0.846                  0.500
  262144        0.153               0.900                  0.556
 1048576        0.143               0.892                  0.550
 2097152        0.140               0.895                  0.571

最佳答案

我选择计算对要排序的元素执行的分配，而不是“交换”。索引的赋值和比较不计算在内。

我将 Vladimir Yaroslavskiy 的文档(最后更新时间:2009 年 9 月 22 日)中包含的代码转换为 Python，并按照我在自己的实现中所做的相同方式添加了计数器。代码包含在最后。

欢迎任何评论。

这是结果，10 次运行的平均值。

标有VY的列是Vladimir实现的结果，标有JB的列是我自己实现的。

 Length        F  Function call  Assignements   Comparisons    Maximum Stack
 of list          per N          per N.log2(N)  per N.log2(N)  per log2(N)

Random.shuffle(), unique number
Version             VY     JB      VY     JB      VY     JB      VY     JB
      64        1  0.170  0.266   1.489  1.029   1.041  1.028   0.417  0.633
     256        1  0.171  0.270   1.463  1.016   1.066  1.138   0.575  0.812
    1024        1  0.167  0.275   1.451  1.046   1.089  1.165   0.690  1.010
    4096        1  0.164  0.273   1.436  1.069   1.119  1.189   0.800  1.075
   16384        1  0.166  0.273   1.444  1.077   1.117  1.270   0.843  1.221
   65536        1  0.166  0.273   1.440  1.108   1.126  1.258   0.919  1.281
  262144        1  0.166  0.273   1.423  1.102   1.134  1.278   0.950  1.306
 1048576        1  0.166  0.273   1.426  1.085   1.131  1.273   0.990  1.290

Sorted, unique numbers
Version             VY     JB      VY     JB      VY     JB      VY     JB
      64        1  0.203  0.203   1.036  0.349   0.643  0.586   0.333  0.333
     256        1  0.156  0.156   0.904  0.262   0.643  0.609   0.375  0.375
    1024        1  0.118  0.355   0.823  0.223   0.642  0.740   0.400  0.500
    4096        1  0.131  0.267   0.840  0.181   0.679  0.732   0.500  0.500
   16384        1  0.200  0.200   0.926  0.152   0.751  0.726   0.500  0.500
   65536        1  0.150  0.150   0.866  0.131   0.737  0.722   0.500  0.500
  262144        1  0.113  0.338   0.829  0.124   0.728  0.781   0.500  0.556
 1048576        1  0.147  0.253   0.853  0.108   0.750  0.774   0.550  0.550

Reversed order, unique numbers
Version             VY     JB      VY     JB      VY     JB      VY     JB
      64        1  0.203  0.203   1.320  0.836   0.841  0.802   0.333  0.333
     256        1  0.156  0.156   1.118  0.703   0.795  0.783   0.375  0.375
    1024        1  0.118  0.312   1.002  0.631   0.768  0.852   0.400  0.500
    4096        1  0.125  0.267   0.977  0.569   0.776  0.861   0.500  0.500
   16384        1  0.200  0.200   1.046  0.516   0.834  0.852   0.500  0.500
   65536        1  0.150  0.150   0.974  0.475   0.813  0.844   0.500  0.500
  262144        1  0.113  0.338   0.925  0.459   0.795  0.896   0.500  0.556
 1048576        1  0.145  0.253   0.938  0.430   0.811  0.890   0.550  0.550

Random, with increasing frequency of the numbers.
The last row is a list of the same number
Version             VY     JB      VY     JB      VY     JB      VY     JB
   65536        1  0.166  0.273   1.429  1.051   1.113  1.251   0.881  1.156
   65536        2  0.167  0.270   1.404  1.075   1.112  1.238   0.894  1.194
   65536        4  0.168  0.273   1.373  1.039   1.096  1.213   0.906  1.238
   65536        8  0.151  0.245   1.302  1.029   1.069  1.199   0.900  1.262
   65536       16  0.132  0.127   1.264  0.970   1.020  1.150   0.912  1.188
   65536       32  0.090  0.064   1.127  0.920   0.950  1.099   0.856  1.119
   65536       64  0.051  0.032   1.000  0.845   0.879  0.993   0.819  1.019
   65536      128  0.026  0.016   0.884  0.792   0.797  0.923   0.725  0.931
   65536      256  0.013  0.008   0.805  0.704   0.728  0.840   0.675  0.856
   65536      512  0.006  0.004   0.690  0.615   0.652  0.728   0.588  0.669
   65536     1024  0.003  0.002   0.635  0.557   0.579  0.654   0.519  0.625
   65536     2048  0.002  0.001   0.541  0.487   0.509  0.582   0.438  0.463
   65536     4096  0.001  0.000   0.459  0.417   0.434  0.471   0.369  0.394
   65536     8192  0.000  0.000   0.351  0.359   0.357  0.405   0.294  0.300
   65536    16384  0.000  0.000   0.247  0.297   0.253  0.314   0.206  0.194
   65536    32768  0.000  0.000   0.231  0.188   0.209  0.212   0.125  0.081
   65536    65536  0.000  0.000   0.063  0.125   0.063  0.125   0.062  0.000

这是 Python 中 Vladimirs 排序的代码:

DIST_SIZE = 13
TINY_SIZE = 17

def dualPivotQuicksort(a, left, right, nesting=0):
  global assignements, comparisons, oproepen, maxnesting
  oproepen += 1
  maxnesting = max(maxnesting, nesting)

  length = right - left
  if length < TINY_SIZE: # insertion sort on tiny array
    # note by JB: rewritten to minimize the assignements
    for i in xrange(left+1, right+1):
      key = a[i]
      assignements += 1

      while i > left:
        comparisons += 1
        if key < a[i - 1]:
          assignements += 1
          a[i] = a[i-1]
          i -= 1
        else:
          break

      assignements += 1
      a[i] = key

    return

  # median indexes
  sixth = length / 6
  m1 = left + sixth
  m2 = m1 + sixth
  m3 = m2 + sixth
  m4 = m3 + sixth
  m5 = m4 + sixth
  assignements += 9*3
  comparisons += 9
  ## 5-element sorting network
  if a[m1] > a[m2]: a[m1],a[m2] = a[m2],a[m1]
  if a[m4] > a[m5]: a[m4],a[m5] = a[m5],a[m4]
  if a[m1] > a[m3]: a[m1],a[m3] = a[m3],a[m1]
  if a[m2] > a[m3]: a[m2],a[m3] = a[m3],a[m2] 
  if a[m1] > a[m4]: a[m1],a[m4] = a[m4],a[m1] 
  if a[m3] > a[m4]: a[m3],a[m4] = a[m4],a[m3] 
  if a[m2] > a[m5]: a[m2],a[m5] = a[m5],a[m2] 
  if a[m2] > a[m3]: a[m2],a[m3] = a[m3],a[m2] 
  if a[m4] > a[m5]: a[m4],a[m5] = a[m5],a[m4]

  # pivots: [ < pivot1 | pivot1 <= && <= pivot2 | > pivot2 ]
  assignements += 2
  pivot1 = a[m2]
  pivot2 = a[m4]

  comparisons += 1
  diffPivots = pivot1 != pivot2

  assignements += 2
  a[m2] = a[left]
  a[m4] = a[right]

  # center part pointers
  less = left + 1
  great = right - 1

  # sorting
  if (diffPivots):
    k = less
    while k <= great:
      assignements += 1
      x = a[k]

      comparisons += 2
      if (x < pivot1):
        comparisons -= 1
        assignements += 2
        a[k] = a[less]
        a[less] = x
        less += 1

      elif (x > pivot2):
        while k < great:
          comparisons += 1
          if a[great] > pivot2:
            great -= 1
          else:
            break

        assignements += 3
        a[k] = a[great]
        a[great] = x
        great -= 1
        x = a[k]

        comparisons += 1
        if (x < pivot1):
          assignements += 2
          a[k] = a[less]
          a[less] = x
          less += 1

      k += 1

  else:
    k = less
    while k <= great:
      assignements += 1
      x = a[k]

      comparisons += 1
      if (x == pivot1):
        k += 1
        continue

      comparisons += 1
      if (x < pivot1):
        assignements += 2
        a[k] = a[less]
        a[less] = x
        less += 1

      else:
        while k < great:
          comparisons += 1
          if a[great] > pivot2:
            great -= 1
          else:
            break

        assignements += 3
        a[k] = a[great]
        a[great] = x
        great -= 1
        x = a[k]

        comparisons += 1
        if (x < pivot1):
          assignements += 2
          a[k] = a[less]
          a[less] = x
          less += 1

      k += 1

  # swap
  assignements += 2
  a[left] = a[less - 1]
  a[less - 1] = pivot1

  assignements += 2
  a[right] = a[great + 1]
  a[great + 1] = pivot2

  # left and right parts
  dualPivotQuicksort(a, left, less - 2, nesting+1)
  dualPivotQuicksort(a, great + 2, right, nesting+1)

  # equal elements
  if (great - less > length - DIST_SIZE and diffPivots):
    k = less
    while k <= great:
      assignements += 1
      x = a[k]

      comparisons += 2
      if (x == pivot1):
        comparisons -= 1
        assignements += 2
        a[k] = a[less]
        a[less] = x
        less += 1

      elif (x == pivot2):
        assignements += 3
        a[k] = a[great]
        a[great] = x
        great -= 1
        x = a[k]

        comparisons += 1
        if (x == pivot1):
          assignements += 2
          a[k] = a[less]
          a[less] = x
          less += 1

      k += 1

  # center part
  if (diffPivots):
      dualPivotQuicksort(a, less, great, nesting+1)

这段代码大约有 190 行，我目前使用相同格式编写的实现大约有 110 行。

所以欢迎任何评论。

关于algorithm - 计算排序统计数据的交换 - 只有两个分配而不是三个分配的交换，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16503332/

文章推荐： PHP最快的二维数组搜索算法

文章推荐：查找包围点的多边形的算法 - 仅定义线

文章推荐： Javascript 文本高亮功能

文章推荐： algorithm - 数独与 MPI 并行化

algorithm - 隐私和匿名化 "Algorithm"
我在一本书(Interview Question)中读到这个问题，想在这里详细讨论这个问题。请点亮它。问题如下:- 隐私和匿名化马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意
algorithm - 微软技术面试 : Matrix Algorithm
我最近接受了一次面试，面试官给了我一些伪代码并提出了相关问题。不幸的是，由于准备不足，我无法回答他的问题。由于时间关系，我无法向他请教该问题的解决方案。如果有人可以指导我并帮助我理解问题，以便我可以改
algorithm - 获取二叉树中给定值的根到节点的距离 : Algorithm correctness
这是我的代码 public int getDist(Node root, int value) { if (root == null && value !=0) return
algorithm - 交叉点 : Strassen's Algorithm
就效率而言，Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少？我知道这与具体的实现和硬件密切相关，但对于一般情况应该有某种指南或某人的一些实验结果。在网上搜索了一下，问了一些他们认为
algorithm - 图书请求 : Distributed algorithms
我想学习一些关于分布式算法的知识，所以我正在寻找任何书籍推荐。我对理论书籍更感兴趣，因为实现只是个人喜好问题(我可能会使用 erlang(或 c#))。但另一方面，我不想对算法进行原始的数学分析。只是
algorithm - "classical algorithms"的真实世界实现
我想知道你们中有多少人实现了计算机科学的“ classical algorithms ”，例如 Dijkstra's algorithm或现实世界中的数据结构(例如二叉搜索树)，而不是学术项目？当有
algorithm - 我试图找到一个 "bartender algorithm"
我正在解决旧编程竞赛中的一些示例问题。在这个问题中，我们得到了我们有多少调酒师以及他们知道哪些食谱的信息。制作每杯鸡尾酒需要 1 分钟，我们需要使用所有调酒师计算是否可以在 5 分钟内完成订单。解决
algorithm - 函数式编程中存在 "algorithms"吗？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
javascript - if (!options.algorithms) throw new Error ('algorithms should be set' );错误 : algorithms should be set
我开始学习 Nodejs，但我被困在中间的某个地方。我从 npm 安装了一个新库，它是 express -jwt ，它在运行后显示某种错误。附上代码和错误日志，请帮助我! const jwt = re
algorithm - SSL 证书 : Signature Algorithm shows "sha256rsa" but thumbprint algorithm shows "sha1"
我有一个证书，其中签名算法显示“sha256rsa”，但指纹算法显示“sha1”。我的证书 SHA1/SHA2 的标识是什么？谢谢! 最佳答案 TL;TR:签名和指纹是完全不同的东西。对于证书的强度
algorithm - "algorithm problem size"到底是什么意思？
我目前在我的大学学习数据结构类(class)，并且在之前的类(class)中做过一些算法分析，但这是我在之前的类(class)中遇到的最困难的部分。我们现在将在我的数据结构类(class)中学习算法分
algorithm - 选择不相邻的单元格 : algorithm's time complexity
有一个由 N 个 1x1 方格组成的区域，并且该区域的所有部分都是相连的(没有任何方格无法到达的方格)。下面是一些面积的例子。我想在这个区域中选择一些方块，并且两个相邻的方块不能一起选择(对角接触
algorithm - 粗糙度降低 : Algorithm for smoothing out shapes
我有一些多边形形状的点列表，我想将其包含在我页面上的 Google map 中。我已经从原始数据中删除了尽可能多的不必要的多边形，现在我剩下大约 12 个，但它们非常详细以至于导致了问题。现在我的文
algorithm - Marching Squares Algorithm 的位移步骤
我目前正在实现 Marching Squares用于计算等高线曲线，我对此处提到的位移位的使用有疑问 Compose the 4 bits at the corners of the cell to
algorithm - 理解约束满足问题 : map coloring algorithm
我正在尝试针对给定算法的约束满足问题实现此递归回溯函数: function BACKTRACKING-SEARCH(csp) returns solution/failure return R
algorithm - 将矩阵除以矩阵 : Bartlett Correlation Algorithm
是否有包含反函数的库？作为项目的一部分，我目前正在研究测向算法。我正在使用巴特利特相关性。在 Bartlett 相关性中，我需要将已经是 3 次矩阵乘法(包括 Hermitian 转置)的分子除以作
algorithm - 多项式时间 : Accepting and Decision Algorithms
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
algorithm - 长波紫外线 - 1394 : And There Was One Algorithm
问题的链接是UVA - 1394 : And There Was One . 朴素的算法是扫描整个数组并在每次迭代中标记第 k 个元素并在最后停止:这需要 O(n^2) 时间。我搜索了一种替代算法并
algorithm - 什么是 "Decentralized Uniqueness Algorithm"？
COM 中创建 GUID 的函数 (CoCreateGUID) 使用“分散唯一性算法”，但我的问题是，它是什么？谁能解释一下？最佳答案一种生成 ID 的方法，该 ID 具有一定的唯一性保证，而不
algorithm - 最小化颜色 : a variation of the knapsack algorithm?
在做一个项目时我遇到了这个问题，我将在这个问题的实际领域之外重新措辞(我想我可以谈论烟花的口径和形状，但这会使理解更加复杂).我正在寻找一种(可能是近似的)算法来解决它。我有 n 个不同大小的容器，

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

algorithm - 计算排序统计数据的交换 - 只有两个分配而不是三个分配的交换