arrays - 以特定顺序遍历数组，以便公平地对其进行采样-6ren

arrays - 以特定顺序遍历数组，以便公平地对其进行采样

转载作者：塔克拉玛干更新时间：2023-11-03 03:57:30

27

4

我想以某种方式遍历数组:
从数组的第一个和最后一个元素开始，我要访问的下一个元素是距离所有先前访问过的元素最远的元素。

对于长度为 n+1 的数组，序列为

0,
n,
n/2(距离 0 和 n 最远)，
n/4 和 n*3/4(距离之前所有 3 个指数最远)，
n/8、n*3/8、n*5/8、n*7/8，(距离之前所有 5 个指数最远)
n*1/16、n*3/16、n*5/16、n*7/16、n*9/16、n*11/16、n*13/16、n*15/16
...

如果 n 不是 2 的幂，那么其中一些数字将不得不向上或向下舍入，但我不确定如何在舍入时避免重复。

最后我想要一个整数序列，它只包含 0 到 n 之间的所有数字一次。 (对于任何 n，不仅仅是二的幂)

这个排列有名字吗？

生成这些数字的函数将如何工作？

我正在寻找可以即时生成这些数字的函数。

如果有十亿个元素，我不想管理所有以前访问过的元素的巨大列表，或者提前生成整个排列列表。

想法是，一旦找到符合特定条件的元素，我就可以中止迭代，因此在大多数情况下我不需要整个排列序列。

所以我正在寻找具有以下属性的函数 f(int currentIndex, int maxIndex):

要对大小为 8 的数组进行交互，我会调用

f(0,8) returns 0, to get the index of the first element
f(1,8) returns 8
f(2,8) returns 4
f(3,8) returns 2
f(4,8) returns 6
f(5,8) returns 1
f(6,8) returns 3
f(7,8) returns 5
f(8,8) returns 7

(我不太确定如何将此示例扩展到不是 2 的幂的数字)

是否有具有这些属性的函数？

最佳答案

您描述的跳跃是 Van der Corput 序列的一个特征，如 a task I wrote on Rosetta Code 中所述.

我有一个精确的函数来重新排序输入序列，但它需要与输入数组一样大的数组。

下面是一个近似解，一个一个生成索引，只取输入数组的长度，然后用常量内存计算索引。

测试给出了例程“好”程度的一些指示。

>>> from fractions import Fraction
>>> from math import ceil
>>> 
>>> def vdc(n, base=2):
    vdc, denom = 0,1
    while n:
        denom *= base
        n, remainder = divmod(n, base)
        vdc += remainder / denom
    return vdc

>>> [vdc(i) for i in range(5)]
[0, 0.5, 0.25, 0.75, 0.125]
>>> def van_der_corput_index(sequence):
    lenseq = len(sequence)
    if lenseq:
        lenseq1 = lenseq - 1
        yield lenseq1   # last element
        for i in range(lenseq1):
            yield ceil(vdc(Fraction(i)) * lenseq1)


>>> seq = list(range(23))
>>> seq
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22]
>>> list(van_der_corput_index(seq))
[22, 0, 11, 6, 17, 3, 14, 9, 20, 2, 13, 7, 18, 5, 16, 10, 21, 1, 12, 7, 18, 4, 15]
>>> len(set(van_der_corput_index(seq)))
21
>>> from collections import Counter
>>> 
>>> for listlen in (2, 3, 5, 7, 11, 13, 17, 19, 23,
        29, 31, 37, 41, 43, 47, 53, 59, 61,
        67, 71, 73, 79, 83, 89, 97, 1023,
        1024, 4095, 4096, 2**16 - 1, 2**16):
    out = list(van_der_corput_index( list(range(listlen) )))
    outcount = Counter(out)
    if outcount and outcount.most_common(1)[0][1] > 1:
        print("Duplicates in %i leaving %i unique nums." % (listlen, len(outcount)))
    outlen = len(out)
    if outlen != listlen:
        print("Length change in %i to %i" % (listlen, outlen))


Duplicates in 23 leaving 21 unique nums.
Duplicates in 43 leaving 37 unique nums.
Duplicates in 47 leaving 41 unique nums.
Duplicates in 53 leaving 49 unique nums.
Duplicates in 59 leaving 55 unique nums.
Duplicates in 71 leaving 67 unique nums.
Duplicates in 79 leaving 69 unique nums.
Duplicates in 83 leaving 71 unique nums.
Duplicates in 89 leaving 81 unique nums.
>>> outlen
65536
>>> listlen
65536
>>>

关于arrays - 以特定顺序遍历数组，以便公平地对其进行采样，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37973116/

27

4

0

文章推荐： c++ - 如何使用OpenCV和PCL在2D平面上投影红外图像

文章推荐： algorithm - 跟踪累加结果，无反操作

r - 采样 - 限制每个元素被使用的次数
我正在寻找一种方法来对数字进行 1:40、3812 次(长度 = 3812)的采样，并进行替换 - 但对其进行限制，使每个数字的使用次数不会超过 100 次。有没有办法在采样命令 (sample())
python - Pandas 采样
如果我想随机采样 pandas 数据帧，我可以使用 pandas.DataFrame.sample . 假设我随机抽取 80% 的行。如何自动获取另外 20% 未选取的行？最佳答案正如 Lager
python - tensorflow 采样
我使用以下函数在每个图像中采样点。如果batch_size为None，tf.range会给出错误。如何在 tensorflow 中采样 def sampling(binary_selection,nu
audio - 采样 wav 文件以获取特定时间的幅度
我想知道是否有任何方法可以循环浏览 .wav 文件以获取 wav 文件中特定点的振幅/DB。我现在正在将它读入一个字节数组，但这对我来说没有任何帮助。我将它与我开发的一些硬件结合使用，这些硬件将光数
sql - 采样 SQL 时间序列
我有一个日期时间的时间序列，双列存储在 mySQL 中，并且希望每分钟对时间序列进行采样(即以一分钟为间隔提取最后一个值)。在一个 select 语句中是否有一种有效的方法来做到这一点？蛮力方式将涉
c++ - 采样 D3D11 深度缓冲区时出现问题
我正在为延迟渲染管道准备好我的一个小型 DirectX 11.0 项目中的一切。但是，我在从像素着色器中对深度缓冲区进行采样时遇到了很多麻烦。首先我定义深度纹理及其着色器资源 View :
php - 量子值的 SQL 采样
问题出现在量子值的样本上。情况是: 有一个表支付(payments): id_user[int] sum [int] date[date] 例如， sum(数量) 可以是 0 到 100,000 之间
c++ - 渲染中的区域采样与 BRDF 采样
这是一个理论问题。我目前正在研究渲染方程，我不明白在哪种情况下区域采样或半球采样更好以及为什么。我想知道的另一件事是，如果我们采用两种方法的平均值，结果是否会更好？最佳答案 Veach 和 Gui
python - 包裹二维数组中子数组的高效 Numpy 采样
我有一个 4x4 阵列，想知道是否有办法从它的任何位置随机抽取一个 2x2 正方形，允许正方形在到达边缘时环绕。例如: >> A = np.arange(16).reshape(4,-1) >> s
hadoop - 采样 HBase 表键空间
我想构建 HBase 表的行键空间的随机样本。例如，我希望 HBase 中大约 1% 的键随机分布在整个表中。执行此操作的最佳方法是什么？我想我可以编写一个 MapReduce 作业来处理所有数据
没有纹理绑定(bind)的 OpenGL 采样
当像这样在 GLSL 中对纹理进行采样时: vec4 color = texture(mySampler, myCoords); 如果没有纹理绑定(bind)到 mySampler，颜色似乎总是 (0
python - Keras 模型中的 Softmax 采样
我考虑过的一些方法: 继承自Model类 Sampled softmax in tensorflow keras 继承自Layers类 How can I use TensorFlow's sampl
使用 JOIN 进行 MySQL 采样
我有表clients，其中包含id、name、company列。表agreements，其中包含id、client_id、number、created_at列. 一对多关系。我的查询: SELEC
python - Tensorflow 采样 Softmax 损失正确使用
在具有许多类的分类问题中，tensorflow 文档建议使用 sampled_softmax_loss通过一个简单的 softmax减少训练时间。根据docs和 source (第 1180 行)，
python - 采样 Pandas Dataframe 的最快方法？
首先，我想从三个数据帧(每个 150 行)中随机抽取样本并连接结果。其次，我想尽可能多地重复这个过程。对于第 1 部分，我使用以下函数: def get_sample(n_A, n_B, n_C):
c# - 如何在像素着色器中实现 super 采样/抗锯齿？
我正在尝试编写几个像素着色器以应用于类似于 Photoshop 效果的图像。比如这个效果: http://www.geeks3d.com/20110428/shader-library-swirl-p
python - 采样/分析 PyObjC 应用程序的最佳方法是什么？
使用 Activity Monitor/Instruments/Shark 进行采样将显示充满 Python 解释器 C 函数的堆栈跟踪。如果能看到相应的 Python 符号名称，我会很有帮助。是否有
php - GAPI-Google Analytics(分析)采样。
我正在使用GAPI API来访问Google Analytics（分析），而不是直接自己做（我知道有点懒...）。我看过类文件，但看不到任何用于检查采样的内置函数。我想知道使用它的人是否找到了一种方法
oracle - 从 Oracle 采样，需要准确数量的结果(示例子句)
我正在尝试从 Peoplesoft 数据库中随机抽取总体样本。在线搜索使我认为 select 语句的 Sample 子句可能是我们使用的一个可行选项，但是我无法理解 Sample 子句如何确定返回的样
python - 我尝试以 100hz 采样，而不是按照程序运行的速度采样。我该怎么做呢？
我有一个程序，在其中我只是打印到 csv，我想要每秒正好 100 个样本点，但我不知道从哪里开始或如何做!请帮忙! from datetime import datetime import panda

首页

博学

6Ren·AI

商城

arrays - 以特定顺序遍历数组，以便公平地对其进行采样