Python - 'x' 列表中具有不同分布的示例-6ren

Python - 'x' 列表中具有不同分布的示例

转载作者：行者123 更新时间：2023-11-30 22:46:36

25

4

在以下代码中，我创建了项目和用户的列表。我将这些项目分为 3 个不同的列表，分别是非常流行、流行和常规项目。

import numpy as np


N_USERS = 20000
N_ITEMS = 1000

items = range(0, N_ITEMS)
users = range(0, N_USERS)

vpop = int(len(items)*0.1)
pop = int(len(items)*0.3)

np.random.shuffle(items)
vpop_items = items[:vpop]
pop_items = items[vpop:pop]
reg_items = items [pop:]

我想从具有不同分布的这些列表中抽取 X 个样本。例如:

list_of_items = sample(vpop_items, pop_items, reg_items, p = [0.5, 0.35, 0.15], X)

其中X是我想要制作的样本数量，P是与列表相对应的分布列表(vpop_items， pop_items、reg_items)。

所以最终我将在list_of_items中拥有X“items”。

假设X = 100。我总共需要 100 个样本，其中 vpop_items 的概率为 0.5，pop_items 的概率为 0.35，reg_items 的概率为 0.15。抽样必须是无放回的，即任何项目都不能被选择多次。

最佳答案

这是一个简单的 Python 算法，可以满足您的需求。它比您当前所做的更有效率，但我确信有一种更聪明的方法可以做到这一点。 :)

让num是想要的样本总数。我们首先生成num 0 - 1 范围内的随机数，并根据所需的累积概率对其进行测试，记录每个概率范围内出现的数字数量。接下来，我们使用第一步中找到的计数作为样本量对每个序列进行采样。最后，我们将这些样本混在一起。

在下面的代码中，我注释掉了进行改组的行，以便更容易地了解测试代码时发生的情况。

from random import seed, random, sample, shuffle
from itertools import accumulate

def multi_sample(seqs, probs, num):
    ''' Sample from each sequence in list/tuple `seqs` with the corresponding 
        probability in list/tuple `probs`. Return a list containing `num` samples
    '''
    # Compute the cumulative probability
    # This really should raise ValueError if aprobs[-1] != 1.0
    # and we ought to check that len(seqs) == len(probs)...
    aprobs = list(accumulate(probs))

    # Determine how many samples to take from each seq
    counts = [0] * len(seqs)
    for _ in range(num):
        x = random()
        for i, p in enumerate(aprobs):
            if x < p:
                break
        counts[i] += 1

    lst = []
    for seq, count in zip(seqs, counts):
        lst.extend(sample(seq, count))

    #shuffle(lst)
    return lst

# Test

N_ITEMS = 1000
items = list(range(N_ITEMS))
vpop = int(N_ITEMS * 0.1)
pop = int(N_ITEMS * 0.3)

#shuffle(items)
vpop_items = items[:vpop]
pop_items = items[vpop:pop]
reg_items = items[pop:]

all_items = (vpop_items, pop_items, reg_items)

list_of_items = multi_sample(all_items, probs=[0.5, 0.35, 0.15], num=100)
print(list_of_items)

# Verify

#list_of_items.sort()
#print(list_of_items)

# Should be ~50
print(sum(1 for x in list_of_items if x < vpop))
# Should be ~35
print(sum(1 for x in list_of_items if vpop <= x < pop))

典型输出

[65, 16, 81, 97, 30, 33, 52, 92, 96, 72, 50, 4, 75, 7, 44, 18, 90, 9, 91, 56, 85, 28, 84, 88, 76, 21, 14, 77, 8, 59, 22, 34, 93, 95, 63, 10, 99, 41, 60, 36, 66, 2, 13, 64, 51, 43, 11, 106, 153, 235, 189, 132, 150, 226, 196, 247, 245, 194, 172, 227, 202, 256, 163, 205, 131, 192, 295, 147, 246, 108, 291, 155, 128, 171, 141, 124, 102, 210, 294, 284, 276, 148, 122, 290, 948, 566, 894, 884, 310, 476, 562, 313, 357, 846, 794, 317, 335, 599, 370, 988]
47
37

请注意，此函数可能会失败:如果您调用 sample(seq, count)哪里count > len(seq)它将提高 ValueError: Sample larger than population 。所以你需要确保num足够小，因此不会发生这种情况。为了绝对安全，请确保num <= 小于最小序列的长度。根据给定的数据，num是100，最小的序列是vpop_items ，其中包含 100 项，因此我们无需担心。

感谢 Andras Deak 让我注意到这一重要观点。

<小时/>

正如我之前所说，肯定有一种更聪明的方法来做到这一点:而不是计算 counts在循环中，我们应该能够使用适当的数学直接生成这些计数，但恐怕我不知道(或不记得)如何做到这一点。当然，我们可以“作弊”。 :) 使用给定的数据，我们需要 vpop_items 中的大约 50 个项目, 35 件来自 pop_items其余 15 项来自 reg_items 。所以我们可以设置counts至[50, 35, 15]然后对每个计数进行小的随机调整，注意保持总数等于 100。

关于Python - 'x' 列表中具有不同分布的示例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40828527/

25

4

0

文章推荐： php - WampServer->Mysql取不到数据(一直返回NULL)

文章推荐： c# - 如何获取类扩展的所有类的 Type[]

文章推荐： python - 在 Python 3 中使用 MySQLdb 进行参数化查询

文章推荐： c# - InterIMAP，在 C# 中查看未读 IMAP 邮件和下载附件

Python 这段代码做了什么？列表=列表[列表!=值]
如标题所示，ans_list是一个答案列表，ans_index是一个数字(答案在词汇表中的索引，但与atm无关) 这里生成的 tree.anslist 是什么？ (例如，仅针对第一个)，忽略迭代。 f
MySQL 列表 IN 列表
我目前将用户的输入存储在逗号分隔的列表中，如下所示: Userid | Options 1 | 1,2,5 用户在一个数组形式中勾选一组选项，然后用逗号连接起来 1,2,5 然后 MySQ
MySQL 列表 IN 列表
我目前将用户的输入存储在逗号分隔的列表中，如下所示: Userid | Options 1 | 1,2,5 用户在一个数组形式中勾选一组选项，然后用逗号连接起来 1,2,5 然后 MySQ
list - 我怎样才能完全展平一个列表(列表(列表)......)
我想知道如何完全展平列表和包含它们的东西。除其他外，我想出了一个解决方案，它可以将具有多个元素的东西滑倒并将它们放回原处，或者在滑倒后将具有一个元素的东西拿走。这与 How do I “flatte
list - 我怎样才能完全展平一个列表(列表(列表)......)
我想知道如何完全展平列表和包含它们的东西。除其他外，我想出了一个解决方案，它可以将具有多个元素的东西滑倒并将它们放回原处，或者在滑倒后将带有一个元素的东西拿走。这与 How do I “flatte
java - 列表<列表<字符串>>到字符串[][]
这个问题已经有答案了: Convert nested list to 2d array (3 个回答) 已关闭 7 年前。 java中有没有快捷方式可以转换 List> 到 String[][] ？
java - 列表<列表<对象>>排序
我在排序时遇到问题 List> 。我创建了一个自定义比较器，在其中编写了对数据进行排序的代码。 public class CustomComparator implements Comparator
java - 列表数组列表转换
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Java Generics: Cannot cast List to List? 我只是想知道为什么下面的java代
c# - 列表<逗号分隔的字符串> => 列表<字符串>?
试图想出一个 LINQy 方法来做到这一点，但我什么也没想到。我有一个对象列表<>，其中包含一个属性，该属性是逗号分隔的字母代码列表: lst[0].codes = "AA,BB,DD" lst[1
python - 列表 += 元组与列表 = 列表 + 元组
假设我有这些任务: points = [] point = (1, 2) 我怎么会这样做: points += point 它工作得很好，并且给了我点 = [1, 2]。但是，如果我这样做: poin
scala - 将列表[任务[列表[A]]]转换为任务[列表[A]]
如何在 scala 中将 List[Task[List[Header]]] 类型转换为 Task[List[Header]]。我有一个方法返回 Task[List[Header]] 并多次调用 do
java - 如何在Java中获取二维列表的元素？例如，列表<列表<整数>>
如何在 Java 中查找二维列表的元素？我有一个参数为 List> 的函数我想知道如何找到这个列表的行和列。最佳答案如果你喜欢 List> obj 然后你就可以像这样访问 obj.get(cur
java - 列表<列表没有按预期工作
分配 List到 List工作正常。分配 List>到 List>不编译。代码 public class Main { public static void main(String[] a
java - 列表<可序列化> vs 列表
我正在用 Java 编写一个方法，该方法必须接收并迭代 Serializable 的 List。有什么区别: public void myMethod(List list) { } 和 public
java - 通知网格/列表/树内网格/列表/树的更改
我看到很多人想用 mvvm 更新网格/列表/树的一部分，但他们不想刷新整个列表。对于所有遇到此问题的人，我做了以下示例。希望这对你有用。最佳答案这是一个简单的例子。整个代码中最重要的是: Bi
C++ 列表到 Python 列表
我正在为现有的 C++ 库编写包装器，该库使用列表，其中 T 是自定义结构。我被建议使用 vector 而不是列表，但我试图避免修改库。为了更好地理解这个场景，我做了一个简单的应用程序，使用一个列表
java - 列表 VS 列表<基础>
List list List list 这两种声明有什么区别吗？谢谢，最佳答案是的。 List可以包含所有派生自 Base 的不同事物的混合物. List包含同质项(从某种意义上说，它们必须全部
Java 泛型 : List, 列表<对象>、列表
有人可以尽可能详细地解释以下类型之间的区别吗？ List List List 让我更具体一点。我什么时候想使用 // 1 public void CanYouGiveMeAnAnswer(List l
python - 是否有任何 python 模块可以计算(列表，列表)元组的频率？
我有一个元组列表，每个元组都是一对列表。所以我的数据看起来像: mylist = [(['foo', 'bar'], ['bar', 'bar']),(['bar', 'bar'],['bar', '
list - 给定一个 (a * b) 列表，返回一个 (a * b list) 列表
也许是一个时髦的标题，但我遇到了以下问题: 给定一个类型为 (a * b) list 的列表，我想创建一个类型为 (a * b list) list 的新列表。一个例子: 给定列表 let testL

首页

博学

6Ren·AI

商城

Python - 'x' 列表中具有不同分布的示例