gpt4 book ai didi

math - 通过对用户名进行采样来推断网站用户群规模的方法

转载 作者:行者123 更新时间:2023-11-30 08:24:36 25 4
gpt4 key购买 nike

假设您想要估计未公开此信息的网站的用户群规模。

人们更有可能以不同的概率获得不同的用户名。例如,如果系统上不存在用户名“nick”,则它的用户群可能非常小。如果用户名“starbaby”被占用,那么它可能是一个更大的网站。这似乎是一个简单的贝叶斯问题。

存在一个问题,不同的站点可能有不同的允许用户名空间。我想最大的问题是空格等常见字符的合法性。另一个可能污染先前发行版的问题是,当您想要的名称被占用时,网站是否会建议名称,或者让您自己想出一个更有创意的名称。

如何构建不同规模系统中用户名出现频率的训练集?有没有办法使用贝叶斯进行数值估计而不是分类到固定宽度的桶中?

最佳答案

您需要做的是在给定注册用户数量的情况下准确估计某个用户名出现的概率。假设 N 是用户数量,如果用户 u 存在,则 u = 1;如果用户不存在,则 u = 0。

首先,假设每个用户名的概率分布彼此独立。这不会是真的——你已经想出了一个原因——但这可能是必要的,因为它使数据收集和数学计算变得更加容易。

您将需要来自具有注册用户名的网站的大量数据以及该网站的用户总数。现在,采用任何特定的用户名并想象二维图上的数据点(N 位于 x 上,u 位于 y 上),在 y=0 处将有一条水平线,在 y=1 处有另一条水平线。您可以按照建议对 x 轴进行分箱,并取箱中所有数据点的平均 y 坐标以获得离散函数,或者您可以尝试将图表上的点拟合到某类函数。我真的不知道那一类函数是什么——也许是某种幂律? (我正在考虑 Zipf's law )。

您现在已经有了应用贝叶斯规则的概率分布。我不知道你想使用 N 的哪种先验。均匀分布(最多一些大数字)不会做出任何假设,但我猜大多数网站的用户群都很小。

我怀疑,为了使这项工作正常进行,当您从网站中抽取用户样本时,您将需要针对一组特定的用户进行此操作。我敢打赌,用户名的受欢迎程度将会有一个很长的尾部,因此用户的随机样本将为您提供许多非常不常用的名称,从而提供大量无信息的证据。

编辑:我有另一个想法;在大多数论坛(以及 StackOverflow)中,用户都有连续的用户 ID,因此您可以使用具有大量用户的单个站点来为您提供所有较小 N 的估计值。

关于math - 通过对用户名进行采样来推断网站用户群规模的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/474933/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com