- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个正实值的2D矩阵,存储如下:
vector<vector<double>> matrix;
N
单元格(0 <=
N
<=单元格总数),但要根据其被选择的概率。
最佳答案
我描述了两种方法,A和B。
A的工作时间约为N * number of cells
,并使用空间O(log number of cells)
。 N
很小的时候很好。
B在大约(number of cells + N) * O(log number of cells)
的时间上工作,并使用空间O(number of cells)
。因此,当N
很大(甚至是“medium”)但使用更多的内存时,这是很好的,实际上,由于某些原因,在某些情况下它可能会变慢。
方法A:
您需要做的第一件事是规范化条目。 (对我来说,尚不清楚您是否假设它们已被规范化。)这意味着,将所有条目相加并除以总和。 (这部分可能很慢,因此最好假设或要求已发生。)
然后您像这样采样:
[i,j]
条目(通过从整数i,j
到0
的范围内均匀地随机选择n-1
)。 p
范围内选择一个均匀随机的实数[0, 1]
。 matrix[i][j] > p
。如果是这样,则返回对[i][j]
。如果不是,请返回步骤1。[i][j]
的概率(每个条目都相同)乘以
p
数足够小的概率。这与
matrix[i][j]
值成正比,因此抽样正在选择具有正确比例的每个条目。在第3步中,我们也有可能回到起点,这是否会使事情产生偏差?基本上没有原因是,假设我们随意选择一个数字
k
,然后考虑算法的分布,条件是在
k
回合之后精确停止。在假设我们停止在
k
的第一个回合的前提下,无论我们选择什么值
k
,采样的分布都必须由上述参数完全正确。因为如果我们消除
p
太小的情况,那么其他可能性的比例都正确。由于分布对于我们可能要限制的
k
的每个值都是完美的,并且总体分布(不是对
k
限制的条件)是
k
每个值的分布的平均值,因此总体分布也很理想。
[i][j]
,可以通过考虑我们在步骤3停止的条件概率来确定在步骤3停止的概率。通过条件期望的公式,您可以得出
Pr[ stop at step 3 ] = sum_{i,j} ( 1/(n^2) * Matrix[i,j] )
1/n^2
。因此,无论矩阵中的条目是什么,预期的回合数都约为
n^2
(即
n^2
直到一个恒定因子)。您不能希望做得比我想的要好得多-读取矩阵的所有条目所花费的时间几乎相同,而且很难从分布中进行采样,甚至无法读取所有。
N
元素,您只需重复
N
次即可。
// Make histogram
typedef unsigned int uint;
typedef std::pair<uint, uint> upair;
typedef std::map<double, upair> histogram_type;
histogram_type histogram;
double cumulative = 0.0f;
for (uint i = 0; i < Matrix.size(); ++i) {
for (uint j = 0; j < Matrix[i].size(); ++j) {
cumulative += Matrix[i][j];
histogram[cumulative] = std::make_pair(i,j);
}
}
std::vector<upair> result;
for (uint k = 0; k < N; ++k) {
// Do a sample (this should never repeat... if it does not find a lower bound you could also assert false quite reasonably since it means something is wrong with rand() implementation)
while(1) {
double p = cumulative * rand(); // Or, for best results use std::mt19937 or boost::mt19937 and sample a real in the range [0,1] here.
histogram_type::iterator it = histogram::lower_bound(p);
if (it != histogram.end()) {
result.push_back(it->second);
break;
}
}
}
return result;
number of cells * O(log number of cells)
,因为插入 map 需要时间
O(log n)
。您需要一个有序的数据结构,以便以后进行重复采样时获得便宜的查询
N * O(log number of cells)
。可能您可以选择一种更专业的数据结构来加快速度,但是我认为改进的空间有限。
double
类型,也可能由于浮点舍入而出现一些错误:
cumulative += Matrix[i][j];
cumulative
比
Matrix[i][j]
大得多,超出了浮点精度可以处理的范围,那么每次执行此语句时,您可能会观察到明显的错误,这些错误会不断累积,从而带来严重的不准确性。
Matrix[i][j]
值进行排序。为了安全起见,您甚至可以在常规实现中执行此操作-渐渐地对这些家伙进行排序不会花费比您已经拥有的更多的时间。
关于c++ - 根据其概率选择一个矩阵单元,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33426921/
我试图要求 test/unit 的新版本(即不是与 ruby 捆绑的版本) .根据 instructions我用 gem i test-unit 安装它.但是现在当我需要 test/unit我似乎
简短版本是: 我有一个 systemd 单元,我想在调用时检查脚本的返回代码: systemctl status service.service 长版本:我有一个 lsb init 脚本正是这样做的,
我正在使用反射动态创建一个类的实例,这工作正常,除非尝试通过单元测试执行此操作 - 我使用的是 MS 测试框架。 我收到熟悉的错误:“无法加载文件或程序集‘Assy’或其依赖项之一。系统找不到指定的文
我想知道测试网站“界面功能”的最佳实践是什么。 我对哪些方法可用于测试界面和动态生成的内容感兴趣。特别是,我很难弄清楚是否可以为需要用户交互的操作创建自动化测试,或者这是否只是浪费时间,我应该让一些
我有一个简单的 Python 服务,其中有一个无限执行某些操作的循环。在各种信号上,sys.exit(0) 被调用,这导致 SystemExit 被引发,然后如果可以的话应该进行一些清理。 在测试中,
我正在使用 OpenCV 2.4.2 这是 OpenCV 文档中的引文 C++: void HoughLinesP(InputArray image, OutputArray lines, doubl
忙于 C# 中的自动化测试用例,我们需要在每次测试后恢复数据库快照。问题是,当运行多个测试时它会失败,因为“其他用户正在使用数据库时无法更改数据库状态。” 我们使用 SqlConnection.Cle
我阅读了 C# 规范并用谷歌搜索了它,但一无所获。 我 99% 肯定 C# 中没有像单元命名空间指令这样的功能,但问题是:为什么?是否有惯用或技术原因? 这很方便,尤其是当我们的大部分文件都由单个命名
我目前正在尝试向我的应用程序(一个非常老的项目......评论说 iOS 2.0)添加单元测试(精确的应用程序测试)并且总是偶然发现 undefined symbols for architectur
我正在使用Delphi 7,并且有一个新单元要在我的项目中使用。我已经编译了新的。当我尝试通过将其添加到uses子句在项目中使用此单元时,出现错误,提示未找到.dcu文件。我还尝试将文件的完整路径放在
场景:我需要编写一个复杂的nHibernate查询,该查询将返回预计的DTO,但是我想使用TDD方法。该方法如下所示: public PrintDTO GetUsersForPrinting(int
您可以通过运行以下命令在事件 html 设置中显示 Jupyter 笔记本: $ jupyter nbconvert untitled.ipynb --to slides --post serve 有
如何在一个网站上拥有多个 AdSense 单元? Google 提供的唯一代码是按单位计算的。 (adsbygoogle = window.adsbygoogle || []).push({})
我刚刚开始为大量代码编写测试。有很多类依赖于文件系统,即读取 CSV 文件、读/写配置文件等。 当前测试文件存储在项目(这是一个 Maven2 项目)的 test 目录中,但由于多种原因该目录并不总是
我对 TDD 还很陌生,在单元测试方面也不是很老练,所以才有这个问题。我有这个用 PHP 编写的遗留函数 function foo(){ x = bar(); y = baz();
我创建了一个程序,在 Swing 窗口的一侧显示结果过滤选项,但默认情况下它们水平相邻显示,这浪费了我在 BorderLayout 的西侧分配的空间。我可以在构造函数或添加语句中传递任何内容来将它们堆
标题不好的借口:如果有人能更好地描述它,请做。 我有一个 WeakList类,它“基本上”是一个 List> (虽然不是字面意义上的派生自列表,但它应该对用户完全透明)。 现在的基本思想是“如果引用的
我正在尝试在 UITableView 上添加两个原型(prototype)单元。但是,我不知道如何验证是否能够为每个原型(prototype)“返回”正确的单元格。你们能帮我一下吗? func ta
我正在使用 CloudKit 作为数据库创建一个简单的待办事项列表应用程序。目前我可以添加和删除对象,但对编辑对象感到困惑。 编辑项目 Controller protocol EditItemCont
我正在针对以下任务训练 RNN:给定一个包含 30 个单词的序列,然后将该序列分类为二进制类。 在我的网络中拥有超过 30 个单元(LSTM、GRU 或普通 RNN)有好处吗?我在网上看到过很多例子,
我是一名优秀的程序员,十分优秀!