- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在寻找一种优雅而有效的方法来表示和存储由显式采样构建的任意概率分布。
该分布预计具有以下属性:
[-4000; 4000]
a
, b
, |a - b| < 40
通常的表示形式(直方图数组)是不可取的,主要是因为量化/分辨率和空间之间的权衡。我想一定有一种表示方法可以根据本地“复杂性”自适应地改变 bin 大小。
空间是值得关注的,因为更高级别的类似网格的数据结构将包含数千个单元格,每个单元格都包含至少一个这样的概率表示。磁盘或网络传输的简单序列化是可取的,但效率不是优先事项。
任何帮助将不胜感激。
最佳答案
有趣的问题。这是一个建议,根据您的数学倾向,实现起来可能相当困难。
请注意,我以空间换取速度,因为我的建议可能在计算上相当繁重(但这要针对真实数据进行测试)。
首先,使用函数式方法。概率分布是一种概率度量:
struct Distribution
{
virtual ~Distribution() {};
virtual double integrate(std::function<double(double)>) = 0;
};
这样,您就可以从生成的样本中抽象出来,因为您不想存储它们。说服自己使用“集成”方法几乎可以做任何事情。
当然,对于显式样本,您可以执行类似的操作
struct SampledDistribution
{
double integrate(std::function<double(double)> f)
{
double acc = 0;
for (double x: samples) acc += f(samples);
return acc / samples.size();
}
std::deque<double> samples;
};
现在,存储部分:
The usual representation -- a histogram array -- is undesirable mainly because of the trade-off between quantization/resolution and space. I imagine there must be a method of representation that adaptively varies the bin size depending on local "complexity".
传统的方法是wavelets .您可以通过调用 integrate
来生成系数,您可以对其进行序列化。如果它们产生的积分估计量的方差很高,你就把它们扔掉。
然后,为了反序列化,您生成一个 Distribution
对象,其 integrate
方法对小波执行集成。可以使用您最喜欢的正交方法进行积分。我在这里故意含糊其辞,因为实际实现取决于您选择的小波系列(平滑、紧凑支持、正交与否等)。无论如何,您都需要深入研究文献。
这里的要点是,您通常只需要很少的小波来表示具有少量特征(例如几个峰值,否则形状规则)的平滑函数,这与更“规则”的有限元不同(直方图是一种特殊的有限元元素表示)。小波表示使其自身适应被变换的特征,无论它们的位置或大小如何。此外,您还可以决定要保留多少个系数,从而控制压缩比。
此外,0.001 是一个相当高的数字:我怀疑您只需要几个系数
权衡在于您使用哪种小波类:非常平滑的分布可能会用平滑小波很好地表示,但紧凑支持的小波可能更容易集成,等等。实验。请注意,您在这里不需要“小波变换”包:只需要小波函数的显式表示和正交例程(尝试使用 Gauss-XXX 程序进行重建,或其他高阶程序)。
我更喜欢在傅里叶域中定义的小波(如 Lemarie 小波),因为它们在傅里叶空间中的值和导数为零是已知的,这允许您对分布施加约束:概率度量必须集成到一,你可能碰巧事先知道期望值或方差。
此外,您可能希望将变量更改为仅处理函数,例如。在 [0,1] 上。有大量关于区间小波的文献。
关于c++ - 寻求概率分布数据表示的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9789638/
Byte byte1=10; Short short1=20; Integer integer=30; 在上面的代码中自动装箱成功在这里查看下面的代码,我正在明确地进行 casitng,因为它默认将
这里有几个相关的问题。 根据标题,如果我们将变量类型指定为 long 或 float、double,为什么它是一个要求?编译器不会在编译时评估变量的类型吗? Java 将所有整型文字视为 int -
我最近一直在使用一些 bash 脚本,并且一直在浏览手册页。根据我收集到的信息,$(( )) 是否表示 expr 而 [ ] 是否表示 test? 对于 $(( )): echo $(( 5 + 3
我有 UILabel,其中显示了 int 值,我希望如果值以千为单位,例如 1000,那么标签应该在 2000 年及以后显示 1k 和 2k。如何实现? 最佳答案 这个怎么样? int myNum =
我正在自学 verilog 并尝试编写失败模型。我在指定部分遇到了以下 ck->q 延迟弧的建模,但无法理解它到底是做什么的。 (posege CK => (Q : 1'b1))=(0, 0); 谁能
考虑这样一个句子: John Smith travelled to Washington. 在美好的一天,名称标记者会将“约翰·史密斯”识别为一个人,将“华盛顿”识别为一个地方。然而,如果没有其他证据
有没有办法通过某种元处理器或预处理器告诉 JavaScript 单词 AND 等于 && 而单词 OR 等于 ||和 <> 等同于 !===? 也许将 THEN 等同于 { 结束到 不要! 最佳答案
我正在处理一个非常大的图,它有 5 亿个节点,节点的平均度为 100。所以它是一种稀疏图。我还必须存储每条边的权重。我目前正在使用两个 vector ,如下所示 // V could be 100 m
我想使用 Python 表示一组整数范围,其中可以动态修改该集合并测试其是否包含在内。具体来说,我想将其应用于文件中的地址范围或行号。 我可以定义我关心的地址范围: 200 - 400 450 -
>>> x = -4 >>> print("{} {:b}".format(x, x)) -4 -100 >>> mask = 0xFFFFFFFF >>> print("{} {:b}".forma
虽然代码不多,但简单明了 复制代码 代码如下: preg_match('/^(?!string)/', 'aa') === true 这个用来验证一个字符串是否是非'string'开头的,
我正在尝试创建一些 SQLAlchemy 模型,并且正在努力解决如何将 timedelta 正确应用于特定列的问题。 timedelta(以天为单位指定)作为整数存储在单独的表 (Shifts) 中,
“Range: bytes=0-” header 是什么意思?是整个文件吗?我尝试发回 0 个字节但没有成功,当我发送整个文件时它可以正常工作,但我在流式上下文中不止一次收到此请求,它看起来不正确。
要创建时间序列的 SAX 表示,您首先需要计算数据的 PAA(分段聚合近似),然后将答案映射到符号表。但是,在计算 PAA 之前,您需要对数据进行标准化。 我正在对数据进行标准化,但我不知道之后如何计
假设我有一个 RESTful、超文本驱动的服务来模拟冰淇淋店。为了帮助更好地管理我的商店,我希望能够显示每日报告,列出所售每种冰淇淋的数量和美元值(value)。 这种报告功能似乎可以作为名为 Dai
我需要以 RDF 格式表示句子。 换句话说,“约翰喜欢可乐”将自动表示为: Subject : John Predicate : Likes Object : Coke 有谁知道我应该从哪里开始?是否
我即将编写一个解析器,将文本文件逐行读取到不同类型的结构中,并将这些结构提供给回调(观察者或访问者 - 尚不确定)。 文本文件包含 MT-940 数据 - SWIFT 银行对帐单。 这些行由一个指定类
我主要是一名 C++ 开发人员,但我经常编写 Python 脚本。我目前正在为游戏编写骰子模拟器,但我不确定在 Python 中解决我的问题的最佳方法。 一共有三种玩家技能,每个玩家一强、中一、弱一。
在过去的 5 个小时里,我一直在寻找答案。尽管我找到了很多答案,但它们并没有以任何方式提供帮助。 我基本上要寻找的是任何 32 位无符号整数的按位异或运算符的数学、算术唯一表示。 尽管这听起来很简单,
我需要将依赖项存储在 DAG 中。 (我们正在细粒度地规划新的学校类(class)) 我们正在使用 rails 3 注意事项 宽于深 很大 我估计每个节点有 5-10 个链接。随着系统的增长,这将增加
我是一名优秀的程序员,十分优秀!