python - GaussianHMM 中的解码序列-6ren

python - GaussianHMM 中的解码序列

转载作者：太空狗更新时间：2023-10-29 16:58:14

24

4

我正在使用隐马尔可夫模型来解决股票市场预测问题。我的数据矩阵包含针对特定安全性的各种功能:

01-01-2001, .025, .012, .01
01-02-2001, -.005, -.023, .02

我拟合了一个简单的 GaussianHMM:

from hmmlearn import GaussianHMM
mdl = GaussianHMM(n_components=3,covariance_type='diag',n_iter=1000)
mdl.fit(train[:,1:])

利用模型 (λ)，我可以对观察向量进行解码，以找到最有可能对应观察向量的隐藏状态序列:

print mdl.decode(test[0:5,1:])
(72.75, array([2, 1, 2, 0, 0]))

上面，我已经解码了观察向量 O_t = (O₁, O₂, .. ., O_d) 其中包含测试集中的前五个实例。我想估计测试集中第六个实例的隐藏状态。这个想法是为第六个实例迭代一组离散的可能特征值，并选择具有最高似然度的观察序列 O_t+1 argmax = P(O₁ , O₂, ..., O_d+1 | λ ).一旦我们观察到 O_d+1 的真实特征值，我们就可以将序列(长度为 5)移动一个并重新做一遍:

    l = 5
    for i in xrange(len(test)-l):
        values = []
        for a in arange(-0.05,0.05,.01):
            for b in arange(-0.05,0.05,.01):
                for c in arange(-0.05,0.05,.01):
                    values.append(mdl.decode(vstack((test[i:i+l,1:],array([a,b,c])))))
     print max(enumerate(values),key=lambda x: x[1])

问题是，当我对观察向量 O_t+1 进行解码时，具有最高可能性的预测几乎总是相同的(例如，具有最高可能性的估计总是具有 O< sub>d+1 等于 [ 0.04 0.04 0.04] 并且是隐藏状态 [0]):

(555, (74.71248518927949, array([2, 1, 2, 0, 0, 0]))) [ 0.04  0.04  0.04]
(555, (69.41963358191555, array([2, 2, 0, 0, 0, 0]))) [ 0.04  0.04  0.04]
(555, (77.11516871816922, array([2, 0, 0, 0, 0, 0]))) [ 0.04  0.04  0.04]

我完全有可能误解了 mdl.decode 的用途，从而错误地使用了它。如果是这样的话，我怎样才能最好地迭代 O_d+1 的可能值，然后最大化 P(O₁, O₂, ..., O_d+1 | λ)?

最佳答案

您的实际值是否有界 [-0.05, 0.05)？

当我最初构建样本数据集来查看您的问题时，我在 [0,1] 中绘制了随机 float 。当我这样做时，我也得到了与您观察到的相同的结果 - 对于第六个条目，对于每个序列，始终是 (a,b,c) 的最大值，并且始终是相同的预测类.但是考虑到我的数据分布(均匀分布在 0 和 1 之间)比第六个条目的网格搜索值(在 - .05 和 .05)，HMM 总是选择最高值的三元组 (.04,.04,.04) 是有道理的，因为这最接近它所训练的分布的主要密度。

当我使用与我们允许的第六个条目 ([-0.05,0.05)) 相同的可能值范围内的均匀分布来重建数据集时，输出更加多样化:O_t+1 选择和类别预测都显示了跨序列的合理差异。从您的示例数据来看，您似乎确实至少有正值和负值，但您可以尝试绘制每个特征的分布，看看您的可能的第六项值范围是否都是合理的。

这是一些示例数据和评估代码。每当出现新的最佳 (a,b,c) 序列时，或者当第 6 次观察的预测发生变化时(只是为了表明它们并不完全相同)，它都会打印一条消息.每个 6 元素序列的最高可能性以及预测和最佳第 6 个数据点存储在 best_per_span 中。

首先，构造一个样本数据集:

import numpy as np
import pandas as pd

dates = pd.date_range(start="01-01-2001", end="31-12-2001", freq='D')
n_obs = len(dates)
n_feat = 3
values = np.random.uniform(-.05, .05, size=n_obs*n_feat).reshape((n_obs,n_feat))
df = pd.DataFrame(values, index=dates)

df.head()
                   0         1         2
2001-01-01  0.020891 -0.048750 -0.027131
2001-01-02  0.013571 -0.011283  0.041322
2001-01-03 -0.008102  0.034088 -0.029202
2001-01-04 -0.019666 -0.005705 -0.003531
2001-01-05 -0.000238 -0.039251  0.029307

现在分为训练集和测试集:

train_pct = 0.7
train_size = round(train_pct*n_obs)
train_ix = np.random.choice(range(n_obs), size=train_size, replace=False)
train_dates = df.index[train_ix]

train = df.loc[train_dates]
test = df.loc[~df.index.isin(train_dates)]

train.shape # (255, 3)
test.shape # (110, 3)

在训练数据上拟合三态 HMM:

# hmm throws a lot of deprecation warnings, we'll suppress them.
import warnings
with warnings.catch_warnings():
    warnings.filterwarnings("ignore",category=DeprecationWarning)
    # in the most recent hmmlearn we can't import GaussianHMM directly anymore.
    from hmmlearn import hmm

mdl = hmm.GaussianHMM(n_components=3, covariance_type='diag', n_iter=1000)
mdl.fit(train)

现在网格搜索最佳第 6 (t+1) 观察:

# length of O_t
span = 5

# final store of optimal configurations per O_t+1 sequence
best_per_span = []

# update these to demonstrate heterogenous outcomes
current_abc = None
current_pred = None

for start in range(len(test)-span):
    flag = False
    end = start + span
    first_five = test.iloc[start:end].values
    output = []
    for a in np.arange(-0.05,0.05,.01):
        for b in np.arange(-0.05,0.05,.01):
            for c in np.arange(-0.05,0.05,.01):
                sixth = np.array([a, b, c])[:, np.newaxis].T
                all_six = np.append(first_five, sixth, axis=0)
                output.append((mdl.decode(all_six), (a,b,c)))

    best = max(output, key=lambda x: x[0][0])

    best_dict = {"start":start,
                 "end":end,
                 "sixth":best[1],
                 "preds":best[0][1],
                 "lik":best[0][0]}  
    best_per_span.append(best_dict)

    # below here is all reporting
    if best_dict["sixth"] != current_abc:
        current_abc = best_dict["sixth"]
        flag = True
        print("New abc for range {}:{} = {}".format(start, end, current_abc))

    if best_dict["preds"][-1] != current_pred:
        current_pred = best_dict["preds"][-1]
        flag = True
        print("New pred for 6th position: {}".format(current_pred))

    if flag:
        print("Test sequence StartIx: {}, EndIx: {}".format(start, end))
        print("Best 6th value: {}".format(best_dict["sixth"]))
        print("Predicted hidden state sequence: {}".format(best_dict["preds"]))
        print("Likelihood: {}\n".format(best_dict["nLL"]))

循环运行时的报告输出示例:

New abc for range 3:8 = [-0.01, 0.01, 0.0]
New pred for 6th position: 1
Test sequence StartIx: 3, EndIx: 8
Best 6th value: [-0.01, 0.01, 0.0]
Predicted hidden state sequence: [0 2 2 1 0 1]
Likelihood: 35.30144407374163

New abc for range 18:23 = [-0.01, -0.01, -0.01]
New pred for 6th position: 2
Test sequence StartIx: 18, EndIx: 23
Best 6th value: [-0.01, -0.01, -0.01]
Predicted hidden state sequence: [0 0 0 1 2 2]
Likelihood: 34.31813078939214

best_per_span 的示例输出:

[{'end': 5,
  'lik': 33.791537281734904,
  'preds': array([0, 2, 0, 1, 2, 2]),
  'sixth': [-0.01, -0.01, -0.01],
  'start': 0},
 {'end': 6,
  'lik': 33.28967307589143,
  'preds': array([0, 0, 1, 2, 2, 2]),
  'sixth': [-0.01, -0.01, -0.01],
  'start': 1},
 {'end': 7,
  'lik': 34.446813870838156,
  'preds': array([0, 1, 2, 2, 2, 2]),
  'sixth': [-0.01, -0.01, -0.01],
  'start': 2}]

除了报告元素之外，这并不是对您最初方法的重大更改，但它似乎确实按预期工作，而且每次都没有达到极限。

关于python - GaussianHMM 中的解码序列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45538826/

24

4

0

文章推荐： python - 自定义损失函数 sklearn

文章推荐： c - 多线程和strtok

文章推荐： c - 分代GC源代码

文章推荐： c - 虚假共享和 pthreads

Golang 中的 Json 解码/解码
我有以下 json: {"results": [{"columns":["room_id","player_name","player_ip"], "types":["integer","text
json - Golang 解码/解码 JSON 中的无效 unicode
我在 go 中获取格式不一致的 JSON 文件。例如，我可以有以下内容: {"email": "\"blah.blah@blah.com\""} {"email": "robert@gmail.com
javascript - JavaScript 中的 JSON 编码/解码 base64 编码/解码
JavaScript中有JSON编码/解码base64编码/解码函数吗？最佳答案是的，btoa() 和 atob() 在某些浏览器中可以工作: var enc = btoa("this is so
Encog之一 - 解码
我在其中一个项目中使用了 Encog，但在解码 One-Of Class 时卡住了。该字段的规范化操作之一是 NormalizationAction.OneOf，它具有三个输出。当我评估时，我想解码预
R:序列化不完全匹配的文本的base64编码/解码
在我的 previous question关于使用 serialize() 创建对象的 CSV 我从 jmoy 那里得到了一个很好的答案，他推荐了我的序列化文本的 base64 编码。这正是我要找的。
解码 JPEG 文件时跨浏览器不兼容？
有些事情让我感到困惑 - 为什么 this image在每个浏览器中显示不同？ IE9(和 Windows 照片查看器)中的图像: Firefox(和 Photoshop)中的图像: Chrome(和
java - JAXB 解码
是否可以在不知道它的类型( JAXBContext.newInstance(clazz) )的情况下解码一个类，或者什么是测试即将到来的正确方法？我确实收到了从纯文本中解码的消息 - 字符串传入的
OpenSSL Base64 解码
我正在尝试使用 openSSL 库进行 Base64 解码，然后使用 CMS 来验证签名。下面的代码总是将缓冲区打印为 NULL。 char signed_data[] = "MIIO"; int
iphone - 如何对选择器的引用进行编码/解码？
我有一个带有 SEL 类型实例变量的类，它是对选择器的引用。在encodeWithCoder/initWithCoder中，如何编码/解码这种类型的变量？最佳答案您可以使用 NSStringFro
javascript - 解码 ReadableByteStreams
var url = 'http://www.googleapis.com/customsearch/v1?q=foo&searchType=image'; window.fetch(url) .t
android - 在Android中支持对视频文件进行编码/解码
我想知道Android 2.2、2.3和3,4支持的音频/视频格式列表。我也想知道哪些Android版本支持视频编码和解码。我经历了this link，但是关于编码和解码我并不清楚。任何人的回答都是
Encog One Of - 解码
我在其中一个项目中使用 Encog，但在解码 One-Of 类时遇到了困难。该字段的规范化操作之一是 NormalizationAction.OneOf，它具有三个输出。当我评估时，我想解码预测值。如
java - 解码 XML
我正在尝试解码现有的 xml 文件，以便我可以正确处理数据，但 XML 结构看起来很奇怪。下面是 xml 示例以及我创建的对象。 11 266 AA1001 1
Unicode URL 解码
对 unicode 字符进行 URL 编码的常用方法是将其拆分为 2 %HH 代码。 (\u4161 => %41%61) 但是，unicode在解码时是如何区分的呢？您如何知道 %41%61 是 \
Java 解码 JSON
我正在尝试将 json 字符串解码为 Map。我知道有很多这样的问题，但我需要非常具体的格式。例如，我有 json 字符串: { "map": { "a": "b",
SQL 解码 - 选择和位置
我有一个查询，我认为需要像这样(解码会更大) SELECT firstName, lastName, decode(mathMrk, 80, 'A', mathMrk) as decodeMat
PHP 仅对数字和字符进行字符串编码/解码
我知道PHP函数encode()和decode()，它们对我来说工作得很好，但我想在url中传递编码字符串，但encode确实返回特殊字符，如“=”、“”' “等等...... 这显然会破坏我的脚本，
Java - Base64 解码
我必须解码 Basic bW9uTG9naW46bW9uTW90RGVQYXNz 形式的 http 请求的授权 header 当我解码它时online ，我得到了正确的结果 monLogin:monM
java - 哪个Java库提供base64编码/解码？
这个问题已经有答案了: Decode Base64 data in Java (21 个回答) 已关闭 8 年前。我想知道使用哪个库进行 Base64 编码/解码？我需要此功能足够稳定以供生产使用。
java - 解码 [] 字节我只得到字符��
我正在尝试从 Arduino BT 解码 []byte，我的连接完美，问题是当我尝试解码数组时。我得到的只是这个字符�(发送的字节数相同)我认为问题出在解码上。我尝试使用 ASCII 字符集，但仍然存

首页

博学

6Ren·AI

商城

python - GaussianHMM 中的解码序列