- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想检查保存在 TS.csv 中的时间序列数据的平稳性.
但是,R 的 tseries::adf.test()
和 Python 的 statsmodels.tsa.stattools.adfuller()
给出完全不同的结果。
adf.test()
显示它是平稳的 (p < 0.05),而 adfuller()
显示它是非平稳的 (p > 0.05)。
下面的代码有没有问题?
在 R 和 Python 中测试时间序列平稳性的正确过程是什么?
谢谢。
R 代码:
> rd <- read.table('Data/TS.csv', sep = ',', header = TRUE)
> inp <- ts(rd$Sales, frequency = 12, start = c(1965, 1))
> inp
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1965 154 96 73 49 36 59 95 169 210 278 298 245
1966 200 118 90 79 78 91 167 169 289 347 375 203
1967 223 104 107 85 75 99 135 211 335 460 488 326
1968 346 261 224 141 148 145 223 272 445 560 612 467
1969 518 404 300 210 196 186 247 343 464 680 711 610
1970 613 392 273 322 189 257 324 404 677 858 895 664
1971 628 308 324 248 272
> library(tseries)
> adf.test(inp)
Augmented Dickey-Fuller Test
data: inp
Dickey-Fuller = -7.2564, Lag order = 4, p-value = 0.01
alternative hypothesis: stationary
Python 代码(来自 Time_Series.ipynb ):
import pandas as pd
from statsmodels.tsa.stattools import adfuller
df = pd.read_csv('Data/TS.csv')
ts = pd.Series(list(df['Sales']), index=pd.to_datetime(df['Month'],format='%Y-%m'))
s_test = adfuller(ts, autolag='AIC')
print("p value > 0.05 means data is non-stationary: ", s_test[1])
# output: p value > 0.05 means data is non-stationary: 0.988889420517
@gfgm 很好地解释了为什么 R 和 Python 的结果不同,以及如何通过更改参数使它们相同。
对于上面的第二个问题:“在 R 和 Python 中测试时间序列的平稳性的正确过程是什么?”。我想提供一些细节:
当预测一个时间序列时,ARIMA 模型需要输入的时间序列是平稳的。如果输入不是静止的,它应该是 log()
ed 或 diff()
ed 以使其静止,然后将其拟合到模型中。
所以问题是:我是否应该认为输入是固定的(使用 R 的默认参数)并将其直接拟合到 ARIMA 模型中,或者认为它是非固定的(使用 Python 的默认参数),并使用额外的函数(如 log()
或 diff()
)使其静止不动?
最佳答案
结果不同是因为拟合的模型略有不同,而且模型的滞后阶数完全不同。 python 测试包括一个常量“漂移”项(估计一个常量,从而使时间序列以零为中心),但 R 测试包括一个常量和一个线性趋势项。这可以在 python 代码中使用参数 regression = 'ct'
指定。
nlag = trunc((length(x)-1)^(1/3))
12*(nobs/100)^(1/4)
当您运行 Python 代码时,您告诉函数根据 AIC 标准选择最佳滞后长度。如果我们告诉 python 运行一个居中和去趋势的模型,并且我们告诉它使用 R 滞后长度标准,我们得到:
In [5]: adfuller(ts, regression="ct", maxlag = 4)[1]
Out[5]: 3.6892966741832268e-09
很难看出这是否与 R 的结果相同,因为 R 将其 p 值四舍五入为 .01,但我们可以告诉 R 使用 python 的滞后长度,而 python 使用 R 的模型(我不能更改模型R 具有此功能)。我们得到:
adf.test(inp, k = ceiling(12*(length(inp)/100)^(1/4)))
Augmented Dickey-Fuller Test
data: inp
Dickey-Fuller = -2.0253, Lag order = 12, p-value = 0.5652
alternative hypothesis: stationary
在 python 中:
In [6]: adfuller(ts, regression="ct")[1]
Out[6]: 0.58756464088883864
不完美,但非常接近。
python 模型的实际 Dickey-Fuller 测试统计量是
In [8]: adfuller(ts, regression="ct")[0]
Out[8]: -2.025340637385288
这与 R 结果相同。这些测试可能使用不同的方式从统计数据中计算 p 值。
关于python - 这个时间序列是否平稳?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49505749/
我正在阅读 Python 文档以真正深入了解 Python 语言,并遇到了 filter 和 map 函数。我以前使用过过滤器,但从未使用过映射,尽管我在 SO 上的各种 Python 问题中都见过这
当我尝试打印 BST 的级别顺序时,这个问题提示了我。 这是一个 Pre-Order Sequence: 4, 1, 2, 3, 5, 6, 7, 8 In_order Sequence : 1, 2
我的代码在 main(序列测试;)的第一行出现错误,指出它是对 sequence::sequence() 的 undefined reference 。我无法更改 main 中的代码。有谁知道我该如何
这可能很简单,但我在通常的 latex 指南中找不到任何相关内容。在这句话中: {\em hello\/} “\/”的目的是什么? 最佳答案 这就是所谓的斜体校正。其目的是确保斜体文本后有适当的间距。
当我从 Postgresql 表中删除所有记录,然后尝试重置序列以在插入时开始一个编号为 1 的新记录时,我得到不同的结果: SELECT setval('tblname_id_seq', (SELE
在版本10.0.3中,MariaDB引入了一种称为序列的存储引擎。 其ad hoc为操作生成整数序列,然后终止。 该序列包含正整数,以降序或升序排列,并使用起始,结束和递增值。 它不允许在多个查询中
如何在 Groovy 中获取给定数字的序列,例如: def number = 169 // need a method in groovy to find the consecutive number
基本上,如果这是 .NET,它看起来像这样: ISomething { string A { get; } int B { get; } } var somethings = new List
说以下代码部分(同一块): A <= 1 A <= 2 变量 A 总是被赋值为 2 吗?还是会出现竞争条件并分配 1 或 2? 我对非阻塞赋值的理解是,由硬件在 future 分配变量 A,因此它可能
在运行 WiX 设置时,我正在寻找操作列表及其顺序。不知何故,官方网站似乎没有提供任何信息。 基本问题是我想正确安排我的自定义操作。通常我需要使用 regsvr32.exe 注册一个 DLL,而这只能
F#初学者在这里 我想创建一个类型,它是具有至少一个元素的另一种具体类型(事件)的序列。任何其他元素都可以在以后随时添加。通常在 C# 中,我会创建一个具有私有(private) List 和公共(p
作为构建过程和不断发展的数据库的一部分,我试图创建一个脚本,该脚本将删除用户的所有表和序列。我不想重新创建用户,因为这将需要比所允许的更多的权限。 我的脚本创建了一个过程来删除表/序列,执行该过程,然
我想恢复两个向量的第一个日期和相同向量的第二个日期之间的日期序列,.... 这是一个例子: dates1 = as.Date(c('2015-10-01', '2015-03-27', '2015-0
这个问题已经有答案了: sql ORDER BY multiple values in specific order? (12 个回答) 已关闭 9 年前。 我有一个 sql 语句,我想要ORDER
我想恢复两个向量的第一个日期和相同向量的第二个日期之间的日期序列,.... 这是一个例子: dates1 = as.Date(c('2015-10-01', '2015-03-27', '2015-0
在用java编写代码时,我需要用“],[”分割字符串。下面是我的代码。 try (BufferedReader reader = new BufferedReader(new InputStreamR
这个问题已经有答案了: Project Euler Question 14 (Collatz Problem) (8 个回答) 已关闭 9 年前。 我正在尝试查找数字的 Collatz 序列。以下
我有一个例程函数process_letter_location(const char& c, string &word)。 在我的 main 中,我声明了一系列字符串变量,如下所示: string s
我需要找到最长的多米诺骨牌链,给定一组 12 个随机挑选的多米诺骨牌。我已经递归地生成了多米诺骨牌的所有可能性(使用 0 到 12 的面值有 91 种可能性)。多米诺骨牌由一 block “砖 blo
我有这个数据结构 Seq,它继承了类 vector 但有一些额外的功能。使用这个数据结构 Seq 我有这个预定义的数据结构: typedef Seq > MxInt2d; 我现在想要一个包含多个 Mx
我是一名优秀的程序员,十分优秀!