- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试改进外汇市场上的交易策略。
我有一个巨大的表(100k +行),代表市场上每种可能的交易,交易类型(买或卖),该交易结束后的盈亏,以及10多个左右的变量,分别代表贸易开放时间。
我试图找出这10个变量中的任何一个是否与利润/亏损没有重大关系。
例如,假设变量X的范围是50到-50。
购买订单的X平均值为25,销售订单的X平均值为-25。
如果大多数获利的买单的价值X> 25,而大多数获利的卖单的价值X <-25,则我认为X与获利的关系很重要。
我想要一个很好的起点。我已经安装了RapidMiner 5
,以防有人可以给我一个具体的建议。
最佳答案
决策树也许是最好的起点。
树本身是功能重要性排名(或OP中所用的重要变量)的直观摘要。
为您提供整个视觉效果
分类/回归分析(以二叉树的形式),
这使其与任何其他分析/统计数据区分开来
我知道的技术;
决策树算法需要对数据进行很少的预处理,无需规范化,无需重新缩放,无需将离散变量转换为整数(例如,Male / Female => 0/1);它们既可以接受分类变量(离散变量),也可以接受连续变量,并且许多实现都可以处理不完整的数据(数据矩阵中某些行缺少的值);和
再次,树本身是功能重要性排名的视觉摘要
(即重要变量)-最重要的变量是
根节点,并且比两个子节点(在
比他们的四个孩子更重要。这里的“显着性”是指所解释的方差百分比(相对于某些响应变量,也称为“目标变量”或事物)
您正在尝试预测)。一个条件:从目视检查
不能从中区分变量重要性的决策树
在相同等级的节点之间。
如果您以前从未使用过它们,那么以下是决策树的工作原理:该算法将遍历数据中的每个变量(列)以及每个变量的每个值,然后根据每个值将数据分为两个子集。这些分割中的哪一个实际上是由算法选择的-即分割标准是什么?选择最“纯化”数据最多(即,最大化信息增益)的特定变量/值组合来拆分数据(该变量/值组合通常表示为节点的标签)。只是递归地执行这种简单的试探法,直到剩余的数据子集是纯净的,或者进一步拆分不会增加信息增益。
这如何告诉您数据集中变量的“重要性”?重要性的高低由与根节点的接近程度来表示-即层次级别或等级。
一个建议:决策树通常可以毫无问题地处理分类数据和离散数据。但是,以我的经验来看,如果响应变量(您尝试使用所有其他变量预测的变量)是离散的/分类的而不是连续的,则决策树算法始终会表现更好。看来您的可能是连续的,在这种情况下,应考虑离散化(除非这样做只会使整个分析变得毫无意义)。为此,只需使用对问题域有意义的参数(bin大小,bin数和bin边)对响应变量值进行装箱(例如,如果r / v由1的“连续值”组成)到100,则可以明智地将它们分为5个档位,分别为0-20、21-40、41-60,依此类推。
例如,从您的问题中,假设数据中的一个变量是X,并且它有5个值(10、20、25、50、100);还假设将您的数据与第三个值(25)分开会产生两个几乎纯的子集-一个低值和一个高值。只要此纯度高于通过拆分其他值获得的子集,数据将在该变量/值对上拆分。
RapidMiner确实确实有一个决策树实现,并且似乎网上有很多教程(例如,来自YouTube,here和here的教程)。 (请注意,我没有使用R / M中的决策树模块,也没有使用RapidMiner。)
我会考虑的另一组技术通常归类于“降维”。在D / R之后,特征提取和特征选择可能是两个最常见的术语。使用最广泛的是PCA或主成分分析,它基于协方差矩阵(源自数据矩阵)的特征向量分解。
此特征向量分解的一个直接结果是每个特征向量所占数据的可变性分数。只需根据此结果,您就可以确定需要多少维来解释数据,例如,数据中95%的可变性
如果RapidMiner具有PCA或其他功能相似的降维技术,则在何处找不到它。我确实知道RapidMiner具有R扩展名,当然您可以通过它在RapidMiner中访问R。R具有许多PCA库(软件包)。我在下面提到的那些都可以在CRAN上找到,这意味着那里的任何PCA软件包都满足文档和小插图(代码示例)的最低软件包要求。我可以推荐pcaPP(Projection Pursuit的稳健PCA)。
此外,我可以推荐有关PCA的两个出色的分步教程。第一个来自NIST Engineering Statistics Handbook。第二个是用于独立组件分析(ICA)的tutorial而不是PCA,但是我在这里提到它是因为这是一个很好的教程,并且这两种技术都用于类似的目的。
关于statistics - 数据挖掘中的重要变量(数字):从哪里开始?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7545962/
什么是事物 事务是一种机制、一个操作序列,包含了一组数据库操作命令,并且把所有的命令作为一个整体一起向系统提交或撤销操作请求,即这组数据库命令要么都执行,要么都不执行。 事务是一个不可分割的工.作逻辑
什么是范式? 简言之就是,数据库设计对数据的存储性能,还有开发人员对数据的操作都有莫大的关系。所以建立科学的,规范的数据库是需要满足一些规范来优化数据数据存储方式。在关系型数据库中这些规范就可以称为范
什么是事物 事务是一种机制、一个操作序列,包含了一组数据库操作命令,并且把所有的命令作为一个整体一起向系统提交或撤销操作请求,即这组数据库命令要么都执行,要么都不执行。 事务是一个不可分割的工.作逻辑
什么是范式? 简言之就是,数据库设计对数据的存储性能,还有开发人员对数据的操作都有莫大的关系。所以建立科学的,规范的数据库是需要满足一些规范来优化数据数据存储方式。在关系型数据库中这些规范就可以称为范
我正在尝试修改网站的布局,但有时网站会使用 !important,有没有办法覆盖它?我似乎无法弄清楚如何在页面的 css 文件之后加载 css 内容脚本。 最佳答案 !important CSS 规则
这个问题在这里已经有了答案: How to override !important? (12 个答案) 关闭 9 年前。 我写了一些 html,并在第三方网站中注入(inject)了一些 css 样
好的,我在这里安装了一个 wordpress 主题(www.sullivansuccesscoaching.com/home ...我们需要/home,因为仍然有一个 index.html 隐藏了 w
我已经为我的 Wordpress 模板创建了一个覆盖原始 CSS 的自定义样式表。但是,在我的日历页面上,原始 CSS 具有使用 !important 声明设置的每个表格单元格的高度: td {hei
这个问题在这里已经有了答案: How to document deconstructed parameters with JsDoc (1 个回答) 关闭 5 年前。 我正在努力寻找对文档 ES6
我的网站使用 bootstrap 4 和我制作的 css 文件。 在这个 css 文件的底部,我放置了一些媒体查询: @media (max-width: 575px) { .address .c
可以将 background-position X 设置为 0 带有标志 !important 和背景位置 Y 不带 !important? 例如: background-position-x: 0
我只想在焦点状态下去掉下拉列表中的轮廓。看这张图 我尝试使用 !important 覆盖 Bootstrap ,但根本不起作用。只是检查开发工具,突然看到这个。 Bootstrap 也使用 !impo
这个问题在这里已经有了答案: How to override !important? (12 个答案) 关闭 1 年前。
发生了什么事?:我的 jQuery Accordion 的动画坏了。在关闭上一个选项卡之前短时间单击下一个选项卡后,它会显示之前打开的选项卡。动画也不滑动。 CSS:来自this answer /*
如何使用 javascript 或 CSS 覆盖样式“color: red”?我想让它成为“2px”而不是“1px”边框。 Lorem... 我无法向“div”添加类、id。这不
这个问题在这里已经有了答案: How to override !important? (12 个答案) 关闭 5 年前。
滚动有问题不想显示其内容,如果我这样做 #callCenter { position: fixed; z-index: 2411 !important; display: bl
序言 1、MySQL表操作(创建表,查询表结构,更改表字段等), 2、MySQL的数据类型(CHAR、VARCHAR、BLOB,等), 本节比较重要,对数据表数据进行查询操作,其中可能大
如何将!important添加到客户端包GWT中的gwt-image: 我有这个: @sprite .superButton{ gwt-image : 'superButton'; backg
请帮助我..我想验证表单并使用 ajax 发送。 验证没有 ''onsubmit="return validateForm(this);"'' 工作。 但是当表单正确时,它的发送表单(页面刷新..)请
我是一名优秀的程序员,十分优秀!