- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个大型 SQL 数据库,其中包含状态特征和奖励指标之间的关联。例如
A ^ B ^ C ^ D ^ Action(E) => 0.1
F ^ G ^ W ^ D ^ Action(R,P,H) => 0.9
A ^ T ^ U ^ Y ^ Action(A,S) => 0.2
我的特征可能是离散的、连续的或标称的。我试图找到一组可用于最大化奖励指标的规则或模式。用于挖掘此数据以找到最强统计相关性的最佳工具是什么(最好用 Python 编写或可从 Python 访问)?
最佳答案
有一个完善的技术系列专门针对您的问题中提出的用例。考虑到实现这些技术的库的血统和广泛选择,它们甚至对许多数据分析师来说都不为人所知。
这类技术称为频繁项集(或频繁项集学习);还使用了术语关联规则 和 Market Bakset Analysis,但后者不太常见。 (顺便说一句,也许听起来含糊的名字导致了它们的相对默默无闻)。
arules后台文档第一句(arules是一个实现关联规则的R包):
Mining frequent itemsets and association rules is a popular and well-researched method for discovering interesting relations between variables in large datasets.
在分类学上,AR/FI 是一种无监督机器学习技术,根据 HTF,它是“bump hunting”或“mode finding”的简化
无论如何,这两个术语(单独使用或一起使用)是网络搜索的最佳初始查询术语。您会找到这两个术语的维基百科条目;一个 Association Rules是一个很好的高级概述,但对于程序员来说已经足够详细了。所以这两个术语描述了这项技术; “Apriori”和“Eclat”是最初由 IBM Almaden Research 开发的原始关联规则算法的两个最广泛使用的实现。
要使用 apriori,您需要传入希望算法测试关联的数据库字段;您还传递了一个阈值关联——又名支持级别。我通常选择 5%,然后朝一个方向或另一个方向调整它,直到我得到我想要的规则数量(支持级别越高,返回的规则越少)。
apriori 返回的是关联规则本身。
如果你想要一个 python 库来做 AR/FI,那么 Orange是我所知道的唯一一个(可能还有其他)。 (您可能知道,Orange 有一个 GUI,但它有一个很好的 python 脚本界面)。我从未使用过 Orange,但我只是简单地了解了它的关联规则模块,它的实现似乎与我个人使用的 AR 库类似。 tutorial (在 python 中)我认为非常好。
我的建议可能是使用 R 绑定(bind)通过 Python 访问 R 对 AR/FI 的强大支持,RPy2 .
R 是唯一用于关联规则 的语言/平台,我拥有相当数量的所有五个 AR/FI 库。对于我的第一个 AR/FI 项目,我选择 R 与 AR/FI 库的可用性或质量无关,而是与简单易用的关系数据库驱动程序(用于 MySQL、PostgreSQL 和 SQLite)有关;现在还有最常用的 NoSQL 事务数据库(如 MongoDB 和 CouchDB)的驱动程序/绑定(bind)。 MySQL 驱动程序/绑定(bind)允许我通过 R 连接到我的数据库,并将数据直接提供给apriori 算法。
关于python - 在关系数据库中查找统计相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8866294/
我有一个如下所示的数据框: Samples GENE GEN1 GEN2 GEN3 GEN4 GEN5 Sample1 21.0 160 110 3.90 2.62 16.5 Sa
我有以下映射 posts":{ "properties":{ "prop1": { "type": "nested", "properties": { "item
我有两个维度相等的矩阵(p 和 e),我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性 我使用了 Psych 库中的 corr.test() 函数,这是我所做的: libr
我有两个维度相等的矩阵(p 和 e),我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性 我使用了 Psych 库中的 corr.test() 函数,这是我所做的: libr
我正在尝试使用 estpost 和 community-contributed 命令将 Spearman 相关矩阵导出到 rtf 或 Excel 文件中 esttab。 但是,我收到以下错误: inv
我在网上找到了以下查询: SELECT company_title FROM companies WHERE company_title like '%gge%' GROUP BY compa
我是 Sphinx 和 Lucene 的重度用户。Sphinx 只需要一个数据库,对其进行索引。然后您调用 Sphinx 获取 ID。 但是,如果我想创建一个非常微型 的搜索引擎怎么办?就几行数据,几
是否有我要在下面描述的模式/算法的名称?... 假设您有一棵像这样的相关数据树: IDEs Visual Studio Visual Studio 2008 Visual Studio 2010 Ec
早上好。这是我的问题:我有几个文件,如下所示: 104 0.1697 12.3513214 15.9136214 112 -0.3146 12.0517303 14.8027303 122 0.271
在尝试将function_score与boost_mode: "sum"一起使用时(因为这样可以更轻松地跟踪不同的贡献),我想归一化查询相关性对整体文档分数的影响,但是为此,我需要知道它可以取什么值。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
X,Y 的 spearmanr(Spearman 相关性)输出为我提供以下信息: 相关性:0.54542821980327882 P 值:2.3569040685361066e-65 其中 len(X
我有一个 Pandas 数据框,它有一个七年时间范围内的日期时间索引和 10 种不同 Assets 的价格数据。我想运行 dataframe.corr 函数来评估 Assets 之间的关系,我的问题是
我有相同数据(公司)的 2 个信息源,我可以通过唯一 ID(契约(Contract)号)将它们连接在一起。第二个不同来源的存在是由于这两个来源是手动独立更新的。所以我在 2 个表中有一个 ID 和一个
我正在尝试在php中实现两组数据之间人员相关系数的计算。我只是想做可以在这个 url 上找到的移植 python 脚本 http://answers.oreilly.com/topic/1066-ho
所以我使用 PHP Symfony 和 Ongr-Elasticsearch 包来查询我的文档并返回匹配的对象。结果似乎按相关性/分数排序,但实际相关性/分数不包含在对象本身中。 这可能吗?我想将分数
我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和/或 Pearson 相关性。 我试过df['corr'] = df['col1'].rolling(P).corr(df['
我正在处理一个大型数据集。不过,我将从一个小示例开始,以说明我要实现的目标。 我有以下向量: season %group_by(season, round, team)%>%dplyr::mutate
我正在使用 OIDC 的混合身份验证流程。 options.Events.OnRedirectToIdentityProvider = redirectContext =>
我正在尝试查询我的产品ElasticSearch索引并创建一个script_score,但我一直收到错误Variable [relevancy] is not defined. 我尝试只用一个数字替换
我是一名优秀的程序员,十分优秀!