gpt4 book ai didi

python - 在关系数据库中查找统计相关性

转载 作者:太空宇宙 更新时间:2023-11-04 06:25:07 26 4
gpt4 key购买 nike

我有一个大型 SQL 数据库,其中包含状态特征和奖励指标之间的关联。例如

A ^ B ^ C ^ D ^ Action(E) => 0.1
F ^ G ^ W ^ D ^ Action(R,P,H) => 0.9
A ^ T ^ U ^ Y ^ Action(A,S) => 0.2

我的特征可能是离散的、连续的或标称的。我试图找到一组可用于最大化奖励指标的规则或模式。用于挖掘此数据以找到最强统计相关性的最佳工具是什么(最好用 Python 编写或可从 Python 访问)?

最佳答案

有一个完善的技术系列专门针对您的问题中提出的用例。考虑到实现这些技术的库的血统和广泛选择,它们甚至对许多数据分析师来说都不为人所知。

这类技术称为频繁项集(或频繁项集学习);还使用了术语关联规则 和 Market Bakset Analysis,但后者不太常见。 (顺便说一句,也许听起来含糊的名字导致了它们的相对默默无闻)。

arules后台文档第一句(arules是一个实现关联规则的R包):

Mining frequent itemsets and association rules is a popular and well-researched method for discovering interesting relations between variables in large datasets.

在分类学上,AR/FI 是一种无监督机器学习技术,根据 HTF,它是“bump hunting”或“mode finding”的简化

无论如何,这两个术语(单独使用或一起使用)是网络搜索的最佳初始查询术语。您会找到这两个术语的维基百科条目;一个 Association Rules是一个很好的高级概述,但对于程序员来说已经足够详细了。所以这两个术语描述了这项技术; “Apriori”和“Eclat”是最初由 IBM Almaden Research 开发的原始关联规则算法的两个最广泛使用的实现。

要使用 apriori,您需要传入希望算法测试关联的数据库字段;您还传递了一个阈值关联——又名支持级别。我通常选择 5%,然后朝一个方向或另一个方向调整它,直到我得到我想要的规则数量(支持级别越高,返回的规则越少)。

apriori 返回的是关联规则本身。

如果你想要一个 python 库来做 AR/FI,那么 Orange是我所知道的唯一一个(可能还有其他)。 (您可能知道,Orange 有一个 GUI,但它有一个很好的 python 脚本界面)。我从未使用过 Orange,但我只是简单地了解了它的关联规则模块,它的实现似乎与我个人使用的 AR 库类似。 tutorial (在 python 中)我认为非常好。

我的建议可能是使用 R 绑定(bind)通过 Python 访问 R 对 AR/FI 的强大支持,RPy2 .

R 是唯一用于关联规则 的语言/平台,我拥有相当数量的所有五个 AR/FI 库。对于我的第一个 AR/FI 项目,我选择 R 与 AR/FI 库的可用性或质量无关,而是与简单易用的关系数据库驱动程序(用于 MySQL、PostgreSQL 和 SQLite)有关;现在还有最常用的 NoSQL 事务数据库(如 MongoDB 和 CouchDB)的驱动程序/绑定(bind)。 MySQL 驱动程序/绑定(bind)允许我通过 R 连接到我的数据库,并将数据直接提供给apriori 算法。

关于python - 在关系数据库中查找统计相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8866294/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com