- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我隐含地把它变成了一个社区维基,因为答案可能非常广泛。我正在与一家初创公司合作以实现以下目标。
在医学研究中,患者的医疗记录可以包含关于患者特定诊断的无限量数据,例如吸烟者患肺癌的几率更高,但这并不一定意味着不吸烟者也会患肺癌。我的目标是创建/使用可以处理此类参数的数据库模型。
现在,我还必须想办法对这些参数化数据进行数据挖掘,以创建统计数据,例如查看所有患有肺癌的 40 岁女性的趋势。该报告可以是通用的(图表、表格等),医生可以在其中查看趋势或分析可行的可能解决方案....
我的问题是:1) 哪些数据库系统允许参数化后端存储(例如 Cassandra),可以在 Java 中轻松使用,并且在数据检索、链接等方面非常高效。我们正在处理每个州的大量患者记录。
2) 我可以使用哪些算法或 AI 技术进行数据挖掘?是否有任何采矿技术可以帮助我做到这一点?
PS Google Analytics 如何处理参数化数据?
PPS 参数化数据是具有键的数据,数据可以是值,另一个键值对,值列表,集合参数化数据(有组织的,无组织的)
我期待有启发性的答案! :-D
最佳答案
我只会尽量回答你的第一个问题。
Cassandra 是一个键值数据存储(在您的情况下参数化)。如果您使用 Cassandra,则需要更高的计算时间来导出复杂的报告。原因是 - 它以原始格式存储数据。如果您想扩展得非常大,像 NOSQL 数据库这样的 Cassandra 就很好。他们是eventually consistent以及对数据复制和延迟的妥协。
在您作为患者的情况下,可以无限地拥有任何形式的数据,请尝试适应三重存储模型(语义 Web 框架,如 Jena、OpenSesame 等)。它们允许您拥有糟糕的数据结构,并且可以在运行时进行塑造。此外,它们的查询引擎(SPARQL、SeRQL)为您提供了比 NOSQL 存储(如 Cassandra)更强大的功能,但这些查询功能明显不如 RDBMS。
关于database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3231322/
我不太关心数据挖掘,但我需要一些关于聚类的想法。让我先描述一下我的问题。 我有大约 100 个包含用户评论的数据表。例如,我试图找到描述质量的词。一个人可以说这是惊人的质量,另一个人可以说质量很好,现
我是数据挖掘的新手,如果这个问题对任何人来说都是显而易见的问题,我深表歉意。我知道有很多数据挖掘算法,例如顺序模式挖掘或先验算法。我想知道如果我有一个包含大约 20,000 名学生的数据库,我实现的以
我想从一个有很多变量的过程中获得最大的性能,其中很多变量是无法控制的。 我无法进行数千次实验,所以如果我可以进行数百次实验就更好了 改变许多可控参数 收集许多表明性能的参数的数据 对于那些我无法控制的
这基本上就是我正在做的。我从 en.wikipedia.org 中选择了一篇科学文章,并获得了已进行编辑的用户列表以及他们编辑该文章的次数。为了得到这个,我按照页面中的链接将我带到 toolserve
我有一个大型的简历 (CV) 数据库,以及一个skills 表,用于对所有用户的技能进行分组。 在该表中有一个字段 skill_text 以全文描述技能。 我正在寻找一种算法/软件/方法来从该表中提取
我们正在考虑购买数据挖掘软件以主要运行预测分析过程。 SQL Server 数据挖掘解决方案与 IBM 的 SPSS 等其他解决方案相比如何? 由于 SQL Server DM 包含在 SQL Ser
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我使用 jQuery 创建了一个不错的库,它在浏览器中运行,基本上完成了从各种 html 页面中挖掘任意数据的任务。我想将此库迁移到运行 PHP 的 Apache 服务器并在服务器端运行它。但是,我不
我正在开始一项工作,使用 python 和 pandas 分析来自 Eurostat 等统计机构的数据。我发现有两种方法可以从 Eurostat 获取数据。 pandas_datareader:貌似很
我在看 JDM。这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗?或者这是一组包含实际数据挖掘算法的包? 最佳答案 啊,奇迹 the interweb : Java Data Mining
我编写了数据挖掘先验算法,它在小测试数据上运行良好,但在更大的数据集上运行它时遇到问题。 我正在尝试生成经常一起购买的元素的规则。 我的小测试数据是5个交易和10个产品。 我的大测试数据是 1100
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等) note:项目链接以及码源见文末 1.赛题简介 了解赛题 赛题
人们经常使用 IR、ML 和数据挖掘等术语,但我注意到它们之间有很多重叠。 对于在这些领域有经验的人来说,这之间的界限到底是什么? 最佳答案 这只是一个人(受过 ML 正式培训)的观点;其他人可能会以
我不确定这个问题是否正确,但我要求解决我的疑问。 对于机器学习/数据挖掘,我们需要了解数据,这意味着您需要学习Hadoop,它在Java中有实现> 用于 MapReduce(如果我错了请纠正我)。 H
我是一名优秀的程序员,十分优秀!