gpt4 book ai didi

database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操​​作

转载 作者:搜寻专家 更新时间:2023-10-30 21:37:26 26 4
gpt4 key购买 nike

我隐含地把它变成了一个社区维基,因为答案可能非常广泛。我正在与一家初创公司合作以实现以下目标。

在医学研究中,患者的医疗记录可以包含关于患者特定诊断的无限量数据,例如吸烟者患肺癌的几率更高,但这并不一定意味着不吸烟者也会患肺癌。我的目标是创建/使用可以处理此类参数的数据库模型。

现在,我还必须想办法对这些参数化数据进行数据挖掘,以创建统计数据,例如查看所有患有肺癌的 40 岁女性的趋势。该报告可以是通用的(图表、表格等),医生可以在其中查看趋势或分析可行的可能解决方案....

我的问题是:1) 哪些数据库系统允许参数化后端存储(例如 Cassandra),可以在 Java 中轻松使用,并且在数据检索、链接等方面非常高效。我们正在处理每个州的大量患者记录。

2) 我可以使用哪些算法或 AI 技术进行数据挖掘?是否有任何采矿技术可以帮助我做到这一点?

PS Google Analytics 如何处理参数化数据?
PPS 参数化数据是具有键的数据,数据可以是值,另一个键值对,值列表,集合参数化数据(有组织的,无组织的)

我期待有启发性的答案! :-D

最佳答案

我只会尽量回答你的第一个问题。

Cassandra 是一个键值数据存储(在您的情况下参数化)。如果您使用 Cassandra,则需要更高的计算时间来导出复杂的报告。原因是 - 它以原始格式存储数据。如果您想扩展得非常大,像 NOSQL 数据库这样的 Cassandra 就很好。他们是eventually consistent以及对数据复制和延迟的妥协。

在您作为患者的情况下,可以无限地拥有任何形式的数据,请尝试适应三重存储模型(语义 Web 框架,如 Jena、OpenSesame 等)。它们允许您拥有糟糕的数据结构,并且可以在运行时进行塑造。此外,它们的查询引擎(SPARQL、SeRQL)为您提供了比 NOSQL 存储(如 Cassandra)更强大的功能,但这些查询功能明显不如 RDBMS。

关于database - "Parametrized"数据库模型&后端存储系统以及数据挖掘操​​作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3231322/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com