gpt4 book ai didi

machine-learning - 信息检索 (IR)、数据挖掘、机器学习 (ML)

转载 作者:行者123 更新时间:2023-11-30 08:21:25 27 4
gpt4 key购买 nike

人们经常使用 IR、ML 和数据挖掘等术语,但我注意到它们之间有很多重叠。

对于在这些领域有经验的人来说,这之间的界限到底是什么?

最佳答案

这只是一个人(受过 ML 正式培训)的观点;其他人可能会以完全不同的方式看待事物。

机器学习可能是这三个术语中最同质的,也是应用最一致的——它仅限于模式提取 (或模式匹配)算法本身。

在您提到的术语中,“机器学习”是学术部门最常用于描述其类(class)、学术部门和研究项目的术语,也是学术期刊和 session 记录中最常用的术语。 ML 显然是您提到的术语中最不依赖上下文的。

信息检索数据挖掘更接近于描述完整的商业流程——即从用户查询到检索/交付相关信息结果。机器学习算法可能位于该流程中的某个位置,并且在更复杂的应用程序中通常是这样,但这不是正式要求。此外,术语“数据挖掘”似乎通常是指在“大数据”(即 > 2BG)上应用某些流程,因此通常包括分布式处理(映射) reduce) 靠近该工作流程前端的组件。

因此,信息检索(IR)和数据挖掘(DM)以基础设施算法的方式与机器学习(ML)相关。换句话说,机器学习是用于解决信息检索问题的工具来源之一。但这只是工具来源之一。但 IR 并不依赖于 ML,例如,特定的 IR 项目可能是响应用户的搜索查询 IR 来存储和快速检索完全索引的数据,其关键在于优化数据流的性能,即,从查询到将搜索结果交付给用户的往返过程。预测或模式匹配在这里可能没有用。同样,DM 项目可能会使用 ML 算法作为预测引擎,但 DM 项目更有可能还关注整个处理流程,例如,用于高效输入大量数据(TB 或 TB)的并行计算技术),它将原始结果传递给处理引擎,用于计算变量(列)的描述性统计数据(平均值、标准差、分布等)。

最后考虑一下 Netflix 奖。本次竞赛仅针对机器学习,重点是预测算法,这一点可以从以下事实证明:只有一个成功标准:算法返回的预测的准确性。想象一下,如果“Netflix 奖”被重新命名为数据挖掘竞赛。成功标准几乎肯定会扩展,以便更准确地评估算法在实际商业环境中的性能 - 因此,例如总体执行速度(向用户提供建议的速度有多快)可能会与准确性一起考虑。

术语“信息检索”和“数据挖掘”现在已成为主流使用,尽管有一段时间我只在我的工作描述或供应商文献中看到这些术语(通常在“解决方案”一词旁边)。雇主,我们最近聘请了一位“数据挖掘”分析师。我不知道他具体做什么,但他每天都打领带上类。

关于machine-learning - 信息检索 (IR)、数据挖掘、机器学习 (ML),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3417709/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com