- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在学习数据挖掘,有以下问题。
最佳答案
数据挖掘是从数据中提取有用信息的过程,例如模式、趋势、客户/用户行为、喜欢/不喜欢等。这涉及使用与人工智能和统计相关的算法。
Wikipedia数据挖掘的定义是:
Data Mining (the analysis step of the Knowledge Discovery in Databases process,[1] or KDD), a relatively young and interdisciplinary field of computer science,[2][3] is the process of discovering new patterns from large data sets involving methods from statistics and artificial intelligence but also database management. In contrast to for example machine learning, the emphasis lies on the discovery of previously unknown patterns as opposed to generalizing known patterns to new data.
机器学习涉及让计算机“学习”行为、趋势等,并据此采取行动。例如,在信用卡欺诈中,计算机“学习”客户的行为,如果发生奇怪的情况(涉及非常高金额的交易等),它会将该交易标记为潜在的欺诈。
维基百科对机器学习的定义是:
Machine learning, a branch of artificial intelligence, is a scientific discipline concerned with the design and development of algorithms that allow computers to evolve behaviors based on empirical data, such as from sensor data or databases. Machine Learning is concerned with the development of algorithms allowing the machine to learn via inductive inference based on observing data that represents incomplete information about statistical phenomenon. Classification which is also referred to as pattern recognition, is an important task in Machine Learning, by which machines “learn” to automatically recognize complex patterns, to distinguish between exemplars based on their different patterns, and to make intelligent decisions.
机器学习使用数据挖掘来学习模式、行为、趋势等,因为数据挖掘是从一组数据中提取这些信息的方法。数据挖掘和机器学习都使用统计数据来做出决策。所以,是的,统计数据在数据挖掘和机器学习中涉及并且非常重要。
关于统计、机器学习和数据挖掘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7502337/
我不太关心数据挖掘,但我需要一些关于聚类的想法。让我先描述一下我的问题。 我有大约 100 个包含用户评论的数据表。例如,我试图找到描述质量的词。一个人可以说这是惊人的质量,另一个人可以说质量很好,现
我是数据挖掘的新手,如果这个问题对任何人来说都是显而易见的问题,我深表歉意。我知道有很多数据挖掘算法,例如顺序模式挖掘或先验算法。我想知道如果我有一个包含大约 20,000 名学生的数据库,我实现的以
我想从一个有很多变量的过程中获得最大的性能,其中很多变量是无法控制的。 我无法进行数千次实验,所以如果我可以进行数百次实验就更好了 改变许多可控参数 收集许多表明性能的参数的数据 对于那些我无法控制的
这基本上就是我正在做的。我从 en.wikipedia.org 中选择了一篇科学文章,并获得了已进行编辑的用户列表以及他们编辑该文章的次数。为了得到这个,我按照页面中的链接将我带到 toolserve
我有一个大型的简历 (CV) 数据库,以及一个skills 表,用于对所有用户的技能进行分组。 在该表中有一个字段 skill_text 以全文描述技能。 我正在寻找一种算法/软件/方法来从该表中提取
我们正在考虑购买数据挖掘软件以主要运行预测分析过程。 SQL Server 数据挖掘解决方案与 IBM 的 SPSS 等其他解决方案相比如何? 由于 SQL Server DM 包含在 SQL Ser
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我使用 jQuery 创建了一个不错的库,它在浏览器中运行,基本上完成了从各种 html 页面中挖掘任意数据的任务。我想将此库迁移到运行 PHP 的 Apache 服务器并在服务器端运行它。但是,我不
我正在开始一项工作,使用 python 和 pandas 分析来自 Eurostat 等统计机构的数据。我发现有两种方法可以从 Eurostat 获取数据。 pandas_datareader:貌似很
我在看 JDM。这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗?或者这是一组包含实际数据挖掘算法的包? 最佳答案 啊,奇迹 the interweb : Java Data Mining
我编写了数据挖掘先验算法,它在小测试数据上运行良好,但在更大的数据集上运行它时遇到问题。 我正在尝试生成经常一起购买的元素的规则。 我的小测试数据是5个交易和10个产品。 我的大测试数据是 1100
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等) note:项目链接以及码源见文末 1.赛题简介 了解赛题 赛题
人们经常使用 IR、ML 和数据挖掘等术语,但我注意到它们之间有很多重叠。 对于在这些领域有经验的人来说,这之间的界限到底是什么? 最佳答案 这只是一个人(受过 ML 正式培训)的观点;其他人可能会以
我不确定这个问题是否正确,但我要求解决我的疑问。 对于机器学习/数据挖掘,我们需要了解数据,这意味着您需要学习Hadoop,它在Java中有实现> 用于 MapReduce(如果我错了请纠正我)。 H
我是一名优秀的程序员,十分优秀!