- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是我的问题描述:
“根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭。但是,我们知道这些收集的数据并不可靠,因为有很多错误陈述。尽管存在这些错误陈述,我们在数据集中的一些特征确实是可靠的。但这些特征只是每个家庭财富信息的一小部分。”
不可靠的数据意味着家庭向政府撒谎。这些家庭虚报收入和财富,以便不公平地获得更多政府服务。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。
现在,我有以下问题:
请向我介绍任何可以帮助我解决此问题的想法或引用。
提前致谢。
最佳答案
问:数据科学中我们应该如何处理不可靠的数据
A:使用特征工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全丢弃它们 - 不良特征可能会显着降低模型的质量
问:有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人?
答:机器学习算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们无法弄清楚任何事情。您能描述一下“不可靠”的含义吗?如果是,正如我提到的,您可以使用特征工程或编写代码来修复数据。否则,如果没有描述您到底想要实现什么,任何机器学习算法都无法为您提供帮助
问:机器学习中有什么想法或应用可以尝试提高收集数据的质量吗?
答:我不这么认为,只是因为问题本身太开放性了。 “数据质量”是什么意思?
一般来说,您需要考虑以下几点:
1) 花一些时间在谷歌上搜索特征工程指南。它们涵盖了如何为 ML 算法准备数据、优化数据、修复数据。好的数据加上好的特征可以显着提高结果。
2)您不需要使用原始数据中的所有特征。原始数据集的某些特征是没有意义的,你不需要使用它们。尝试在数据集上运行梯度增强机或来自 scikit-learn 的随机森林分类器来执行分类(或回归,如果您进行回归)。这些算法还评估原始数据集每个特征的重要性。您的部分功能对于分类来说重要性极低,因此您可能希望完全删除它们,或者尝试以某种方式将不重要的功能组合在一起以产生更重要的功能。
关于machine-learning - 使用不准确(不正确)的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30996952/
当然,您可以将剩余文件大小除以当前下载速度,但如果您的下载速度波动(而且它会波动),这不会产生很好的结果。有什么更好的算法可以产生更平滑的倒计时? 最佳答案 安exponential moving a
对于一个业余项目,我正在尝试对齐照片并创建 3D 图片。我基本上在一个钻机上有 2 个相机,我用来拍照。我会自动尝试以您获得 3D SBS 图像的方式对齐图像。 它们是高分辨率图像,这意味着需要处理大
当然,您可以将剩余的文件大小除以当前的下载速度,但如果您的下载速度波动(而且会波动),这不会产生很好的结果。什么是产生更平滑倒计时的更好算法? 最佳答案 安exponential moving ave
我有一个数据集,其中包含患有糖尿病和未患有糖尿病的人。我想使用这些数据训练一个模型来计算糖尿病状况未知的人的风险概率。我知道在培训中没有被诊断出糖尿病的人大多数都没有糖尿病,但很可能其中一些人可能患有
let parent = path[row-1] let child = path[row] let indexOfChild = matrix[parent.obje
我正在编写一些使用 Element.getBoundingClientRect 的代码(gBCR),加上内联样式更新,以执行计算。 这不适用于一般网站,我不关心或不感兴趣是否有“更好的 CSS 方式”
我有一个很大的 csv 文件,其中包含大量脏数据,我想通过消除所有不是绝对必要的值来稍微清理一下它。 Here是我正在谈论的文件。 它有以下组件: 网站,标题,开始日期,开始日期,雇主,地点,纬度,
有谁知道一个库,它为 Java 提供了一个错误不高于 1-2 毫秒的 Thread.sleep()? 我尝试了 sleep 、错误测量和 BusyWait 的混合,但在不同的 Windows 机器上我
UiApp有DateBox和 DateTimeFormat 对于那个类(class)。但是,不存在诸如 TimePicker 或 TimeBox 这样的东西,用户可以通过明确指定的方式(例如通过使用
因此,我使用 sklearn 的 svm.SVC 模块编写了一个程序来学习 mnist 数据集,出于某种原因,每当我计算其准确性为 100% 时。这似乎好得令人难以置信,这是预期的吗? from sk
我当前找到了 gpytorch ( https://github.com/cornellius-gp/gpytorch )。它似乎是将 GPR 集成到 pytorch 中的一个很棒的包。第一次测试也呈
我正在使用 QT Creator 5.9 创建一个简单的 Web 浏览器模型,我的 EditLine/Text Box 有问题: 1.如何在转到不同的网站/页面后自动更新显示的 URL 字符串。 2。
我在 Linux 上尝试 time -p 命令,我写了一些代码来浪费 CPU 周期: #include using namespace std; int main() { long int c;
亲爱的程序员/脚本编写者/工程师/其他人, 问题:我目前正在为 Android 3.2 平板电脑开发增强现实应用程序,但在获取准确的罗盘读数方面遇到一些问题。我需要确切地知道平板电脑所面向的 (z)
我最近一直在尝试了解 Apache Spark 作为 Scikit Learn 的替代品,但在我看来,即使在简单的情况下,Scikit 收敛到准确模型的速度也远远快于 Spark。例如,我使用以下脚本
如果不是,它的准确性如何? 我想在下载之前知道图片的大小。 最佳答案 HTTP Content-length header 是否格式错误?是的。 您是否应该相信它能公平地表示消息正文的大小?是的。 关
这是一个关于 ngram 线性回归的问题,使用 Tf-IDF(术语频率 - 逆文档频率)。为此,我使用 numpy 稀疏矩阵和 sklearn 进行线性回归。 使用一元语法时,我有 53 个案例和 6
对于某些给定的固定宽度,如何计算特定标签 (NSTextField) 中字符串的高度? 我用谷歌搜索了各种方法并尝试了 this method from Apple .它的工作原理,除了高度变成一行对
我是一名优秀的程序员,十分优秀!