- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想使用如下内容训练最近邻搜索模型 -
| feature_A | feature_B | feature_C |
---------------------------------------------
point_1 | 0.0 | 5.1 | 94.9 |
point_2 | 80.7 | 35.3 | 64.7 |
等等,还有更多的特征和数据点。
然后我们可以传递一个点进行预测,例如 [0.3, 5.0, 94.0] -> 返回 point_1
,这在最近邻搜索中很典型。
我还想做的是为某个特征或特征子集传递一个值并返回最近点,忽略所有其他特征,如下所示:
[None, 5.0, None] -> 返回 point_1
[80.0, None, 64.7] -> 返回 point_2
问题是这些空值无法传递给模型,也无法真正将它们推断为 0.0,因为这不是预测所要求的。该特征需要在计算中完全省略。
有没有一种方法可以使用 Sagemaker/Scikit-learn 库在本地执行此操作,而无需构建多个模型或编写 NNS 的自定义实现?
最佳答案
一般来说,对缺失数据进行预测是一个很难解决的问题。
用统计术语来说:某个测试点 xₜ
的预测最近邻表示为 ŷ(xₜ)
。让 xₜ
的一些组件丢失,所以我们写 xₜ=(zₜ,wₜ)
,其中组件 wₜ
丢失。然后,模型预测 k
的置信度可以写成 Pr(ŷ(xₜ)=k)=P(ŷ(zₜ)=k)= ∫I(k=ŷ (zₜ,w))p(w|zₜ)dw
,其中 I(t)=1
如果 t=true
且 0
否则。最后,您可以选择预测 ỹ(xₜ)
作为 Pr(ŷ(xₜ)=k)
的模式,即 ỹ(xₜ) = argmax_k Pr(ŷ(xₜ)=k)
.
这是一个棘手的问题,因为您需要估计一些条件密度来计算积分。您还需要计算所有可能的最近邻居的积分。
如果您做出一些限制性假设,例如完全随机缺失,则问题会从独立性简化为 p(w|zₜ)=p(w)
。不过,您的预测可能会更糟。没有解决此问题的简单方法。
因此,您需要在统计可靠性和实际应用之间进行权衡。这通常是由某种归责造成的。我认为您应该有一些插补技术来合理地捕获数据中的相关性。
我可能会使用 knn-imputer in sklearn估算缺失值,然后对估算数据进行最近邻搜索。
关于scikit-learn - NNS : Is there a way to omit certain features in a prediction?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59976380/
我第一次决定切换到 InnoDB 并尝试使用外键和其他 InnoDB 功能。 创建关系时,我应该只在一张表上声明它们吗?还是两个表? 例如,对于以下每种情况,您将在何处以及如何声明关系? 1 用户有很
老方法 当我以前在需要内容被搜索引擎索引的项目中异步加载页面时,我使用了一种非常简单的技术,那就是 Page $('#example').click(function(){
我目前正在为自己创建自己的自定义应用程序来编译 Java 文件。我的应用程序可以完美地编译 Java 文件,但现在我想开始为 Java 文件添加某种类型的测试(例如,我将一些变量传递给许多不同的文件
我需要建立从我的 iPhone 应用程序到客户服务器的 HTTPS 双向 SSL 连接。但是我没有看到任何安全的方式来将客户端证书传递给应用程序(这是一个电子银行应用程序,所以安全性确实是一个问题)。
我从事 Java 工作已经很长时间了,大约 6 个月前开始使用 Scala。我喜欢这门语言。我发现的一件事是,做事有多种方法。我不知道这是因为该语言的性质,还是因为它还很年轻并且在不断发展,习惯用法和
这是我所指的示例代码。 https://sites.google.com/site/ssljavaguide/example-code/2-way-ssl 我是否可以不设置与 keystore 相关的
我读过有关使用 MySQL AES_ENCRYPT/AES_DECRYPT(双向加密)不如使用 PHP - hash()(单向加密)安全的信息。 http://bytes.com/topic/php/
我正在进行一个路线选择项目,我需要使用道路类型和单向/双向交通信息填充道路网络。我想知道Tiger/Line道路数据集是否包含这样的数据。。我下载了加利福尼亚州的Tiger/Line道路数据集,但没有
我需要开发一个 iPad 应用程序,它应该管理两种方向模式(横向和纵向)。 根据 official Apple iOS documentation , 有 2 种方法可以继续。 -第一个包括在收到旋转
我正在训练一个 randomForest 模型,目的是保存它以进行预测(它将被下载并在外部上下文中使用)。我希望这个模型尽可能最小。 我读到有很多options和 packages减少模型的内存大小。
为什么将参数传递给匿名函数会影响结果?例如,下面的脚本将 a1 显示为 function(),将 a2 显示为数组。 var a1=(function(){return [1*2,2*2,3*2];}
我有一个 Python 列表: listx = [["a", 127, "Blue", 0], ["b", 127, "Red", 1], ["b", 127, "
在查看 Java 库时,特别是构造函数,我注意到字段通常会出于某种原因进行初始化和验证: public java.awt.Color(int r, int g, int b, int a) {
我想编写 Git 脚本。只创建一个 Unix 脚本是最好的方法吗? #!/bin/bashgit push origin master &&git checkout develop &&git mer
这个问题在这里已经有了答案: class or method alias in java (8 个回答) 去年关闭。 我有一个类的名称可能不必要地繁琐,其中包含许多我在其他地方使用的静态方法。 而不是
这个问题在这里已经有了答案: Best way to check function arguments? [closed] (14 个回答) Parameter validation, Best pr
在阅读我遇到的代码时,结构的以下定义和初始化: // header file struct foo{ char* name; int value; }; //Implementation file s
我正在使用多页表单方法在 Drupal 中开发一个自定义模块,并且我希望对步骤进行可视化。 步骤 1 > [_Step_2_] > 步骤 3 > 完成 商业规则: 他们总是能看到所有的步骤,以及他们现
Josh 的 answer 给我留下了深刻的印象关于客户端的“Angular 方式”和声明式风格。 但是你能帮我理解一下,怎么做吗: 我有一个单页应用程序,左侧是菜单栏,右侧是 div 容器。 当用户
Subversion 商店正在考虑改用 Mercurial,试图提前弄清楚开发人员的所有提示将是什么。这里有一个相当常见的用例,我不知道如何处理。 我正在研究一些较大的功能,我有一个重要的代码部分——
我是一名优秀的程序员,十分优秀!