- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设我有 N
个一维点 xi
及其标签 yi = 1/0
。我想学习一组 k
间隔,这样当标签 1 被赋予这些间隔中的所有点时,误差就会最小化。即如果数据集是:
1: 0
2: 0
3: 1
4: 1
5: 0
6: 1
7: 1
8: 1
9: 0
10: 0
11: 0
如果k=1
,则最佳间隔为[3, 8]
。随着 k
的增加,它会变得更加复杂。
在 scikit-learn 中是否有一些通用的算法可以做到这一点,或者对决策树算法进行了一些修改?仅直接决策树算法是行不通的,因为您无法控制 k,只能控制深度,并且分支的顺序可能会导致最终的间隔集次优。如果需要的话,scikit-learn 中没有的东西也可能没问题。
最佳答案
我相信您可以将其重新表述为整数规划问题。
让:
x_ij = 1 if interval i's left endpoint is at j
0 otherwise
和:
y_ij = 1 if interval i's right endpoint is at j
0 otherwise
最后:
a_k = Total # of 1's in the interval [0, k]
b_k = Total # of 0's in the interval [0, k]
那么以下内容相当于您的问题:
maximize sum_ijk ( a_j * y_ij - a_k - x_ik # Ones inside
- b_j * y_ij - b_k - x_ik # Zeros inside
+ b_j * x_ij - b_k - y_(i-1)k # Zeros outside
- a_j * x_ij - a_k - y_(i-1)k # Ones outside
)
with respect to the constraints
sum_j x_ij = 1 for each i
sum_j y_ij = 1 for each i
0 <= x_ij <= 1 for each i, j
0 <= y_ij <= 1 for each i, j
sum_j * y_ij - j * x_ij > 0 for each i
sum_j * x_(i+1)j - j * y_ij > 0 for each i
由于每个 x_ij
和 y_ij
都是整数,这是一个整数规划问题。解除这个约束,你就会遇到一个线性规划问题,尽管这种情况下的结果很难解释。
对于:
maximize sum_ijk ( a_j * y_ij - a_k - x_ik )
i
的总和是所有间隔。每一项 a_j * y_ij
仅对于 j 的一个值(该区间的右端点)为“on”。与a_j * x_ij
相同。那么差值就是一些a_k - a_r
,即区间内1的总数。同样,其他三个术语统计正确和错误分类的出现次数。
对于约束:
sum_j x_ij = 1 for each i
sum_j y_ij = 1 for each i
假设间隔必须各有一个左端点和一个右端点,并且
sum j * y_ij - j * x_ij > 0 for each i
sum j * x_(i+1)j - j * y_ij > 0 for each i
表示左端点必须位于右端点的左侧,并且第 i+1 个区间的右端点必须位于右端点的左侧第 i 个间隔。
关于python - 学习区间的并集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30157713/
我在 Python 中使用 matplotlib,并制作了一个带条形的直方图。现在,当直方图出现时,仅 5 的倍数出现在 x 轴上,1000 的倍数出现在 y 轴上。对于 y 轴,这完全没有问题,但对
我正在使用 JavaScript 和 jQuery。我有以下脚本每 30 秒提醒一次 hi。 $(document).ready( function() { alert("hi"); setI
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以便
在 Numpy(python 包)中,可以使用语法 numpy.linspace(minValue, MaxValue, numberOfSamples) 构造 float 的离散区间。 . 我看到
所以我想在 -3 到 3 的区间内制作一些数字,以便在下面绘制这些函数,所以我想要尽可能多的数字。 我这样做: double k[601]; double y[601]; for (int i = 0
我有一个 Postgresql 表,用于存储有关计划进程的信息,包括上次执行进程的时间。不同的进程对其运行频率有不同的要求。 我列出了需要重新运行的进程列表: SELECT * FROM proces
如何正确使用此类带日期间隔的查询 @SqlUpdate("delete fromlogin where created < now() - ':days days' :: interval") v
我正在尝试计算图中的间隔,我在维基百科上找到了算法的数学描述: http://en.wikipedia.org/wiki/Interval_(graph_theory) H = { n0 }
我有一个基于 Informix-SQL 的 Pawnshop 应用程序,该应用程序根据黄金的重量和纯度计算应向客户贷出多少钱。当铺的最低贷款额为 5.00 美元。当铺员工通常会借出以 5 或 0 结尾
我将 NHibernate 与代码映射一起使用,并且我有一个由此公式创建的属性。 Property(x => x.IsInOverdue, mapper => mapper .Fo
我正在尝试从头开始为 Beta 分布编写卡方拟合优度检验,而不使用任何外部函数。下面的代码报告“1”适合,即使来自 scipy.stats 的 kstest 返回零。数据是正常分布的,所以我的函数也应
如何在 C# 中将任何值四舍五入到 10 区间?例如,如果我有 11,我希望它返回 10,如果我有 136,那么我希望它返回 140。 我可以很容易地用手做 return ((int)(number
如何在 Go 中表示 PostgreSQL 区间? 我的结构看起来像这样: type Product struct { Id int Name
我想编写一个函数,将数值限制在封闭的 0,1 区间内: func clamp01(_ value:T) -> T { return value 1 ? 1 : value } 在 Swift 3
我有一个简单的表格,用于存储来自在线仪表的降水读数。这是表定义: CREATE TABLE public.precip ( gauge_id smallint,
a = y def __gt__(self, y): return not self.x > y def __eq__(self, y): return
我正在处理 pandas 数据框 D=pd.DataFrame(data=[1.0,2.0,2.0,2.0,5.0,3.0,2.0,2.0,5.0,5.0,8.0,1.0]) 我识别低于特定阈值的值
我编写了一些C++代码来解决此问题: #include #include using namespace std; unsigned int countSetBits(unsigned int n
好的,我知道之前有人用一个有限的缩放示例问过这个问题 [-1, 1]间隔 [a, b] Different intervals for Gauss-Legendre quadrature in num
我是一名优秀的程序员,十分优秀!