- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我刚刚使用 DMwR 包中包含的 Smote 在数据集中完成了过采样。
我的数据集由两个类组成。原始分布是 12 vs 62。因此,我编写了此过采样代码:
newData <- SMOTE(Score ~ ., data, k=3, perc.over = 400,perc.under=150)
现在,分布是 60 vs 72。
但是,当我显示“newData”数据集时,我发现 SMOTE 是如何进行过采样的,并且有一些样本是重复的。
例如,样本编号 24 显示为 24.1、24.2 和 24.3。
这是正确的吗?这会直接影响分类,因为分类器将使用测试中出现的数据来学习模型,因此这在分类中是不合法的。
编辑:我认为我没有正确解释我的问题:
如您所知,SMOTE 是一种过采样技术。它根据原始样本创建新样本,并修改其特征值。但是,当我显示 SMOTE 生成的新数据时,我得到以下信息:
(这些值是特征的值)Sample50: 1.8787547 0.19847987 -0.0105946940 4.420207 4.660536 1.0936388 0.5312777 0.07171645 0.008043167
样本 50.1:1.8787547 0.19847987 -0.0105946940 4.420207 4.660536 1.0936388 0.5312777 0.07171645
样本 50 属于原始数据集。样本 50.1 是 SMOTE 生成的“人工”样本。然而(这是我的问题),SMOTE 创建了一个重复的样本,而不是创建一个修改“一点”特征值的人工样本。
希望你能理解我。
谢谢!
最佳答案
Smote 是一种生成给定类(少数类)的合成示例以处理不平衡分布的算法。然后将这种生成新数据的策略与多数类的随机欠采样相结合。当您在 DMwR 包中使用 SMOTE 时,您需要指定过采样百分比和欠采样百分比。这些值必须仔细设置,因为获得的数据分布可能会保持不平衡。
在您的情况下,并给定参数集,即欠采样和过采样的百分比,将引入少数类示例的副本。
您的初始类分布是 12 到 62,应用 smote 后,您最终得到 60 到 72。这意味着少数类通过 smote 进行了过采样,并生成了该类的新合成示例。
但是,您的多数类原本有 62 个示例,现在包含 72 个!欠采样百分比应用于此类,但实际上增加了示例数量。由于从多数类中选择的示例数量是根据少数类的示例确定的,因此从该类中采样的示例数量比现有的要多。
因此,您有 62 个示例,算法尝试随机选择 72 个!这意味着引入了大多数类的示例的一些副本。
因此,解释一下您选择的过采样和欠采样:
来自少数类的 12 个示例,过采样率为 400%,得出:12*400/100=48。因此,少数类中添加了 48 个新的综合示例(少数类的最终示例数为 12+48=60)。
从多数类中选择的示例数量为:48*150/100=72。但大多数类只有 62 个,因此必须引入副本。
关于r - Smote 无法进行过采样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24101802/
我正在寻找一种方法来对数字进行 1:40、3812 次(长度 = 3812)的采样,并进行替换 - 但对其进行限制,使每个数字的使用次数不会超过 100 次。有没有办法在采样命令 (sample())
如果我想随机采样 pandas 数据帧,我可以使用 pandas.DataFrame.sample . 假设我随机抽取 80% 的行。如何自动获取另外 20% 未选取的行? 最佳答案 正如 Lager
我使用以下函数在每个图像中采样点。如果batch_size为None,tf.range会给出错误。如何在 tensorflow 中采样 def sampling(binary_selection,nu
我想知道是否有任何方法可以循环浏览 .wav 文件以获取 wav 文件中特定点的振幅/DB。我现在正在将它读入一个字节数组,但这对我来说没有任何帮助。 我将它与我开发的一些硬件结合使用,这些硬件将光数
我有一个日期时间的时间序列,双列存储在 mySQL 中,并且希望每分钟对时间序列进行采样(即以一分钟为间隔提取最后一个值)。在一个 select 语句中是否有一种有效的方法来做到这一点? 蛮力方式将涉
我正在为延迟渲染管道准备好我的一个小型 DirectX 11.0 项目中的一切。但是,我在从像素着色器中对深度缓冲区进行采样时遇到了很多麻烦。 首先我定义深度纹理及其着色器资源 View :
问题出现在量子值的样本上。情况是: 有一个表支付(payments): id_user[int] sum [int] date[date] 例如, sum(数量) 可以是 0 到 100,000 之间
这是一个理论问题。我目前正在研究渲染方程,我不明白在哪种情况下区域采样或半球采样更好以及为什么。 我想知道的另一件事是,如果我们采用两种方法的平均值,结果是否会更好? 最佳答案 Veach 和 Gui
我有一个 4x4 阵列,想知道是否有办法从它的任何位置随机抽取一个 2x2 正方形,允许正方形在到达边缘时环绕。 例如: >> A = np.arange(16).reshape(4,-1) >> s
我想构建 HBase 表的行键空间的随机样本。 例如,我希望 HBase 中大约 1% 的键随机分布在整个表中。执行此操作的最佳方法是什么? 我想我可以编写一个 MapReduce 作业来处理所有数据
当像这样在 GLSL 中对纹理进行采样时: vec4 color = texture(mySampler, myCoords); 如果没有纹理绑定(bind)到 mySampler,颜色似乎总是 (0
我考虑过的一些方法: 继承自Model类 Sampled softmax in tensorflow keras 继承自Layers类 How can I use TensorFlow's sampl
我有表clients,其中包含id、name、company列。 表agreements,其中包含id、client_id、number、created_at列. 一对多关系。 我的查询: SELEC
在具有许多类的分类问题中,tensorflow 文档建议使用 sampled_softmax_loss通过一个简单的 softmax减少训练时间。 根据docs和 source (第 1180 行),
首先,我想从三个数据帧(每个 150 行)中随机抽取样本并连接结果。其次,我想尽可能多地重复这个过程。 对于第 1 部分,我使用以下函数: def get_sample(n_A, n_B, n_C):
我正在尝试编写几个像素着色器以应用于类似于 Photoshop 效果的图像。比如这个效果: http://www.geeks3d.com/20110428/shader-library-swirl-p
使用 Activity Monitor/Instruments/Shark 进行采样将显示充满 Python 解释器 C 函数的堆栈跟踪。如果能看到相应的 Python 符号名称,我会很有帮助。是否有
我正在使用GAPI API来访问Google Analytics(分析),而不是直接自己做(我知道有点懒...)。我看过类文件,但看不到任何用于检查采样的内置函数。我想知道使用它的人是否找到了一种方法
我正在尝试从 Peoplesoft 数据库中随机抽取总体样本。在线搜索使我认为 select 语句的 Sample 子句可能是我们使用的一个可行选项,但是我无法理解 Sample 子句如何确定返回的样
我有一个程序,在其中我只是打印到 csv,我想要每秒正好 100 个样本点,但我不知道从哪里开始或如何做!请帮忙! from datetime import datetime import panda
我是一名优秀的程序员,十分优秀!