- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在进行推文情绪分析,并且有几个关于步骤的正确顺序的问题。请假设数据已经过相应的预处理和准备。所以这就是我将如何进行:
train_test_split
(80:20 比例)停止测试数据集。x_train
因为推文不是数字。在接下来的步骤中,我想确定最佳分类器。请假设那些已经导入。所以我会继续:
model = KNeighborsClassifier()
n_neighbors = range(1, 10, 2)
weights = ['uniform', 'distance']
metric = ['euclidean', 'manhattan', 'minkowski']
# define grid search
grid = dict(n_neighbors=n_neighbors, weights=weights ,metric=metric)
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
grid_search = GridSearchCV(estimator=model, param_grid=grid, n_jobs=-1, cv=cv, scoring='accuracy',error_score=0)
grid_result = grid_search.fit(train_tf, y_train)
# summarize results
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
print("%f (%f) with: %r" % (mean, stdev, param))
train_test_split()
)并对测试数据使用最佳分类器这是正确的方法还是您会建议更改某些内容(例如,单独进行交叉验证而不是在超参数化中进行)?将测试数据作为最后一步进行测试是否有意义,还是我应该提前进行以评估未知数据集的准确性?
最佳答案
有很多方法可以做到这一点,人们对此有强烈的看法,但我并不总是相信他们完全理解他们所倡导的。
TL;DR:您的方法看起来不错,而且您提出的问题很明智。
话虽如此,这里有一些事情需要考虑:
是的,这些技术中的每一种都擅长做一些特定的事情;但这并不一定意味着它们都应该属于同一管道。
首先,让我们回答这些问题:
Train-Test Split 可用于测试分类器的推理能力。换句话说,我们想知道分类器总体上的表现如何(而不是在我们用于训练的数据上)。测试部分允许我们在不使用训练部分的情况下评估我们的分类器。
Hyperparameter-Tuning 可用于评估超参数对分类器性能的影响。为了使其有意义,我们必须比较两个(或更多)模型(使用不同的超参数),但最好使用相同的训练部分进行训练(以消除选择偏差)。一旦我们知道性能最好的超参数,我们会做什么?这组超参数是否总是表现最佳?不。您会看到,由于分类的随机性,一个超参数集可能在实验 A 中效果最好,然后另一组超参数可能在实验 B 中效果最好。相反,超参数调整有助于概括何时使用哪些超参数构建分类器。
交叉验证 用于消除与构建分类器相关的一些随机性。因此,机器学习管道可能会生成一个分类器,使用 1 个测试折叠的准确率为 94%,使用另一个测试折叠的准确率为 83%。这是什么意思?这可能意味着 1 折包含简单的样本。或者它可能意味着分类器,无论出于何种原因,实际上更好。你不知道,因为它是一个黑盒子。
实际上,这有什么用?
我认为使用测试训练分割和交叉验证没有什么值(value)。我使用交叉验证并将准确性报告为 n 倍的平均值。它已经在测试我的分类器的性能。我不明白为什么进一步划分训练数据以进行另一轮训练测试验证会有帮助。使用平均值。话虽如此,我使用在交叉验证期间创建的 n 倍模型中性能最好的模型作为我的最终模型。正如我所说,它是黑盒,所以我们无法知道哪个模型最好,但在其他条件相同的情况下,您不妨使用性能最好的模型。它实际上可能更好。
超参数调整很有用,但进行大量调整可能需要很长时间。我建议在您的管道中添加超参数调整,但只测试 2 组超参数。因此,除了 1 之外,保持所有超参数不变。例如批量大小 = {64, 128}。运行它,您将能够自信地说,“哦,这有很大的不同:64 比 128 更好用!”或“好吧,那是浪费时间。无论哪种方式都没有太大区别。”如果差异很小,请忽略该超参数并尝试另一对。这样,您将慢慢地朝着最佳方向前进,而不会浪费所有时间。
在实践中,我会说将广泛的超参数调整留给学术界并采取更务实的方法。
但是,是的,您的方法看起来不错。我认为你在思考自己在做什么,这已经让你领先了一步。
关于python - 分类:推文情感分析——步骤顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62848208/
我刚刚继承了一个旧的 PostgreSQL 安装,需要进行一些诊断以找出该数据库运行缓慢的原因。在 MS SQL 上,您可以使用 Profiler 等工具来查看正在运行的查询,然后查看它们的执行计划。
将目标从Analytics(分析)导入到AdWords中,然后在Analytics(分析)中更改目标条件时,是否可以通过更改将目标“重新导入”到AdWords,还是可以自动选择? 最佳答案 更改目标值
我正在使用google analytics api来获取数据。我正在获取数据,但我想验证两个参数,它们在特定日期范围内始终为0。我正在获取['ga:transactions']和['ga:goalCo
我使用Google API从Google Analytics(分析)获取数据,但指标与Google Analytics(分析)的网络界面不同。 即:我在2015年3月1日获得数据-它返回综合浏览量79
我在我的Web应用程序中使用sammy.js进行剔除。我正在尝试向其中添加Google Analytics(分析)。我很快找到了following plugin来实现页面跟踪。 我按照步骤操作,页面如
当使用 Xcode 分析 (product>analyze) 时,有没有办法忽略给定文件中的任何错误? 例如编译指示之类的? 我们只想忽略第三方代码的任何警告,这样当我们的代码出现问题时,它对我们
目录 EFK 1. 日志系统 2. 部署ElasticSearch 2.1 创建handless服务 2.2 创建s
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
GCC/G++ 是否有可用于输出分析的选项? 能够比较以前的代码与新代码之间的差异(大小、类/结构的大小)将很有用。然后可以将它们与之前的输出进行比较以进行比较,这对于许多目的都是有用的。 如果没有此
我正在浏览 LYAH,并一直在研究处理列表时列表理解与映射/过滤器的使用。我已经分析了以下两个函数,并包含了教授的输出。如果我正确地阅读了教授的内容,我会说 FiltB 的运行速度比 FiltA 慢很
在 MySQL 中可以使用 SET profiling = 1; 设置分析 查询 SHOW PROFILES; 显示每个查询所用的时间。我想知道这个时间是只包括服务器的执行时间还是还包括将结果发送到前
我用 Python 编写了几个用于生成阶乘的模块,我想测试运行时间。我找到了一个分析示例 here我使用该模板来分析我的模块: import profile #fact def main():
前几天读了下mysqld_safe脚本,个人感觉还是收获蛮大的,其中细致的交代了MySQL数据库的启动流程,包括查找MySQL相关目录,解析配置文件以及最后如何调用mysqld程序来启动实例等,有着
1 内网基础 内网/局域网(Local Area Network,LAN),是指在某一区域内有多台计算机互联而成的计算机组,组网范围通常在数千米以内。在局域网中,可以实现文件管理、应用软件共享、打印机
1 内网基础 内网/局域网(Local Area Network,LAN),是指在某一区域内有多台计算机互联而成的计算机组,组网范围通常在数千米以内。在局域网中,可以实现文件管理、应用软件共享、打印机
我有四列形式的数据。前三列代表时间,value1,value 2。第四列是二进制,全为 0 或 1。当第四列中对应的二进制值为0时,有没有办法告诉excel删除时间、值1和值2?我知道这在 C++ 或
我正在运行一个进行长时间计算的 Haskell 程序。经过一些分析和跟踪后,我注意到以下内容: $ /usr/bin/time -v ./hl test.hl 9000045000050000 Com
我有一个缓慢的 asp.net 程序正在运行。我想分析生产服务器以查看发生了什么,但我不想显着降低生产服务器的速度。 一般而言,配置生产盒或仅本地开发盒是标准做法吗?另外,您建议使用哪些程序来实现这一
我目前正在尝试分析 Haskell 服务器。服务器永远运行,所以我只想要一个固定时间的分析报告。我尝试只运行该程序 3 分钟,然后礼貌地要求它终止,但不知何故,haskell 分析器不遵守术语信号,并
是否有工具可以分析 Maven 构建过程本身,以便我可以看到构建花费最多时间的地方? 我们在工作中遇到了关于 Maven 3.0.3 和 3.0b1 的问题。与 3.0.3 (9m00s) 相比,我们
我是一名优秀的程序员,十分优秀!