debugging - 为什么逻辑回归中较高的学习率会产生 NaN 成本？

转载作者：行者123 更新时间：2023-11-30 09:16:35

36

4

摘要

我正在使用 Octave 和 Ling-Spam 语料库构建垃圾邮件与普通邮件的分类器；我的分类方法是逻辑回归。

较高的学习率会导致计算成本为 NaN 值，但它不会破坏/降低分类器本身的性能。

我的尝试

注意:我的数据集已使用均值归一化进行归一化。当尝试选择我的学习率时，我从 0.1 和 400 次迭代开始。这导致了以下情节:

1 - 图 1

当线条在几次迭代后完全消失时，这是由于产生了 NaN 值；我认为这会导致参数值损坏，从而导致准确性较差，但在检查准确性时，我发现测试集上的准确性为 95%(这意味着梯度下降显然仍在发挥作用)。我检查了学习率和迭代的不同值，以查看图表如何变化:

2 - 图 2

线条不再消失，意味着没有 NaN 值，但准确度为 87%，这要低得多。

我又做了两次测试，迭代次数更多，学习率略高，在这两次测试中，图形都按预期随着迭代次数而减少，但准确率约为 86-88%。那里也没有 NaN。

我意识到我的数据集存在偏差，只有 481 封垃圾邮件和 2412 封正常邮件。因此，我计算了每个不同组合的 FScore，希望发现后面的组合具有更高的 FScore，而准确性是由于偏差造成的。情况也并非如此 - 我已在表格中总结了我的结果:

3 - 表

所以不存在过拟合，倾斜似乎也不是问题；我现在不知道该怎么办!

~~我唯一能想到的是我对准确度和 FScore 的计算是错误的，或者是我对“消失”行的初始调试是错误的。~~

编辑:这个问题的关键在于为什么那些选择的学习率会出现 NaN 值。因此，我降低学习率的临时解决方案并没有真正回答我的问题 - 我一直认为较高的学习率只是发散而不是收敛，不产生 NaN 值。

我的代码

我的 main.m 代码(禁止从文件中获取数据集):

numRecords = length(labels);

trainingSize = ceil(numRecords*0.6);
CVSize = trainingSize + ceil(numRecords*0.2);

featureData = normalise(data);

featureData = [ones(numRecords, 1), featureData];

numFeatures = size(featureData, 2);

featuresTrain = featureData(1:(trainingSize-1),:);
featuresCV = featureData(trainingSize:(CVSize-1),:);
featuresTest = featureData(CVSize:numRecords,:);

labelsTrain = labels(1:(trainingSize-1),:);
labelsCV = labels(trainingSize:(CVSize-1),:);
labelsTest = labels(CVSize:numRecords,:);

paramStart = zeros(numFeatures, 1);

learningRate = 0.0001;
iterations = 400;

[params] = gradDescent(featuresTrain, labelsTrain, learningRate, iterations, paramStart, featuresCV, labelsCV);

threshold = 0.5;
[accuracy, precision, recall] = predict(featuresTest, labelsTest, params, threshold);
fScore = (2*precision*recall)/(precision+recall);

我的 gradDescent.m 代码:

function [optimParams] = gradDescent(features, labels, learningRate, iterations, paramStart, featuresCV, labelsCV)

x_axis = [];
J_axis = [];
J_CV = [];

params = paramStart;

for i=1:iterations,
  [cost, grad] = costFunction(features, labels, params);
  [cost_CV] = costFunction(featuresCV, labelsCV, params);

  params = params - (learningRate.*grad);

  x_axis = [x_axis;i];
  J_axis = [J_axis;cost];
  J_CV = [J_CV;cost_CV];
endfor

graphics_toolkit("gnuplot")
plot(x_axis, J_axis, 'r', x_axis, J_CV, 'b');
legend("Training", "Cross-Validation");
xlabel("Iterations");
ylabel("Cost");
title("Cost as a function of iterations");

optimParams = params;
endfunction

我的 costFunction.m 代码:

function [cost, grad] = costFunction(features, labels, params)
  numRecords = length(labels);

  hypothesis = sigmoid(features*params);

  cost = (-1/numRecords)*sum((labels).*log(hypothesis)+(1-labels).*log(1-hypothesis));

  grad = (1/numRecords)*(features'*(hypothesis-labels));
endfunction

我的predict.m代码:

function [accuracy, precision, recall] = predict(features, labels, params, threshold)
numRecords=length(labels);

predictions = sigmoid(features*params)>threshold;

correct = predictions == labels;

truePositives = sum(predictions == labels == 1);
falsePositives = sum((predictions == 1) != labels);
falseNegatives = sum((predictions == 0) != labels);

precision = truePositives/(truePositives+falsePositives);
recall = truePositives/(truePositives+falseNegatives);

accuracy = 100*(sum(correct)/numRecords);
endfunction

最佳答案

应得的信用:

这个答案有很大帮助:https://stackoverflow.com/a/51896895/8959704所以这个问题有点重复，但我没有意识到这一点，而且一开始并不明显......我会尽力解释为什么该解决方案也有效，以避免简单地复制答案。

解决方案:

问题实际上是我的数据中出现 0*log(0) = NaN 结果。为了解决这个问题，在我的成本计算中，它变成了:

cost = (-1/numRecords)*sum((labels).*log(hypothesis)+(1-labels).*log(1-hypothesis+eps(numRecords, 1)));

(请参阅变量值等的问题，当仅此行发生变化时包含其余部分似乎是多余的)

说明:

eps()函数定义如下:

Return a scalar, matrix or N-dimensional array whose elements are all eps, the machine precision.

More precisely, eps is the relative spacing between any two adjacent numbers in the machine’s floating point system. This number is obviously system dependent. On machines that support IEEE floating point arithmetic, eps is approximately 2.2204e-16 for double precision and 1.1921e-07 for single precision.

When called with more than one argument the first two arguments are taken as the number of rows and columns and any further arguments specify additional matrix dimensions. The optional argument class specifies the return type and may be either "double" or "single".

因此，这意味着将此值添加到 Sigmoid 函数计算的值(之前非常接近 0，因此被视为 0)将意味着它是最接近 0 且不为 0 的值，从而使 log () 不返回 -Inf。

当学习率为 0.1、迭代次数为 2000/1000/400 进行测试时，绘制了完整的图表，并且在检查时没有产生 NaN 值。

**Graph 1 now**

注意:以防万一有人想知道，此后准确性和 FScore 没有变化，因此尽管在较高学习率下计算成本时出现错误，但准确性确实很好。

关于debugging - 为什么逻辑回归中较高的学习率会产生 NaN 成本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54621796/

36

4

0

文章推荐： java - Hibernate:为两个不同的类映射相同的列

文章推荐： java - 将 Component Z Order 结果设置为非法位置

文章推荐： javascript - 为什么以及何时使用 Promise.resolve？

QTCreator 的集成表单编辑器不会加载自定义小部件插件(Designer 会)
尝试使用集成到 QTCreator 的表单编辑器，但即使我将插件放入 QtCreator.app/Contents/MacOS/designer 也不会显示。不过，相同的 dylib 文件确实适用于独
java - 会 this.method2();跳过返回值？
在此代码示例中。 “this.method2();”之后会读到什么？在返回returnedValue之前会跳转到method2()吗？ public int method1(int returnedV
java - Gradle 不会解析依赖关系(Maven 会)
我的项目有通过gradle配置的依赖项。我想添加以下依赖项: compile group: 'org.restlet.jse', name: 'org.restlet.ext.apispark', v
polymer - polymer 会 build 更多现成可用的组件吗？
我将把我们基于 Windows 的客户管理软件移植到基于 Web 的软件。我发现 polymer 可能是一种选择。但是，对于我们的使用，我们找不到 polymer 组件具有表格 View 、下拉菜单
java - 从项目文件夹中读取文件，eclipse 会，但终端不会
我的项目文件夹 Project 中有一个文件夹，比如 ED 文件夹，当我在 Eclipse 中指定在哪里查找我写入的文件时 File file = new File("ED/text.txt"); e
javascript - jQuery 动画背景位置不会改变但 css 会
这是奇怪的事情，这个有效: $('#box').css({"backgroundPosition": "0px 250px"}); 但这不起作用，它只是不改变位置: $('#box').animate
javascript - 为什么按位运算符 OR 会 chop 此示例中的值？
这个问题在这里已经有了答案: Why does OR 0 round numbers in Javascript? (3 个答案) 关闭 5 年前。 Mozilla JavaScript Guide
c - strcmpi 代码不会编译但 strcmp 会？
这个问题在这里已经有了答案: Is the function strcmpi in the C standard libary of ISO? (3 个答案) 关闭 8 年前。我有一个问题，为什么
mysql - MySQL 会/是否支持 DATETIMEOFFSET？
我目前使用的是共享主机方案，我不确定它使用的是哪个版本的 MySQL，但它似乎不支持 DATETIMEOFFSET 类型。是否存在支持 DATETIMEOFFSET 的 MySQL 版本？或者有计划
java - CDI 会(或应该)提供包限定符吗？
研究 Seam 3，我发现 Seam Solder 允许将 @Named 注释应用于包 - 在这种情况下，该包中的所有 bean 都将自动命名，就好像它们符合条件一样@Named 他们自己。我没有看到
arrays - `removeLast` 会 swift 减少数组的容量吗？
我知道 .append 偶尔会增加数组的容量并形成数组的新副本，但 .removeLast 会逆转这种情况并减少容量通过复制到一个新的更小的数组来改变数组？最佳答案否(或者至少如果是，则它是一个错
ruby - Ruby 会*快*吗？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c++ - noexcept 会 boost 性能吗？
noexcept 函数说明符是否旨在 boost 性能，因为生成的对象中可能没有记录异常的代码，因此应尽可能将其添加到函数声明和定义中？我首先想到了可调用对象的包装器，其中 noexcept 可能会产
Angularjs Promise.all 不会更新范围，而 $q.all 会
我正在使用 Angularjs 1.3.7，刚刚发现 Promise.all 在成功响应后不会更新 angularjs View ，而 $q.all 会。由于 Promises 包含在 native
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用
haskell - 为什么 Haskell 会(显然)不一致地推断出特定类型？
我正在编写一个玩具(物理)矢量库，并且遇到了 GHC 坚持认为函数应该具有 Integer 的问题。是他们的类型。我希望向量乘以向量以及标量(仅使用 * )，虽然这可以通过仅使用 Vector 来实现
email - Swiftmailer 不会发送邮件，但是 mail() 会
PHP 的 mail() 函数发送邮件正常，但 Swiftmailer 的 Swift_MailTransport 不起作用! 这有效: mail('user@example.com', 'test
PHP 脚本不会转储 SQL 但 phpMyAdmin 会
我尝试通过 php 脚本转储我的数据，但没有命令行。所以我用 this script 创建了我的 .sql 文件然后我尝试使用我的脚本: $link = mysql_connect($host, $u
python sqlite3 不会执行连接，但单独的 sqlite3 会
使用 python 2.6.4 中的 sqlite3 标准库，以下查询在 sqlite3 命令行上运行良好: select segmentid, node_t, start, number,title
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用

首页

博学

6Ren·AI

商城