- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在编写一个使用 Lending Club API 的脚本来预测贷款是“全额支付”还是“冲销”。为此,我使用 scikit-learn 来构建模型并使用 joblib 进行持久化。由于持久模型中的列数与新原始数据中的列数之间存在差异,我遇到了 ValueError 。 ValueError 是由于为分类变量创建虚拟变量而引起的。模型中使用的列数为 84,在此示例中,使用新数据的列数为 29。
创建虚拟变量时,新数据的列数需要为 84,但我不确定如何继续,因为只有分类变量“homeOwnership”、“addrState”和“目的”的所有可能值的子集' 从 API 获取新数据时出现。
这是我目前正在测试的代码,从分类变量转换为虚拟变量的点开始,到模型实现为止。
#......continued
df['mthsSinceLastDelinq'].notnull().astype('int')
df['mthsSinceLastRecord'].notnull().astype('int')
df['grade_num'] = df['grade'].map({'A':0,'B':1,'C':2,'D':3})
df['emp_length_num'] = df['empLength']
df = pd.get_dummies(df,columns=['homeOwnership','addrState','purpose'])
# df = pd.get_dummies(df,columns=['home_ownership','addr_state','verification_status','purpose'])
# step 3.5 transform data before making predictions
df.drop(['id','grade','empLength','isIncV'],axis=1,inplace=True)
dfbcd = df[df['grade_num'] != 0]
scaler = StandardScaler()
x_scbcd = scaler.fit_transform(dfbcd)
# step 4 predicting
lrbcd_test = load('lrbcd_test.joblib')
ypredbcdfinal = lrbcd_test.predict(x_scbcd)
这是错误消息
ValueError Traceback (most recent call last)
<ipython-input-239-c99611b2e48a> in <module>
11 # change name of model and file name
12 lrbcd_test = load('lrbcd_test.joblib')
---> 13 ypredbcdfinal = lrbcd_test.predict(x_scbcd)
14
15 #add model
~\Anaconda3\lib\site-packages\sklearn\linear_model\base.py in predict(self, X)
287 Predicted class label per sample.
288 """
--> 289 scores = self.decision_function(X)
290 if len(scores.shape) == 1:
291 indices = (scores > 0).astype(np.int)
~\Anaconda3\lib\site-packages\sklearn\linear_model\base.py in decision_function(self, X)
268 if X.shape[1] != n_features:
269 raise ValueError("X has %d features per sample; expecting %d"
--> 270 % (X.shape[1], n_features))
271
272 scores = safe_sparse_dot(X, self.coef_.T,
ValueError: X has 29 features per sample; expecting 84
最佳答案
您的新数据应具有与用于训练和保留原始模型的数据完全相同的列。如果新数据中分类变量的唯一值数量较少,请在执行 pd.get_dummies() 后手动为这些变量添加列,并将所有数据点的它们设置为零。
模型仅在获得所需的列数时才会工作。如果 pd.get_dummies 无法在较新的数据上创建所有这些列,您应该手动执行此操作。
编辑
如果您想在 pd.get_dummies() 步骤之后自动插入缺失的列,可以使用以下方法。假设 df_newdata 是将 pd.get_dummies() 应用于新数据集后的数据框,df_olddata 是在旧数据集(用于训练)上应用 pd.get_dummies() 时获得的 df,您可以简单地执行此操作:
df_newdata = df_newdata.reindex(labels=df_olddata.columns,axis=1)
这将自动在 df_newdata 中创建缺失的列(与 df_olddata 相比),并将所有行的这些列的值设置为 NaN。所以现在,您的新数据框具有与原始数据框相同的提取列。
希望这有帮助
关于python - ValueError:X 每个样本有 29 个特征;期待 84,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57438375/
我想在“交互”模式下“监听”shell 输出的字符串。或者我想以某种方式模拟交互模式,这仍然允许我从 shell 监听特定的字符串。 好像interact只听用户输入(我按下的键)而不是 shell
这些字符数组在语法上有什么问题? struct NewBuiltIn{ char *CommandName[64] = "bigbluetest"; char *FunctionNam
我正在尝试使用继承来创建一个从 runtime_error 派生的类,但我一直收到错误,即使这是练习中使用的确切代码并且作为书中的示例。这是代码: class DivideZeroEx : publi
您好,下面是我的 SQL 代码,它给了我错误,我不知道为什么。如果有人可以提供帮助。 select time_dif, count(time_dif) as count from ( select d
我想在构造函数中分配我的类变量,但出现错误“期望成员声明” class YLAService { var context:Context?=null class YLAService
试图让我了解 Jasmine spy ,这就是我的测试的样子: $scope.switchTurns = function () { $scope.playerTurn = !$scope
我正在研究一个 C 输出问题: #include int main() { int a[][2][3]={0,1,2,3,4,5,6,7,8,9,10,11,12}; int i=-1;
我正在为我的大学做一个关于编译器的作业,这是我第一次使用 SableCC 3.7。我正在尝试定义我的语法文件,但是当我尝试运行它(通过命令行)时,我收到此错误: “ParserException:[5
我正在尝试下面的线性回归 python 代码,但收到错误:“期望 2D 数组得到 1D 数组:Array=[16]”。可能出了什么问题? from sklearn.linear_model impo
这个问题在这里已经有了答案: MySQL - UPDATE query based on SELECT Query (13 个答案) 关闭 3 年前。 我尝试将 John Smith 的薪水增加 1
我在程序结束时遇到问题,它在关键字“END”的末尾表示语法错误,意外的 END_OF_INPUT,期待 IF - 最后一行。我看不出出了什么问题,有人知道问题出在哪里 DELIMITER $$
我为我的方法编写了一个 JUnit 测试。 这是我的方法: public static int delimit(int value, int min, int max) throws Illeg
我想制作一个可以使用 srand 函数回答问题的 expect 脚本。 例如,我将使用 netcat 连接到服务器,我将从服务器收到一个问题,例如“请输入 0 或 1”;然后我希望我的脚本可以使用上面
我有一个初始化脚本(我运行的是 Debian)来启动一个 DLNA 服务器。当我开始服务时,出现以下错误。任何帮助,将不胜感激。请注意:我对 linux/bash/debian 非常陌生。 我收到此错
我正在尝试创建一个脚本来清除 ciscoasa bad xlate。 为了检查错误的 xlate,我运行 sh xlate |在 500 中,如果它得到回复,那么它应该发送一个明确的命令。如果我不这样
我在使用 bash 变量执行 expect 命令时遇到问题。我有脚本参数给定的位置,我需要通过 expect -c 在发送命令中使用它。但我需要用 "给它,所以实际上发送命令认为我已经结束输入,并且在
我真的很难过!我不想使用 RSA AUTH,所以请弃权。 #!/bin/bash echo "Enter the server password" read password cd /home/mik
我有一个异步 QUnit 测试,如果操作超时,测试应该通过。 (我正在测试,如果您省略可选的 errorCallback 并执行会引发错误的操作,那么无论您等待多长时间,基本上都不会发生任何事情。)
关于这个话题有很多问题,但是 - 他们没有给我答案。 根据建议 - 有一个可以设置 ServicePointManager.Expect100Continue = false。但这是 Not Acce
有几篇关于相同内容的帖子,但我仍然无法使我的 expect 脚本正常工作。我的意图是将所有内容自动化,但为用户保留输入密码。所以脚本有 3 个部分: 自动登录 让用户输入密码 将控制权交还给 Expe
我是一名优秀的程序员,十分优秀!