- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个训练有素的模型。我想找出新数据属于哪个类。我做了一些尝试,但遇到了一些问题。
with open('text_classifier', 'rb') as training_model:
model = pickle.load(training_model)
y_pred2 = model.predict(X_test)
这段代码有效
但是……
new_test_data=["spor toto süper lig 30. hafta medipol bu akşam ev göztepe
ile saat 20.30'da başla mücadele suat arslanboğa arslanboğa yardımcı
serka ok ve ismail şencan"]
tfidfconverter = TfidfVectorizer()
new_test_data = tfidfconverter.fit_transform(new_test_data).toarray()
model.predict(new_test_data)
我遇到这样的错误
Number of features of the model must match the input. Model n_features is 9671 and input n_features is 25
The code block I'm training with
data = load_files(r"...\docs",encoding="utf-8")
X, y = data.data, data.target
tfidfconverter = TfidfVectorizer(min_df=3, max_df=0.7)
X = tfidfconverter.fit_transform(X).toarray()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=0)
classifier = RandomForestClassifier(n_estimators=1000, random_state=0)
classifier.fit(X_train, y_train)
y_pred2 = classifier.predict(X_test)
最佳答案
我相信您需要在数据中指定要在训练模型时实际用作特征的参数。看起来您的训练模型正在使用行条目而不是每一列作为特征。这可以通过读入数据然后转身并将其转换为 CSV 然后再次读入来解决。但是,如果您已经知道数据的结构,则无需执行此步骤。基本上,您只需要知道数据列的名称。此方法需要 Pandas 模块。这是一些代码...
data = load_files(r"...\docs",encoding="utf-8")
data.to_csv('train_data.csv', encoding = 'utf-8', index = False)
然后从 CSV 中读回训练数据...
train_data = pd.read_csv('train_data.csv')
现在,当您调用 train_test_split 方法时,您应该指定要用作数据特征的内容。这通常是数据表中的列,因为这些是收集来分析的指标。我定义函数来拆分数据并构建指定特征的模型,因为我认为它更容易理解,但您也可以直接调用函数。
def split_dataset(dataset, train_percentage, feature_headers, target_header):
train_x, test_x, train_y, test_y = train_test_split(dataset[feature_headers],
dataset[target_header], train_size = train_percentage)
return train_x, test_x, train_y, test_y
def random_forest_classifier(features, target):
model = RandomForestClassifier(n_estimators = 500, oob_score = True, n_jobs
=-1,random_state = 1, min_impurity_decrease = .01)
model.fit(features, target)
return model
现在您已准备好使用您的数据调用函数。
train_x, test_x, train_y, test_y = split_dataset(train_data, 0.80,
train_data.columns[0:24], train_data.columns[-1])
trained_model = random_forest_classifier(train_x,train_y)
您现在应该能够使用这 25 个特征对您训练的模型进行预测。
关于python - 尝试针对我的随机森林模型进行测试时,如何修复 “Number of features error”?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55874232/
从 angular 5.1 更新到 6.1 后,我开始从我的代码中收到一些错误,如下所示: Error: ngc compilation failed: components/forms/utils.
我正在学习 Typescript 并尝试了解类型和接口(interface)的最佳实践。我正在玩一个使用 GPS 坐标的示例,想知道一种方法是否比另一种更好。 let gps1 : number[];
type padding = [number, number, number, number] interface IPaddingProps { defaultValue?: padding
这两种格式在内存中保存结果的顺序上有什么区别吗? number = number + 10; number += 10; 我记得一种格式会立即保存结果,因此下一行代码可以使用新值,而对于另一种格式,
在 Python 匹配模式中,如何匹配像 1 这样的文字数字在按数字反向引用后 \1 ? 我尝试了 \g用于此目的的替换模式中可用的语法,但它在我的匹配模式中不起作用。 我有一个更大的问题,我想使用一
我的源文件here包含 HTML 代码,我想将电话号码更改为可在我的应用程序中单击。我正在寻找一个正则表达式来转换字符串 >numbernumber(\d+)$1numbernumber<",我们在S
我们有一个包含 2 个字段和一个按钮的表单。我们想要点击按钮来输出位于 int A 和 int B 之间的随机整数(比如 3、5 或 33)? (不需要使用 jQuery 或类似的东西) 最佳答案 你
我收到以下类型错误(TypeScript - 3.7.5)。 error TS2345: Argument of type '(priority1: number, priority2: number
只想创建简单的填充器以在其他功能中使用它: function fillLine(row, column, length, bgcolor) { var sheet = SpreadsheetApp
我有一个问题。当我保存程序输出的 *.txt 时,我得到以下信息:0.021111111111111112a118d0 以及更多的东西。 问题是: 这个数字中的“d0”和“a”是什么意思? 我不知道“
首先:抱歉标题太长了,但我发现很难用一句话来解释这个问题;)。是的,我也四处搜索(这里和谷歌),但找不到合适的答案。 所以,问题是这样的: 数字 1-15 将像这样放在金字塔中(由数组表示):
我想从字符串中提取血压。数据可能如下所示: text <- c("at 10.00 seated 132/69", "99/49", "176/109", "10.12 I 128/51, II 1
当尝试执行一个简单的 bash 脚本以将前面带有 0 的数字递增 1 时,原始数字被错误地解释。 #!/bin/bash number=0026 echo $number echo $((number
我有一个类型为 [number, number] 的字段,TypeScript 编译器(strict 设置为 true)出现问题,提示初始值值(value)。我尝试了以下方法: public shee
你能帮我表达数组吗:["232","2323","233"] 我试试这个:/^\[("\d{1,7}")|(,"\d{1,7}")\]$/ 但是这个表达式不能正常工作。 我使用 ruby(rail
这个问题在这里已经有了答案: meaning of (number) & (-number) (4 个回答) 关闭6年前. 例如: int get(int i) { int res = 0;
我正在考虑使用 Berkeley DB作为高度并发的移动应用程序后端的一部分。对于我的应用程序,使用 Queue对于他们的记录级别锁定将是理想的。但是,如标题中所述,我需要查询和更新概念建模的数据,如
我正在尝试解决涉及重复数字的特定 JavaScript 练习,为此我需要将重复数字处理到大量小数位。 目前我正在使用: function divide(numerator, denominator){
我有这个数组类型: interface Details { Name: string; URL: string; Year: number; } interface AppState {
我们正在使用 Spring 3.x.x 和 Quartz 2.x.x 实现 Web 应用程序。 Web 服务器是 Tomcat 7.x.x。我们有 3 台服务器。 Quartz 是集群式的,因此所有这
我是一名优秀的程序员,十分优秀!