- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个训练机器学习模型并通过 pickle 保存它的脚本:
当我尝试将模型加载到网站时,我收到错误消息:“模块‘main’没有属性‘tokenize’”。我尝试导入函数“tokenize”并直接将其复制到加载脚本中,但没有任何效果
完整的训练脚本:
import sys
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import re
import seaborn as sns
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.stem.porter import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.multioutput import MultiOutputClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, fbeta_score, make_scorer
from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import pickle
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
def load_data(database_filepath):
"""takes path to db as input and loads data. Return X, Y and target_names"""
engine = create_engine('sqlite:///{}'.format(database_filepath))
df = pd.read_sql('disaster_data', engine)
X = df.message.values
Y = df.drop(['message', 'id', 'original', 'genre'], axis=1).values
target_names = df.drop(['message', 'id', 'original', 'genre'], axis=1).columns
return X, Y, target_names
def tokenize(text):
"""Takes a text as input an returns a list of tokenized words"""
stop_words = stopwords.words("english")
text = re.sub(r"[^a-zA-Z0-9]", " ", text).lower().strip()
words = word_tokenize(text)
clean_words = [w for w in words if w not in stopwords.words("english")]
tokens = [WordNetLemmatizer().lemmatize(w) for w in words if w not in stop_words]
clean_tokens = [PorterStemmer().stem(w) for w in tokens]
return clean_tokens
def build_model():
"""Builds a model. returns a GridSearchCV object"""
pipeline = Pipeline([
('vect', CountVectorizer(tokenizer=tokenize)),
('tfidf', TfidfTransformer()),
('clf', MultiOutputClassifier(RandomForestClassifier(), n_jobs=1)),
])
parameters = {'clf__estimator__max_depth': [30],
'clf__estimator__min_samples_leaf': [5],
'clf__estimator__min_samples_split': [5],
'clf__estimator__n_estimators': [100]}
return GridSearchCV(estimator=pipeline, param_grid=parameters, verbose=10, n_jobs=1)
def evaluate_model(model, X_test, Y_test, category_names):
"""Takes model, X_test, Y_test and category names as input and evaluates model"""
y_pred = model.predict(X_test)
print("Accuracy of the model :", (y_pred == Y_test).mean())
for i in y_pred:
print(classification_report(Y_test, y_pred, target_names=category_names))
break
def save_model(model, model_filepath):
"""Takes model and path for saving as input and saves the model"""
pickle.dump(model, open(model_filepath, 'wb'))
# Uncommetn for joblib saving
# joblib.dump(model, model_filepath)
def main():
"""Main function"""
if len(sys.argv) == 3:
database_filepath, model_filepath = sys.argv[1:]
print('Loading data...\n DATABASE: {}'.format(database_filepath))
X, Y, category_names = load_data(database_filepath)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)
print('Building model...')
model = build_model()
print('Training model...')
model.fit(X_train, Y_train)
print('Evaluating model...')
evaluate_model(model, X_test, Y_test, category_names)
print('Saving model...\n MODEL: {}'.format(model_filepath))
save_model(model, model_filepath)
print('Trained model saved!')
else:
print('Please provide the filepath of the disaster messages database '\
'as the first argument and the filepath of the pickle file to '\
'save the model to as the second argument. \n\nExample: python '\
'train_classifier.py ../data/DisasterResponse.db classifier.pkl')
if __name__ == '__main__':
main()
加载脚本:
import json
import plotly
import pandas as pd
import nltk
import pickle
from nltk.stem import WordNetLemmatizer
from flask import Flask
from flask import render_template, request, jsonify
from plotly.graph_objs import Bar
from sklearn.externals import joblib
from sklearn.feature_extraction.text import CountVectorizer
from sqlalchemy import create_engine
from nltk.corpus import stopwords
from flask import render_template
from wrangling_scripts.wrangle_data import return_figures
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.stem.porter import PorterStemmer
from train_classifier_for_web import tokenize
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
app = Flask(__name__)
def tokenize(text):
"""Takes a text as input an returns a list of tokenized words"""
stop_words = stopwords.words("english")
text = re.sub(r"[^a-zA-Z0-9]", " ", text).lower().strip()
words = word_tokenize(text)
clean_words = [w for w in words if w not in stopwords.words("english")]
tokens = [WordNetLemmatizer().lemmatize(w) for w in words if w not in stop_words]
return [PorterStemmer().stem(w) for w in tokens]
return clean_tokens
@app.before_first_request
def main():
try:
engine = create_engine('sqlite:///DisasterResponse.db')
df = pd.read_sql_table('disaster_data', engine)
except:
print("path error to sql db")
try:
model = joblib.load('web_model.sav','rb')
except Exception as e:
print("cant load model", e)
最佳答案
已解决:
我尝试将标记化函数保存在一个单独的模块中,并在训练脚本和加载脚本中以相同的方式导入它
关于python - pickle 序列化: module '__main__' has no attribute 'tokenize' ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53167418/
我正在开发一个应用程序,它使用 OAuth - 基于 token 的身份验证。 考虑到我们拥有访问和刷新 token ,这就是流程的样子。 Api call -> intercepter append
如何取消标记此代码的输出? 类(class)核心: def __init__(self, user_input): pos = pop(user_input) subject = ""
当我使用命令 kubectl 时与 --token标记并指定 token ,它仍然使用 kubeconfig 中的管理员凭据文件。 这是我做的: NAMESPACE="default" SERVICE
我正在制作 SPA,并决定使用 JWT 进行身份验证/授权,并且我已经阅读了一些关于 Tokens 与 Cookies 的博客。我了解 cookie 授权的工作原理,并了解基本 token 授权的工作
我正在尝试从应用服务获取 Google 的刷新 token ,但无法。 日志说 2016-11-04T00:04:25 PID[500] Verbose Received request: GET h
我正在开发一个项目,只是为了为 java 开发人员测试 eclipse IDE。我是java新手,所以我想知道为什么它不起作用,因为我已经知道该怎么做了。这是代码: public class ecli
我正在尝试使用 JwtSecurityTokenHandler 将 token 字符串转换为 jwt token 。但它出现错误说 IDX12709: CanReadToken() returned
我已阅读文档 Authentication (来自 Facebook 的官方)。我仍然不明白 Facebook 提供的这三种访问 token 之间的区别。网站上给出了一些例子,但我还是不太明白。 每个
我的部署服务器有时有这个问题,这让我抓狂,因为我无法在本地主机中重现,我已经尝试在我的 web.config 中添加机器 key ,但没有成功远。 它只发生在登录页面。 我的布局:
我已经设法获得了一个简单的示例代码,它可以创建一个不记名 token ,还可以通过阅读 stackoverflow 上的其他论坛来通过刷新 token 请求新的不记名 token 。 启动类是这样的
如果我有以前的刷新 token 和使用纯 php 的访问 token ,没有 Google Api 库,是否可以刷新 Google Api token ?我在数据库中存储了许多用户刷新和访问 toke
我通过 Java 应用程序使用 Google 电子表格时遇到了问题。我创建了应用程序,该应用程序运行了 1 年多,没有任何问题,我什至在 Create Spreadsheet using Google
当我有一个有效的刷新 token 时,我正在尝试使用 Keycloak admin REST API 重新创建访问 token 。 我已经通过调用 POST/auth/realms/{realm}/p
我正在尝试让第三方 Java 客户端与我编写的 WCF 服务进行通信。 收到消息时出现如下异常: Cannot find a token authenticator for the 'System.I
在尝试将数据插入到我的 SQl 数据库时,我收到以下错误 System.Data.SqlServerCe.SqlCeException: There was an error parsing the
使用数据库 session token 系统,我可以让用户使用用户名/密码登录,服务器可以生成 token (例如 uuid)并将其存储在数据库中并将该 token 返回给客户端。其上的每个请求都将包
我最近注册了 Microsoft Azure 并设置了认知服务帐户。使用 Text Translation API Documentation 中的说明我能够使用 interactive online
我使用 IAntiforgery API 创建了一个 ASP.Net Core 2 应用程序。 这提供了一种返回 cookie 的方法。 客户端获取该 cookie,并在后续 POST 请求中将该值放
我正在使用 spacy 来匹配某些文本(意大利语)中的特定表达式。我的文本可以多种形式出现,我正在尝试学习编写一般规则的最佳方式。我有如下 4 个案例,我想写一个适用于所有案例的通用模式。像这样的东西
我无法理解 oauth 2.0 token 的原则处理。 我的场景是,我有一个基于 web 的前端后端系统,带有 node.js 和 angular 2。用户应该能够在此站点上上传视频。然后创建一些额
我是一名优秀的程序员,十分优秀!