- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我刚刚对 43K 文档进行了文本预处理(停用词删除/标记化等)。在 python 中,结果是处理过的文本文档(字符串)的列表。现在我要将这些处理过的字符串转换为词袋特征向量。
我在两件事上需要帮助。
1).我的系统花了 45 分钟来预处理这些 43K 文档文本。如果稍后重新启动系统,我不想再做同样的事情。如何保存这些预处理字符串列表?我应该简单地将它保存到 txt 文件还是应该使用 pickle 或 json?。就更快地读取内存并且没有问题而言,这是更可取的。我想对一袋词矩阵(numpy 矩阵)做同样的事情。
2).我将运行 LDA 或 k 表示稍后在这些词袋矩阵上进行聚类。保留我的模型以便我不必再次重新运行模型的最佳解决方案是什么?酸洗?
如果 pickling 是解决方案,有人可以建议在这两种情况下 pickle 的正确语法吗?
最佳答案
我使用 sklearn joblib ,它比使用 cPickle 和 gzip 的其他答案更快(我的测试是 170 毫秒对 430 毫秒)。而且代码很简单很酷。 :)
使用joblib.dump
保存,和 joblib.load
读取
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
clf = joblib.load('filename.pkl')
查看更多详细信息:http://scikit-learn.org/stable/modules/model_persistence.html
关于python - 如何保存 Python 字符串列表以供将来使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32898478/
大家好我有一个应用程序可以打开一个包含文本和图像组合的文章的 WebView 。如您所知,文章有不同的字体,我想知道是否有办法让 Web View 呈现几种 Helvetica 字体,就像在安装了这些
我正在寻找一种好的格式来归档旧 Linux 计算机的整个文件系统。 西藏自治区 tar.gz 格式非常适合归档具有 UNIX 样式属性的文件,但由于压缩应用于整个归档,因此设计排除了随机访问。相反,如
我最近一直在苦苦挣扎,因为我不得不更改我不久前编写的一些代码以在 Qt 中进行图像处理和 OpenGl以支持多线程。 问题是我想用它在一组图像上应用批量过滤器, 我正在使用 openMP 来做这样的多
我已成功将两个实际设备连接到 Azure IoTHub(在同一个 IoT 中心),并希望第二个设备接收第一个设备发送的消息。因此,在普通的 MQTT 代理中,第二个设备仅订阅该主题,但 Azure没有
我需要一些 Jenkins 作业才能通过 ssh 通过 shell 命令行访问其他一些机器。 我该怎么做? 我没有目标服务器的密码,但我有一个“ key ”文件,但是当我使用以下命令运行作业时 ssh
我在 Mac OSX Mavericks 上使用 MAMP。我想安装最新的 XDebug v2.2.4。根据 XDebug 向导,我下载了 XDebug 2.2.4 源代码。我的系统上安装了许多版本的
所以我正在制作一个程序,从用户给定的 AZ Lyrics 歌曲中提取歌词。我遇到的问题是,在将字符串转换为 URL 后,它说 Jsoup 无法解析它,因为它不接受字符串,尽管变量是我们传入的 URL。
我已经安装了 AWS .NET SDK通过 MSI 安装程序。我想使用这段代码: static IAmazonS3 client; client = new AmazonS3Client(Amazon
我正在使用 cURL 检索另一个页面,除非我有特定的 cookie,否则我看不到页面内容。 cookie 名称是 seepage,它的值必须设置为 1 才能让我看到页面内容。 我想使用 cURL 加载
目录 1、VLC代码封装 1.1 QT(C++)工程 1.2static 声明 m_instance 优化效率 1.3封装 DLL
我是 Docker 新手,但有一个 Java Web 应用程序项目,我的 Maven 构建会为其生成并安装 Docker 镜像。即 mvn clean install 产品: REPOSITORY
我正在尝试在 Debian Stretch 上做一个带有 uinput 的虚拟键盘,我可以输入字符串,比如“Toto!”,键盘会写入这个字符串。但是,我一直坚持从 C char 到键盘处理的键码的转换
我们正在 Rails 中开发一个 JSON REST API,供我们也在开发的 Android 应用程序使用。有什么方法可以保护 API,使其只能由我们特定的 Android 应用程序使用? API
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
所以我有一个问题,我有 2 个应用程序部署在具有不同端口的同一网站上,一个是登录应用程序,一个是HRIS 系统。 我的问题是,当我的登录应用程序创建 token 时并重定向到我的 hris 系统,hr
在给出的第三段代码的上下文中交谈 on this page , 有一个方法 Messenger named getBinder()返回 the IBinder Messenger 用于与 associ
我目前有一个私有(private) Java 项目,我正在尝试将其完善以供其他开发人员使用。我想做的一件事是让 Ant 自己下载 JUnit、PMD 和 FindBugs 等所需的 JAR,这样开发人
我想在 Qt 中使用 ffmpeg 库进行编程。 如何在 Windows 上将 ffmpeg 编译成 *.lib 文件? 或 如何使用Qt官方发布的编译后的*.dll文件? 还有,哪种方式比较好? 最
我正在为扩展 std::vector 实例化的 C++ 类开发 Python 绑定(bind)。为了让 Python 下标运算符为此类工作,我添加了如下所示的 __getitem__ 函数(我删除了不
我正在为 Amazon SWF 的相当简单的工作流程编写 PHP。我发现自己开始编写一个库来检查某些操作是否已经开始或完成。基本上遍历事件列表以检查事情的进展情况,然后在需要时启动适当的事件。有时这可
我是一名优秀的程序员,十分优秀!