gpt4 book ai didi

python - 如何保存 Python 字符串列表以供将来使用

转载 作者:太空宇宙 更新时间:2023-11-03 13:40:10 30 4
gpt4 key购买 nike

我刚刚对 43K 文档进行了文本预处理(停用词删除/标记化等)。在 python 中,结果是处理过的文本文档(字符串)的列表。现在我要将这些处理过的字符串转换为词袋特征向量。

我在两件事上需要帮助。

1).我的系统花了 45 分钟来预处理这些 43K 文档文本。如果稍后重新启动系统,我不想再做同样的事情。如何保存这些预处理字符串列表?我应该简单地将它保存到 txt 文件还是应该使用 pickle 或 json?。就更快地读取内存并且没有问题而言,这是更可取的。我想对一袋词矩阵(numpy 矩阵)做同样的事情。

2).我将运行 LDA 或 k 表示稍后在这些词袋矩阵上进行聚类。保留我的模型以便我不必再次重新运行模型的最佳解决方案是什么?酸洗?

如果 pickling 是解决方案,有人可以建议在这两种情况下 pickle 的正确语法吗?

最佳答案

我使用 sklearn joblib ,它比使用 cPickle 和 gzip 的其他答案更快(我的测试是 170 毫秒对 430 毫秒)。而且代码很简单很酷。 :)

使用joblib.dump保存,和 joblib.load 读取

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')


clf = joblib.load('filename.pkl')

查看更多详细信息:http://scikit-learn.org/stable/modules/model_persistence.html

关于python - 如何保存 Python 字符串列表以供将来使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32898478/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com