gpt4 book ai didi

python - 我有大量相同性质的小文件。我可以在它们的基础上构建字典,但单独压缩每个文件吗?

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:25:56 25 4
gpt4 key购买 nike

语料库由字符串(文件名)及其校验和组成,因此我希望它的熵高于普通文本。此外,该集合太大而无法分析,因此我将对其进行采样以创建全局字典。我的任务是否有一种奇特的机器学习方法?

我应该使用哪种算法或者更好的库?

我正在使用 python 以防万一。

最佳答案

我建议您使用 sparse coding .它允许您使用您的数据集来推断一个超完备字典,然后将其用于对您的数据进行编码。如果您的数据确实具有相似的性质,那么这可能很适合您。

关于python - 我有大量相同性质的小文件。我可以在它们的基础上构建字典,但单独压缩每个文件吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13654357/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com