gpt4 book ai didi

python - 提高 Python 复制大型数据集的效率

转载 作者:太空宇宙 更新时间:2023-11-03 19:21:10 25 4
gpt4 key购买 nike

我在用 Python 实现随机森林时遇到了一些麻烦。请记住,我很清楚 Python 并不是为了高效的数字运算而设计的。这一选择更多是基于想要更深入地了解 Python 并获得额外的经验。我想找到一个让它变得“合理”的解决方案。

话虽如此,我很好奇这里是否有人可以对我的实现提出一些性能改进建议。通过分析器运行它,很明显,大部分时间都花在执行列表“append”命令和我的数据集分割操作上。本质上,我有一个作为矩阵(而不是列表的列表)实现的大型数据集。我正在使用该数据集构建决策树,因此我将拆分具有最高信息增益的列。拆分包括创建两个新数据集,其中仅包含与某些条件匹配的行。新数据集是通过初始化两个空列表并向其添加适当的行来生成的。

我事先不知道列表的大小,所以我无法预先分配它们,除非可以预先分配充足的列表空间,然后在最后更新列表大小(我还没有看到这个在任何地方引用)。

有没有更好的方法在 python 中处理这个任务?

最佳答案

在没有看到您的代码的情况下,真的很难给出任何具体建议,因为优化是依赖于代码的过程,具体情况会有所不同。然而,仍然有一些一般性的事情:

  1. 检查您的算法,尝试减少循环次数。它似乎你有很多循环,其中一些深深嵌入其他循环(我猜)。
  2. 如果可能,使用更高性能的实用模块,例如 itertools而不是自己编写简单的代码。
  3. 如果您有兴趣,请尝试 PyPy ( http://pypy.org/ ),它是一个面向性能的 Python 实现。

关于python - 提高 Python 复制大型数据集的效率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9727421/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com