- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我编写了一个 python 程序,需要为机器学习任务处理相当大的数据集。我有一个训练集(大约 600 万行)和一个测试集(大约 200 万行)。到目前为止,我的程序在一段合理的时间内运行,直到我到达代码的最后一部分。关键是我有自己的机器学习算法来进行预测,并将这些预测保存到一个列表中。但在我将预测写入文件之前,我需要做一件事。我的火车和测试集中有重复项。我需要在火车集中找到那些重复项并提取其相应的标签。为此,我创建了一个字典,将我的训练示例作为键,将标签作为值。之后,我创建了一个新列表并迭代了我的测试集和训练集。如果在我的训练集中可以找到我测试集中的示例,则将相应的标签附加到我的新列表中,否则,将我的预测附加到我的新列表中。
我用来实现上述问题的实际代码:
listed_predictions = list(predictions)
""""creating a dictionary"""
train_dict = dict(izip(train,labels))
result = []
for sample in xrange(len(listed_predictions)):
if test[sample] in train_dict.keys():
result.append(train_dict[test[sample]])
else:
result.append(predictions[sample])
这个循环大约需要 200 万次迭代。我想到了 numpy 数组,因为它们应该比 python 列表更好地扩展,但我不知道如何使用 numpy 数组实现相同的效果。还考虑了其他优化解决方案,如 Cython,但在我深入研究之前,我希望我作为一个没有接受过正规计算教育的缺乏经验的程序员,没有看到一些容易实现的成果。
更新我已经实现了 thefourtheye 的解决方案,它使我的运行时间减少到大约 10 小时,这对于我想要实现的目标来说已经足够快了。大家好,谢谢大家的帮助和建议。
最佳答案
两个建议,
要检查键是否在字典中,只需使用 in
和对象(这发生在 O(1) 中)
if key in dict:
所以,你的代码就变成了这样
result = [train_dict.get(test[sample], predictions[sample]) for sample in xrange(len(listed_predictions))]
关于python - 加速我的 python 代码的技巧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20584266/
我是新手。查看 Google 新闻...上下滚动页面时请注意左侧导航栏。 看看它是如何滚动一点,然后在它消失之前粘在页面顶部的? 关于如何做到这一点有什么想法吗? jQuery 和 CSS 可以复制吗
技巧 1:在 Web 服务器上缓存常用数据 技巧 2:在 Application 或 Session 对象中缓存常用数据 技巧 3:在 Web 服务器磁盘上缓存数据和 HTML 技巧 4:避免
我在 excel 中有一个电子表格,其中包含以下行: COLUMN Value1.Value2.Value3 Value4.Value5.Value6 Value7.Value8.Val
GNU Makefile 中是否有任何技巧来获取规则的所有依赖项? 例子: rule1: dep1_1 dep1_2 dep1_3 rule2: dep2_1 dep2_2 rule1 dump_
人们使用什么来追踪内存泄漏?我已经通过代码检查设法解决了一些问题,但我不知道下一步该做什么/当我的程序变大时我将如何管理问题。我知道我在泄漏什么类型的对象,但我不知道是什么让它保持活力。 在 Wind
有什么好的方法可以将“xlSum”、“xlAverage”和“xlCount”等字符串转换为它们在 Microsoft.Office.Interop.Excel.XlConsolidationFunc
我们都见过这个: javascript:document.body.contentEditable='true'; document.designMode='on';无效 0 但我的问题是,这实际上是
我的应用程序将输出一个图形,其布局由用户定义。自定义布局类应该实现我定义的接口(interface)。我应该怎么做?有一个特殊的文件夹,我可以在其中查找布局类?用户是否将类名作为参数传递给应用? 如有
我在弄清楚如何在 Javascript 中自引用表行时遇到了一些麻烦。 这是简化的代码: $( "#listitems tbody" ).append( "" + "" + id.va
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this q
我正在将代码库从一种编程风格转移到另一种编程风格。 我们有一个名为 Operand 的类型,定义如下: class Operand {...}; 然后我们有 class OperandFactory
我使用以下缩略图类在我的内容包装器中显示 4x3 缩略图: .thumbnail { float:left; width:300px; height:200px; ma
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我认为这是不可能的,但我想在放弃之前问问你。 我想要类似 constexpr 增量的东西。 #include constexpr int inc() { static int inc = 0;
是否有任何适合 C++ 新手的技术和描述的好列表。我在想一个描述 RAII、RVO、左值的列表……这适用于目前不了解这些技术或来自不适用这些技术的其他语言的新手。 最好是短小精悍的:-) 最佳答案 是
我有一个二进制字符串 '01110000',我想在不编写 forloop 的情况下返回前面的前导零数。有谁知道如何做到这一点?如果字符串立即以“1”开头,最好也返回 0 最佳答案 如果您真的确定它是一
我需要优化我的应用程序的 RAM 使用率。 请省去那些告诉我在编写 Python 代码时不应该关心内存的讲座。我有内存问题,因为我使用非常大的默认字典(是的,我也想快点)。我目前的内存消耗是 350M
有时,当我看到一个我喜欢的网站或来自受人尊敬的人的网站时,我会查看源代码并尝试理解它们(就像我们所有人一样)。 关于 Jeremy Keiths他使用以下代码的网站: [role="navigatio
这是我怎样设置 Git 来管理我的家目录的方法。 我有好几台电脑。一台笔记本电脑用于工作,一台工作站放在家里,一台树莓派(或四台),一台 Pocket CHIP,一台 运行
shell 技巧 表变量 HBase 0.95 版本增加了为表提供 jruby 风格的面向对象引用的 shell 命令。以前,作用于表的所有 shell 命令都具有程序风格,该风格始终将表的名称作
我是一名优秀的程序员,十分优秀!