Python 比字典更快的替代品？-6ren

Python 比字典更快的替代品？

转载作者：太空狗更新时间：2023-10-29 21:31:30

25

4

<分区>

我正在使用朴素贝叶斯分类器制作一个简单的情感挖掘系统。

为了训练我的分类器，我有一个文本文件，其中每一行都包含一个标记列表(从推文生成)和相关的情绪(0 代表 -ve，4 代表积极)。

例如:

0 @ switchfoot http : //twitpic.com/2y1zl - Awww , that 's a bummer . You shoulda got David Carr of Third Day to do it . ; D
0 spring break in plain city ... it 's snowing
0 @ alydesigns i was out most of the day so did n't get much done
0 some1 hacked my account on aim now i have to make a new one
0 really do n't feel like getting up today ... but got to study to for tomorrows practical exam ...

现在，我要做的是针对每个标记，计算它在正面推文中出现的次数，以及它在负面推文中出现的次数。然后我计划使用这些计数来计算概率。我正在使用内置字典来存储这些计数。键是标记，值是大小为 2 的整数数组。

问题是这段代码开始时非常快，但速度越来越慢，当它处理了大约 20 万条推文时，它变得非常慢 - 大约每秒 1 条推文。由于我的训练集有 160 万条推文，这太慢了。我的代码是这样的:

def compute_counts(infile):
    f = open(infile)
    counts = {}
    i = 0
    for line in f:
        i = i + 1
        print(i)
        words = line.split(' ')
        for word in words[1:]:
            word = word.replace('\n', '').replace('\r', '')
            if words[0] == '0':
                if word in counts.keys():
                    counts[word][0] += 1
                else:
                    counts[word] = [1, 0]
            else:
                if word in counts.keys():
                    counts[word][1] += 1
                else:
                    counts[word] = [0, 1]
    return counts

我可以做些什么来加快这个过程？更好的数据结构？

编辑:不是重复的，问题不是在一般情况下比 dict 更快，而是在这个特定的用例中。

25

4

0

文章推荐： c# - 查询 dns 别名

文章推荐： python - NumPy 中的逐元素矩阵乘法

文章推荐： c# - 如何在单元测试中处理后台线程中的异常？

r - 替代品(替代品())做什么？
我不完全确定我理解 substitute 的作用，尽管我以前在它的代码中使用过。今天在shiny::exprToFunction中遇到了如下几行代码: function (expr, env = pa
WPF 替代品
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
Javascript 替代品
我最近发现了 crockford 的 Javascript supplant 函数。函数是这样的—— if (!String.prototype.supplant) { String.prot
JavaScript 替代品
在我工作的一些项目中，添加了一些具有这种语法的 block : var [code, name] = input.split("/"); console.log(code); console.log(
JavaBeans 替代品？
我对 JavaBeans 模式的憎恨就像一千个太阳的火焰一样燃烧。为什么？冗长。现在是 2009 年。我不应该为一个属性写 7 LOC。如果他们有事件监听器，请捕获你的帽子。没有类型安全的引用。没
PHP 替代品？
是否有比 PHP 执行速度更快且具有相同功能集(例如对常见 RDBMS、Curl、Regex 等的支持)的替代品？用 C 编写网站代码怎么样？效果如何？该平台是否独立并在每台服务器上运行？最佳答案
GWT Acegi 替代品
我正在开始新项目。客户端界面基于 GWT(和 GXT)，我没有说它是预先确定的。但是，我可以选择服务器端，这样我就可以玩得开心，并希望在这个过程中学到一些新东西。一些要求是: 与服务器的交换将通过使用
pdf - GhostScript 替代品
我目前使用 CentOS 5.6(Ghostscript 8 - ImageMagick-6.2.8) 我正在尝试将 pdf 的第一张图像转换为 jpg 文件。我知道我当前的设置无法转换压缩的 pd
MathJax/jsMath 替代品？
2021 年更新: 只使用 MathJax；您不应该再支持旧版本的 IE。我想使用 MathJax 来显示 MathML 方程，但它在 IE 中的性能慢得令人无法接受(是的，我读过使用 Emulat
.net - BinaryFormatter 替代品
BinaryFormatter 序列化的 128³ 数组加倍，占用 50 MB 空间。序列化具有两个双字段的 128³ 结构数组需要 150 MB 和超过 20 秒的处理时间。是否有快速简单的替代方
$.each 的 jQuery 替代品
我发现 $.each 非常慢，如果包含大量各种 jQuery 效果，会给网页带来问题。我想知道 $.each 是否有一个好的替代方案，例如: $('ul li').each(function() {
cocoa - NSSwitchButton 替代品
我正在编写一个Mac应用程序，它提供类似“测试”的功能。此应用程序(通过与服务器的连接)。基本上，该应用程序将为学生提供一个故事供阅读，然后是一系列问题(也来自服务器)，用户可以(尝试)选择正确的答案
wpf - XAML 替代品
我喜欢 WPF，但我讨厌 XAML。 XAML 过于冗长，在 Microsoft 尝试对其进行扩展时出现语法问题(请参阅 StringFormat on Bindings)，并且难以导航。 XAML
javascript - react 替代品
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足 Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以
powershell - PowerGadgets 替代品
有没有类似 SoftwareFx 的 PowerGadgets 的产品？我正在查看支持自动刷新的 powershell 的仪表控件。最佳答案检查 ShowUI 模块。 http://showui.
javascript - Websocket 替代品？
我正在开发一个项目，其中页面需要能够根据服务器的状态保持更新。我喜欢 websocket，因为它们为我提供了一种从服务器推送消息的方法，但可用性是一个问题。我需要通用方法在网络服务器和浏览器客户端
openX 替代品，可能是自托管的
我最近一直在使用 openX 自托管广告管理软件，但它太慢了。目标:我需要能够展示一个广告，获得 10 次点击，然后停用该广告，并且每天都这样做。问题:当我将 openX 设置为每天 10 次点击
java - JodReports 替代品
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
Java BufferedImage 替代品
我正在尝试实现一个简单的类，该类允许用户裁剪用于其个人资料图片的图像。这是一个 Java Web 应用程序。我做了一些搜索，发现 java.awt 有一个 BufferedImage 类，这看起来(
JQuery 替代品 - 选择哪个？
只是一个关于 JQuery 的简单问题，我一直在使用phonegap 并使用 JQuery 制作了一些应用程序。其中一个运行速度非常慢，所以我一直在努力尽可能地精简它。我一直在考虑的一个更改是用更小

首页

博学

6Ren·AI

商城

Python 比字典更快的替代品？