python - 如何加速 LabelEncoder 将分类变量重新编码为整数-6ren

python - 如何加速 LabelEncoder 将分类变量重新编码为整数

转载作者：太空狗更新时间：2023-10-30 00:54:15

24

4

我有一个很大的 csv，每行有两个字符串，格式如下:

g,k
a,h
c,i
j,e
d,i
i,h
b,b
d,d
i,a
d,h

我阅读了前两列并将字符串重新编码为整数，如下所示:

import pandas as pd
df = pd.read_csv("test.csv", usecols=[0,1], prefix="ID_", header=None)
from sklearn.preprocessing import LabelEncoder

# Initialize the LabelEncoder.
le = LabelEncoder()
le.fit(df.values.flat)

# Convert to digits.
df = df.apply(le.transform)

此代码来自https://stackoverflow.com/a/39419342/2179021 .

该代码工作得很好，但当 df 很大时速度很慢。我为每个步骤计时，结果令我惊讶。

pd.read_csv 大约需要 40 秒。
le.fit(df.values.flat) 大约需要 30 秒
df = df.apply(le.transform) 大约需要 250 秒。

有什么方法可以加快这最后一步吗？感觉应该是最快的一步了!

在具有 4GB RAM 的计算机上重新编码步骤的更多计时

maxymoo 下面的答案很快，但没有给出正确答案。以问题顶部的示例 csv 为例，它将其转换为:

请注意，“d”在第一列中映射到 3，而在第二列中映射到 2。

我尝试了 https://stackoverflow.com/a/39356398/2179021 中的解决方案并获得以下信息。

df = pd.DataFrame({'ID_0':np.random.randint(0,1000,1000000), 'ID_1':np.random.randint(0,1000,1000000)}).astype(str)
df.info()
memory usage: 7.6MB
%timeit x = (df.stack().astype('category').cat.rename_categories(np.arange(len(df.stack().unique()))).unstack())
1 loops, best of 3: 1.7 s per loop

然后我将数据帧大小增加了 10 倍。

df = pd.DataFrame({'ID_0':np.random.randint(0,1000,10000000), 'ID_1':np.random.randint(0,1000,10000000)}).astype(str) 
df.info()
memory usage: 76.3+ MB
%timeit x = (df.stack().astype('category').cat.rename_categories(np.arange(len(df.stack().unique()))).unstack())
MemoryError                               Traceback (most recent call last)

此方法似乎使用了太多 RAM 来尝试转换它崩溃的这个相对较小的数据帧。

我还使用具有 1000 万行的较大数据集对 LabelEncoder 进行计时。它运行时没有崩溃，但仅拟合线就花了 50 秒。 df.apply(le.transform) 步骤耗时约 80 秒。

我怎样才能:

大致了解 maxymoo 的回答速度和 LabelEncoder 的大致内存使用情况，但当数据帧有两列时，这会给出正确的答案。
存储映射以便我可以将其重复用于不同的数据(就像 LabelEncoder 允许我做的那样)？

最佳答案

看起来使用 pandas category 数据类型会快得多；在内部，它使用哈希表，而 LabelEncoder 使用排序搜索:

In [87]: df = pd.DataFrame({'ID_0':np.random.randint(0,1000,1000000), 
                            'ID_1':np.random.randint(0,1000,1000000)}).astype(str)

In [88]: le.fit(df.values.flat) 
         %time x = df.apply(le.transform)
CPU times: user 6.28 s, sys: 48.9 ms, total: 6.33 s
Wall time: 6.37 s

In [89]: %time x = df.apply(lambda x: x.astype('category').cat.codes)
CPU times: user 301 ms, sys: 28.6 ms, total: 330 ms
Wall time: 331 ms

编辑:这是一个您可以使用的自定义转换器类(您可能不会在官方 scikit-learn 版本中看到它，因为维护者不希望将 pandas 作为依赖)

import pandas as pd
from pandas.core.nanops import unique1d
from sklearn.base import BaseEstimator, TransformerMixin

class PandasLabelEncoder(BaseEstimator, TransformerMixin):
    def fit(self, y):
        self.classes_ = unique1d(y)
        return self

    def transform(self, y):
        s = pd.Series(y).astype('category', categories=self.classes_)
        return s.cat.codes

关于python - 如何加速 LabelEncoder 将分类变量重新编码为整数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39475187/

24

4

0

文章推荐： python - doc2vec 如何聚类 DocvecsArray

文章推荐： c# - 向前移动角度 XNA

文章推荐： python - crontab 如果尚未运行则运行 python 文件

iphone - <加速/加速.h> "file not found"
我想在我的 iPhone 应用程序中加入线性回归。经过一些搜索，我发现 Accelerate Framework 中的 LAPACK 和 BLAS 是正确的库。但是我很难将加速框架添加到我的 XCod
Javascript 加速？
有什么方法可以加速 JS 脚本(我指的是一些复杂的 DOM 操作，比如游戏或动画)？最佳答案真的没有办法真正加快速度。您可以压缩它，但不会快很多。关于Javascript 加速？，我们在Stac
MySQL加载数据infile - 加速？
有时，我必须为一个项目重新导入数据，从而将大约 360 万行读入 MySQL 表(目前是 InnoDB，但我实际上并不局限于这个引擎)。 “加载数据文件...”已被证明是最快的解决方案，但它有一个权衡
performance - 如何计算执行时间(加速)
在尝试计算加速时，我被卡住了。所以给出的问题是: 问题 1 如果程序的 50% 增强了 2 倍，其余 50% 增强了 4 倍，那么由于增强而导致的整体加速是多少？ Hints:考虑增强前(未增强)机器
python - 加速 Matplotlib
目前我正在处理实时绘图，但可视化非常慢。我想知道你可以做些什么来加速 Matplotlib 中的事情: 后端如何影响性能？是否有后端实时绘图比其他人更好吗？我可以降低分辨率以提高 FPS 吗？如
haskell - 加速 runhaskell
我有一个小型测试框架。它执行一个循环，执行以下操作: 生成一个小的 Haskell 源文件。使用 runhaskell 执行此操作.该程序生成各种磁盘文件。处理刚刚生成的磁盘文件。这种情况发生了
javascript - 加速 swfobject
这是我的网站:Instant-YouTube 如您所见，加载需要很长时间。在 IE8 及以下甚至有时会导致浏览器崩溃。我不确定是什么原因造成的。可能是 Clicksor 广告，但我认为是 swfobj
ios - 加速 SKSpriteNode
是否可以加速 SKSpriteNode？我知道可以使用 node.physicsBody.velocity 轻松设置速度但是设置它的加速度有多难？最佳答案从牛顿第二定律倒推运动:F = m.a您
javascript - 加速 FCKEditor
有没有人有加速 FCKEditor 的技术？是否有一些关键的 JavaScript 文件可以缩小或删除？最佳答案在最新版本 (3.0.1) 中，FCKEditor 已重命名为 CKEditor .
MySQL查询优化-加速|索引使用
我有以下 MySQL 查询，需要一天多的时间才能执行: SELECT SN,NUMBER FROM a WHERE SN IN (SELECT LOWER_SN FROM b WHER
ios - 加速、移动元素
我现在正在开发一款使用加速来玩的游戏。我找到了如何让我的元素移动，但不改变它的“原点”，或者更准确地说，改变加速度计算的原点: 事实上，我的图像是移动的，它的中心是这样定义的: imageView.c
mysql - 加速 ORDER BY
我有一个 mysql 表，其中存储有 4 列的成员消息: message_id(主键，自增) sender_id( key ) receiver_id( key ) 消息内容我做了很多 SELECT
用于简单计算的 CUDA 加速
我在 cuda_computation.cu 中有以下代码 #include #include #include #include void checkCUDAError(const char
python - 加速 BeautifulSoup
我正在使用 BeautifulSoup 在 for 循环中解析数千个网站。这是我的代码片段: def parse_decision(link): t1 = time.time() de
c++ - 加速 OpenCV
我正在使用 OpenCV 2.4 (C++) 在灰度图像上进行寻线。这涉及一些基本的图像处理步骤，如模糊、阈值、Canny 边缘检测器、梯度滤波器或霍夫变换。我必须在数千张图像上应用寻线算法。考虑到
java - 加速 jasperreports
当我试图连续生成四次相同的报告时，我刚刚分析了我的报告应用程序。第一个用了 1859 毫秒，而后面的只用了 400 到 600 毫秒。对此的解释是什么？我能以某种方式使用它来使我的应用程序更快吗？报告
ios - 加速 Storyboard打开
当我打开 Storyboard文件时，由于其中包含的 VC 数量，打开它需要 1-2 分钟。加快速度的最佳做法是什么？我们应该将一些 VC 移动到不同的 Storyboard文件中吗？我们是否应该使用
iphone - 加速 UIPageViewController
我有一个包含多个页面的 UIPageViewController。每个页面都是相同的 View Controller ，但会跟踪页码并显示 PDF 的正确页面。问题是每个 PDF 页面都需要在 cur
java - 加速 Java
这实际上是两个问题，但它们非常相似，为了简单起见，我想将它们放在一起: 首先:给定一个已建立的 Java 项目，除了简单的代码内优化之外，还有哪些不错的方法可以加快它的速度？其次:在用Java从头写
java - 加速 xpath
我有一个包含 1000 个条目的文档，其格式类似于:

首页

博学

6Ren·AI

商城

python - 如何加速 LabelEncoder 将分类变量重新编码为整数