python - 如何加速 pandas drop() 方法？-6ren

python - 如何加速 pandas drop() 方法？

转载作者：行者123 更新时间：2023-12-04 19:49:01

26

4

我有一个很大的 Excel 文件要清理大约 200000 行。因此，如果条件满足，我将使用 pandas 删除不需要的行，但运行需要一些时间。

我现在的代码是这样的

def cleanNumbers(number):  # checks number if it is a valid number
    vaild = True
    try:
        num = pn.parse('+' + str(number), None)
        if not pn.is_valid_number(num):
            vaild = False
    except:
        vaild = False
    return vaild

for UncleanNum in tqdm(TeleNum):
    valid = cleanNumbers(UncleanNum)  # calling cleanNumbers function
    if valid is False:
        df = df.drop(df[df.telephone == UncleanNum].index)  
        # dropping row if number is not a valid number

完成这行代码大约需要 30 分钟。有没有更有效的方法来删除 Pandas 的行？如果不能，我可以使用 numpy 获得相同的输出吗？

我对 pandas 或 numpy 不是很熟悉，所以如果您有任何提示可以分享，那将会很有帮助。

编辑:

我正在使用 phonenumbers 库来检查电话号码是否有效。如果它不是有效的电话号码，我会删除该号码所在的行。

示例数据

address     name    surname     telephone
Street St.  Bill    Billinson   7398673456897<--let say this is wrong
Street St.  Nick    Nick        324523452345
Street St.  Sam     Sammy       234523452345
Street St.  Bob     Bob         32452345234534<--and this too
Street St.  John    Greg        234523452345

输出

address     name    surname     telephone
Street St.  Nick    Nick        324523452345
Street St.  Sam     Sammy       234523452345
Street St.  John    Greg        234523452345

这就是我的代码所做的，但速度很慢。

最佳答案

在我看来这里的主要缺点不是下降，而是自定义函数重复大量值。

创建所有有效号码的列表，然后按 boolean indexing 过滤与 Series.isin :

v = [UncleanNum for UncleanNum in tqdm(TeleNum) if cleanNumbers(UncleanNum)]

df = df[df.telephone.isin(v)]

编辑:

经过一些测试解决方案应该被简化，因为函数返回 bool 值:

df1 = df[df['telephone'].apply(cleanNumbers)]

关于python - 如何加速 pandas drop() 方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57392878/

26

4

0

文章推荐： excel - 如何在 ADODB SQL 查询中连接到 Excel 命名范围

文章推荐： python - 使用 pandas 和 XlsxWriter 写入现有的 .xlsm

文章推荐： excel - 仅使用 VBA 将数据从 Excel 365 上传到 Azure Sql Server

iphone - <加速/加速.h> "file not found"
我想在我的 iPhone 应用程序中加入线性回归。经过一些搜索，我发现 Accelerate Framework 中的 LAPACK 和 BLAS 是正确的库。但是我很难将加速框架添加到我的 XCod
Javascript 加速？
有什么方法可以加速 JS 脚本(我指的是一些复杂的 DOM 操作，比如游戏或动画)？最佳答案真的没有办法真正加快速度。您可以压缩它，但不会快很多。关于Javascript 加速？，我们在Stac
MySQL加载数据infile - 加速？
有时，我必须为一个项目重新导入数据，从而将大约 360 万行读入 MySQL 表(目前是 InnoDB，但我实际上并不局限于这个引擎)。 “加载数据文件...”已被证明是最快的解决方案，但它有一个权衡
performance - 如何计算执行时间(加速)
在尝试计算加速时，我被卡住了。所以给出的问题是: 问题 1 如果程序的 50% 增强了 2 倍，其余 50% 增强了 4 倍，那么由于增强而导致的整体加速是多少？ Hints:考虑增强前(未增强)机器
python - 加速 Matplotlib
目前我正在处理实时绘图，但可视化非常慢。我想知道你可以做些什么来加速 Matplotlib 中的事情: 后端如何影响性能？是否有后端实时绘图比其他人更好吗？我可以降低分辨率以提高 FPS 吗？如
haskell - 加速 runhaskell
我有一个小型测试框架。它执行一个循环，执行以下操作: 生成一个小的 Haskell 源文件。使用 runhaskell 执行此操作.该程序生成各种磁盘文件。处理刚刚生成的磁盘文件。这种情况发生了
javascript - 加速 swfobject
这是我的网站:Instant-YouTube 如您所见，加载需要很长时间。在 IE8 及以下甚至有时会导致浏览器崩溃。我不确定是什么原因造成的。可能是 Clicksor 广告，但我认为是 swfobj
ios - 加速 SKSpriteNode
是否可以加速 SKSpriteNode？我知道可以使用 node.physicsBody.velocity 轻松设置速度但是设置它的加速度有多难？最佳答案从牛顿第二定律倒推运动:F = m.a您
javascript - 加速 FCKEditor
有没有人有加速 FCKEditor 的技术？是否有一些关键的 JavaScript 文件可以缩小或删除？最佳答案在最新版本 (3.0.1) 中，FCKEditor 已重命名为 CKEditor .
MySQL查询优化-加速|索引使用
我有以下 MySQL 查询，需要一天多的时间才能执行: SELECT SN,NUMBER FROM a WHERE SN IN (SELECT LOWER_SN FROM b WHER
ios - 加速、移动元素
我现在正在开发一款使用加速来玩的游戏。我找到了如何让我的元素移动，但不改变它的“原点”，或者更准确地说，改变加速度计算的原点: 事实上，我的图像是移动的，它的中心是这样定义的: imageView.c
mysql - 加速 ORDER BY
我有一个 mysql 表，其中存储有 4 列的成员消息: message_id(主键，自增) sender_id( key ) receiver_id( key ) 消息内容我做了很多 SELECT
用于简单计算的 CUDA 加速
我在 cuda_computation.cu 中有以下代码 #include #include #include #include void checkCUDAError(const char
python - 加速 BeautifulSoup
我正在使用 BeautifulSoup 在 for 循环中解析数千个网站。这是我的代码片段: def parse_decision(link): t1 = time.time() de
c++ - 加速 OpenCV
我正在使用 OpenCV 2.4 (C++) 在灰度图像上进行寻线。这涉及一些基本的图像处理步骤，如模糊、阈值、Canny 边缘检测器、梯度滤波器或霍夫变换。我必须在数千张图像上应用寻线算法。考虑到
java - 加速 jasperreports
当我试图连续生成四次相同的报告时，我刚刚分析了我的报告应用程序。第一个用了 1859 毫秒，而后面的只用了 400 到 600 毫秒。对此的解释是什么？我能以某种方式使用它来使我的应用程序更快吗？报告
ios - 加速 Storyboard打开
当我打开 Storyboard文件时，由于其中包含的 VC 数量，打开它需要 1-2 分钟。加快速度的最佳做法是什么？我们应该将一些 VC 移动到不同的 Storyboard文件中吗？我们是否应该使用
iphone - 加速 UIPageViewController
我有一个包含多个页面的 UIPageViewController。每个页面都是相同的 View Controller ，但会跟踪页码并显示 PDF 的正确页面。问题是每个 PDF 页面都需要在 cur
java - 加速 Java
这实际上是两个问题，但它们非常相似，为了简单起见，我想将它们放在一起: 首先:给定一个已建立的 Java 项目，除了简单的代码内优化之外，还有哪些不错的方法可以加快它的速度？其次:在用Java从头写
java - 加速 xpath
我有一个包含 1000 个条目的文档，其格式类似于:

首页

博学

6Ren·AI

商城

python - 如何加速 pandas drop() 方法？