gpt4 book ai didi

python-3.x - 处理巨大 .csv 的最佳方式

转载 作者:行者123 更新时间:2023-12-03 17:52:15 26 4
gpt4 key购买 nike

我需要用 Python 处理一个非常大的 .css(至少 1000 万行,数百列)。我想要:

  • 根据几个条件过滤内容(主要是字符串,也许是一些正则表达式)
  • 合并过滤后的数据。例如,按日期对它们进行分组,并为每个日期根据特定标准计算出现次数。与数据透视表的功能非常相似。
  • 我希望以用户友好的方式访问该合并数据
  • 我想生成图表(主要是基本折线图)
  • 处理必须又快又轻,因为工作中的计算机不能处理太多,我们总是很匆忙

  • 鉴于这些先决条件,您能否提出一些想法?我考虑过使用 Pandas 。我还考虑将 csv 转储到 SQLite 数据库中(因为如果我编写用户界面代码可能更容易查询)。但这真的是我第一次涉足这个世界,所以我不知道从哪里开始。我没有太多时间,但如果你能提供一些建议、一些好(和新鲜)的东西来阅读等、有趣的库等等,我会很高兴的。抱歉,如果 Stackoverflow 不是寻求此类帮助的最佳场所。如果需要,我会删除帖子。问候。

    最佳答案

    xsv一枪。速度不错,很方便。它符合 Unix 哲学。但是,如果数据集使用超过十次,我建议将 csv 转换为某种二进制格式,而 ClickHouse 是一个不错的选择。

    关于python-3.x - 处理巨大 .csv 的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46697146/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com