gpt4 book ai didi

Python 或 awk/sed 用于清理数据

转载 作者:IT老高 更新时间:2023-10-28 22:22:02 30 4
gpt4 key购买 nike

我使用 R 进行数据分析,对此我非常满意。但是,清理数据可能会更容易一些。我正在考虑学习另一种适合这项任务的语言。具体来说,我正在寻找一种工具来获取原始数据,删除不必要的变量或观察结果,并对其进行格式化以便在 R 中轻松加载。内容将主要是数字和字符串数据,而不是多行文本。

我正在考虑 awk/sed 组合与 Python。 (我认识到 Perl 是另一种选择,但是,如果我要学习另一种完整的语言,Python 似乎是一个更好、更可扩展的选择。)

sed/awk 的优点是学习起来会更快。缺点是这种组合不如 Python 那样可扩展。事实上,如果我学习 Python,我可能会想象一些“任务蠕变”,这很好,但不是我的目标。

我考虑的另一个问题是应用于大型数据集。据我了解,awk/sed 逐行操作,而 Python 通常会将所有数据拉入内存。这可能是 sed/awk 的另一个优势。

还有其他我遗漏的问题吗?您可以提供的任何建议将不胜感激。 (我为 R 用户添加了 R 标签以提供他们的清洁建议。)

最佳答案

不要破坏你的冒险,但我会说不,原因如下:

  • R 在没有 sed/awk 的地方被矢量化
  • R 已经拥有 Perl 正则表达式和扩展正则表达式
  • 如果您需要,R 可以更轻松地求助于统计例程(例如插补)
  • R 可以可视化、总结……

最重要的是:你已经知道 R

也就是说,当然 sed/awk 非常适合小型程序甚至单行程序,而 Python 是一门很好的语言。但我会考虑也坚持使用 R。

关于Python 或 awk/sed 用于清理数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7479686/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com