gpt4 book ai didi

R 工作流 : How to handle hand-cleaning data

转载 作者:行者123 更新时间:2023-12-03 23:53:35 26 4
gpt4 key购买 nike

首先让我说,我刻意避免手工清理数据,而支持正则表达式等。然而,偶尔也是不可避免的。

我使用类似 Load-Clean-Func-Do 的东西工作流程正常,因此这显然适合清洁阶段。但是,如果需要更新,任何手动编辑都会破坏在手动清洁之前运行这些东西的能力。

我可以想到至少三种方法来处理这个问题:

  • 尽可能早地将手动更改放入工作流程中,以便之后的所有内容保持可运行。
  • 为每个更改写出正则表达式或赋值操作。
  • 在您关闭进行更改的电子表格后,使用为您生成 (2) 的工具。

  • 2 的问题在于它可能非常笨拙。 3 的问题在于我不知道 R 存在任何此类工具。 Stata 对此有一个非常好的实现。

    所以问题是:
  • 哪个会以最少令人沮丧的代码编写产生最多可复制的代码?
  • (3) 中的工具是否存在?
  • 最佳答案

    我同意洗手通常是一个相当糟糕的主意。然而,有时这是不可避免的。我建议两者之一,或两者兼而有之:

  • 保留一个带有“数据修复”的单独数据文件,其中包含三个变量“case_id”、“variable_name”、“value”。使用它来存储有关原始数据中哪些值需要替换的信息。您可以将一些额外的变量添加到有关清理的额外信息中(例如,为什么需要将变量“variable_name”上的值替换为案例“case_id”的“value”等)。然后有一小段 R 代码,它加载您的原始数据,然后使用“修复”文件中的附加信息对其进行清理。
  • 也许你应该开始使用一些版本控制系统,比如 git 或 subversion(还有其他的 progs)。对数据的每个手工更改都可以作为单独的提交记录在系统中。一天结束时,您将能够轻松检查日志,了解您对数据所做的更改以及更改时间。此外,您将能够生成将原始数据文件转换为清理过的数据文件的补丁文件。对您的 R 代码文件进行版本控制也是有益的。
  • 关于R 工作流 : How to handle hand-cleaning data,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12531448/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com