r - 如何优雅地跨越多个列进行 str_detect 并有条件地填充新列-6ren

r - 如何优雅地跨越多个列进行 str_detect 并有条件地填充新列

转载作者：行者123 更新时间：2023-12-02 02:12:52

24

4

如您所见，我正在处理一些严重的脏数据。这段代码可以工作，但看起来有点笨拙。有没有一种更高效、更动态的方式来实现最终结果而不需要那么多编码？

我必须分阶段执行此操作，首先标记内容类型，然后利用内容类型将它们填充到相应的列类型中。

感谢您的帮助

#load library
library(dplyr)
library(stringr)
library(lubridate)

#create sample data
df <- tibble(c1 = c('9996155', '4001096', '4001525', '4000590','2020-01-23', '2019-12-23', '2020-01-20', '2019-12-08'),
             c2 = c('4001902', '5000009', '2020-01-23', '2019-12-23', '2020-01-20', '2019-12-08', '4000461', '4000311'),
             c3 = c('W-7', 'W-8', 'W-9', 'W-2', 'W-1', 'W-1','3.527E+20', '3.498E+20'),
             c4 = c('B09/20', 'B04/20', 'B05/20', 'B10/20', 'B06/20',  '3.408E+20', '3.229E+20', '3.225E+20')
             )

数据看起来像这样

> df
# A tibble: 8 x 4
  c1         c2         c3        c4       
  <chr>      <chr>      <chr>     <chr>    
1 9996155    4001902    W-7       B09/20   
2 4001096    5000009    W-8       B04/20   
3 4001525    2020-01-23 W-9       B05/20   
4 4000590    2019-12-23 W-2       B10/20   
5 2020-01-23 2020-01-20 W-1       B06/20   
6 2019-12-23 2019-12-08 W-1       3.408E+20
7 2020-01-20 4000461    3.527E+20 3.229E+20
8 2019-12-08 4000311    3.498E+20 3.225E+20

我做了类似的事情来让它保持形状


df %>%
  mutate(across(#flag them now to allow next step for data population
    starts_with('c'),
    ~ case_when(
      is.na(.) ~ NA_character_,
      str_detect(., regex('(^20[1,2][0-9]\\-)|(\\/20[1,2][0-9]$)')) ~ 'date',
      str_detect(., regex('\\d\\.\\d{3}[eE][+-]\\d{2}+')) ~ 'numericScientificNotation',
      str_detect(.,regex('(^[a-zA-Z][0-9]{2}\\/2[0-1]{1}$)|(^[A-Z]{1,2}\\-\\d.*[a-zA-Z]*$)|(^[a-zA-Z][0-9]{2})|(^[A-Z][0-9]$)')) ~ 'batches',
      str_detect(., regex('^-?\\d+$')) ~ 'integers',
      TRUE ~ NA_character_
    ),
    .names = paste0('test', "_{col}")
  )) %>% #casewhen to populate new columns
  mutate(integer = case_when(test_c1 == 'integers' ~ c1,
                             test_c2 == 'integers' ~ c2,
                             test_c3 == 'integers' ~ c3,
                             test_c4 == 'integers' ~ c4),
         date = case_when(test_c1 == 'date' ~ c1,
                             test_c2 == 'date' ~ c2,
                             test_c3 == 'date' ~ c3,
                             test_c4 == 'date' ~ c4),
         batches = case_when(test_c1 == 'batches' ~ c1,
                               test_c2 == 'batches' ~ c2,
                               test_c3 == 'batches' ~ c3,
                               test_c4 == 'batches' ~ c4),
         numericScientificNotation = case_when(test_c1 == 'numericScientificNotation' ~ c1,
                               test_c2 == 'numericScientificNotation' ~ c2,
                               test_c3 == 'numericScientificNotation' ~ c3,
                               test_c4 == 'numericScientificNotation' ~ c4)
         ) %>% 
  select(9:12) #this is all that i need

仅需要这种有组织的输出。

谢谢!

# A tibble: 8 x 4
  integer date       batches numericScientificNotation
  <chr>   <chr>      <chr>   <chr>                    
1 9996155 NA         W-7     NA                       
2 4001096 NA         W-8     NA                       
3 4001525 2020-01-23 W-9     NA                       
4 4000590 2019-12-23 W-2     NA                       
5 NA      2020-01-23 W-1     NA                       
6 NA      2019-12-23 W-1     3.408E+20                
7 4000461 2020-01-20 NA      3.527E+20                
8 4000311 2019-12-08 NA      3.498E+20

最佳答案

这是一种简化此操作并减少重复的方法:

library(dplyr)

regex_list <- list(date = '(^20[1,2][0-9]\\-)|(\\/20[1,2][0-9]$)', 
                  numericScientificNotation = '\\d\\.\\d{3}[eE][+-]\\d{2}+', 
                  batches = '(^[a-zA-Z][0-9]{2}\\/2[0-1]{1}$)|(^[A-Z]{1,2}\\-\\d.*[a-zA-Z]*$)|(^[a-zA-Z][0-9]{2})|(^[A-Z][0-9]$)', 
                  integers = '^-?\\d+$')


purrr::imap_dfc(regex_list, function(x, y) 
                  df %>%
                    mutate(across(.fns = ~ifelse(str_detect(.x, x), .x, NA))) %>%
                    transmute(!!y := do.call(coalesce, .)))

#  date       numericScientificNotation batches integers
#  <chr>      <chr>                     <chr>   <chr>   
#1 NA         NA                        W-7     9996155 
#2 NA         NA                        W-8     4001096 
#3 2020-01-23 NA                        W-9     4001525 
#4 2019-12-23 NA                        W-2     4000590 
#5 2020-01-23 NA                        W-1     NA      
#6 2019-12-23 3.408E+20                 W-1     NA      
#7 2020-01-20 3.527E+20                 NA      4000461 
#8 2019-12-08 3.498E+20                 NA      4000311

关于r - 如何优雅地跨越多个列进行 str_detect 并有条件地填充新列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67514807/

24

4

0

文章推荐： go - 如何在for循环中的GoRoutine中使用 'break'或 'continue'？

文章推荐： spring - 无法让 OpenEntityManagerInViewFilter 在 JBoss 6.1 中工作

文章推荐： MongoDB : Aggregation framework : Get last dated document per grouping ID

文章推荐： Python Jupyter Notebook 无法打开文件，可能输出太大

ios - tableView中的两种类型的单元格-优雅
您如何优雅编码同一tableView中的两种类型的单元格？显然我可以这样: NSDictionary *cellInfo = [_userInformation objectAtIndex:inde
c++ - 让细节命名空间代码看不见 - 优雅
假设我正在编写一个仅包含标题或主要包含标题的库，并且具有以下代码: using my_type = int; namespace detail { inline void foo() { my
jquery - 优雅/简单这个js？
我正在使用复选框和输入进行一系列启用/禁用选择，我想知道我是否可以使用循环、变量或复合语句来简单地处理这个js？感觉就像是使用大量代码来实现相对简单的功能。这是我正在做的事情的一个 fiddle :
javascript - 正则表达式拆分并记住匹配(优雅)
我正在尝试为来自维基百科的 API 响应编写一个解析器。它真的很困惑，我已经求助于旧的 RegEx 来清理大部分东西。然而，我坚持这一点。考虑一个字符串: var a ="[[December 1]
for-loop - 优雅/最佳解决方案，从迭代中获取最后一个元素
我正在通过一个 channel 接收多个消息，并在对其进行迭代之后，我想保留最后一个元素以供进一步使用。我的第一个(可能很糟糕!)方法是声明一些变量，然后在每个循环中分配它。 let last = 0
PHP - 生产环境的明智/优雅/优雅的错误处理
我正在编写一个 PHP Web 应用程序，它将在不久的将来在生产环境下运行，而不是使用非用户友好的 die() , 我想我会想出一个 Class处理错误消息。基本上，我的思考过程是这样的: 如果 W
tomcat - 亚马逊AWS和tomcat不间断(优雅)部署
我们有 elb 负载平衡 2 台运行 tomcat 作为应用程序服务器的 WAS 机器。要实现AWS环境下的不间断部署，我们应该，选择部署目标 WAS。让它停止来自 elb 的交易。(elb 暂停
让你的python代码更加pythonic(简练、明确、优雅)
何为pythonic? pythonic如果翻译成中文的话就是很python。很+名词结构的用法在中国不少，比如：很娘，很国足，很CCTV等等。我的理解为，很+名词表达了一种特殊和强调的意味。
ruby - Ruby 中最简洁/优雅/合适的方法参数解析
认为已经有对此的答案，但找不到。我一直在以某种方式解析方法选项，并想检查并确保它是最优雅/最简洁的方式。这是我通常做的: def some_method *args options = args
algorithm - 优雅/干净(特例)直线网格遍历算法？
我正在清理我的一个旧项目。它必须做的一件事是——给定笛卡尔网格系统和网格上的两个正方形，找到所有正方形的列表，连接这两个正方形中心的线将通过这些正方形。这里的特殊情况是所有起点和终点都被限制在正方形
c++ - 访问另一个类(系统)的非静态字段，就好像它是我自己的字段一样 - 优雅
如何使系统 ( SystemB1 ) 访问另一个系统 ( SystemA::sub ) 的字段，就好像它是自己的字段一样？ SystemA是一个拥有自己领域的实用系统 Sub* sub . Syste
java - 优雅/高效地读取 MySQL 数据库中数百万条记录，Java
我有一个包含约 8.000.000 条记录的 MySQL 数据库。因为我需要处理所有这些，所以我使用 BlockingQueue 作为生产者从数据库读取数据并将 1000 条记录放入队列中。 Cons
http - 带有错误处理的 Golang 优雅 HTTP 服务器关闭
我正在让我的 HTTP 服务器正常关闭。我从帖子中获取了提示 here ，到目前为止，我的代码是这样设置的: func start() { //...... //START HTTP/
go - Os/exec 优雅、循环兼容的标准输入和标准输出输入/输出
示例脚本只是“wc -m”命令的包装器，简单的符号计数器。我尝试只用“teststrings” slice 元素提供输入。并在输出监听器 goroutine 接收每个字符串的符号数。寻找一种让“wc”
internet-explorer - powershell 优雅/干净地关闭 Internet Explorer
我想干净/优雅地关闭 Internet Explorer。 taskkill 会关闭它，但是当重新打开它时，它会询问您是否要重新打开上一个 session 。最佳答案尝试 CloseMainWin
ado.net - F# 中的 Haskell HDBC 优雅？
Haskell 的简洁和优雅给我留下了深刻的印象。但我在 .Net 公司工作，所以当我可以使用 F# 时我会使用它——我可能是全国数百个使用它的人中唯一的一个。 ADO.NET 或 F# 是否提供像
iphone - 仅使用 alloc 而不使用 init 是否正确/优雅？
如果我们不想在我们的类中实现 init 方法，并且记住 NSObject 中的 init 只返回一个没有初始化的对象实例，如果我们已经得到了，我不明白调用 init 的意义带有分配的实例。我已经尝试过
delphi - 初级 Delphi 开发人员应该学习哪些干净、优雅、设计良好、编写良好、做得很好的 Delphi 代码？
我们的组织中有许多初级 Delphi 开发人员，作为向他们教授 Delphi 过程的一部分，我希望他们能够看到“干净”、编写良好、设计良好的 Delphi 代码。我要寻找的一些标准包括: 优秀的类(
Python:用 3D bool 索引 3D 数组并返回相同大小的 3D 数组......优雅
我有一个 3D 图像扫描(形状:335x306x306，总元素:31368060)，我想用相同大小的 3D bool 掩码来掩盖它以返回相同大小的蒙版图像。当我简单地用掩码索引数组时: masked
c++ - 适配器模式 : support underlying data that can be const or non-const, 优雅
如何使适配器类适本地支持 const 和非 const 底层数据？具体例子 RigidBody是描述对象物理属性的类。这是其非常简化的版本(1D):- class RigidBody{ f

首页

博学

6Ren·AI

商城

r - 如何优雅地跨越多个列进行 str_detect 并有条件地填充新列