- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如您所见,我正在处理一些严重的脏数据。这段代码可以工作,但看起来有点笨拙。有没有一种更高效、更动态的方式来实现最终结果而不需要那么多编码?
我必须分阶段执行此操作,首先标记内容类型,然后利用内容类型将它们填充到相应的列类型中。
感谢您的帮助
#load library
library(dplyr)
library(stringr)
library(lubridate)
#create sample data
df <- tibble(c1 = c('9996155', '4001096', '4001525', '4000590','2020-01-23', '2019-12-23', '2020-01-20', '2019-12-08'),
c2 = c('4001902', '5000009', '2020-01-23', '2019-12-23', '2020-01-20', '2019-12-08', '4000461', '4000311'),
c3 = c('W-7', 'W-8', 'W-9', 'W-2', 'W-1', 'W-1','3.527E+20', '3.498E+20'),
c4 = c('B09/20', 'B04/20', 'B05/20', 'B10/20', 'B06/20', '3.408E+20', '3.229E+20', '3.225E+20')
)
数据看起来像这样
> df
# A tibble: 8 x 4
c1 c2 c3 c4
<chr> <chr> <chr> <chr>
1 9996155 4001902 W-7 B09/20
2 4001096 5000009 W-8 B04/20
3 4001525 2020-01-23 W-9 B05/20
4 4000590 2019-12-23 W-2 B10/20
5 2020-01-23 2020-01-20 W-1 B06/20
6 2019-12-23 2019-12-08 W-1 3.408E+20
7 2020-01-20 4000461 3.527E+20 3.229E+20
8 2019-12-08 4000311 3.498E+20 3.225E+20
我做了类似的事情来让它保持形状
df %>%
mutate(across(#flag them now to allow next step for data population
starts_with('c'),
~ case_when(
is.na(.) ~ NA_character_,
str_detect(., regex('(^20[1,2][0-9]\\-)|(\\/20[1,2][0-9]$)')) ~ 'date',
str_detect(., regex('\\d\\.\\d{3}[eE][+-]\\d{2}+')) ~ 'numericScientificNotation',
str_detect(.,regex('(^[a-zA-Z][0-9]{2}\\/2[0-1]{1}$)|(^[A-Z]{1,2}\\-\\d.*[a-zA-Z]*$)|(^[a-zA-Z][0-9]{2})|(^[A-Z][0-9]$)')) ~ 'batches',
str_detect(., regex('^-?\\d+$')) ~ 'integers',
TRUE ~ NA_character_
),
.names = paste0('test', "_{col}")
)) %>% #casewhen to populate new columns
mutate(integer = case_when(test_c1 == 'integers' ~ c1,
test_c2 == 'integers' ~ c2,
test_c3 == 'integers' ~ c3,
test_c4 == 'integers' ~ c4),
date = case_when(test_c1 == 'date' ~ c1,
test_c2 == 'date' ~ c2,
test_c3 == 'date' ~ c3,
test_c4 == 'date' ~ c4),
batches = case_when(test_c1 == 'batches' ~ c1,
test_c2 == 'batches' ~ c2,
test_c3 == 'batches' ~ c3,
test_c4 == 'batches' ~ c4),
numericScientificNotation = case_when(test_c1 == 'numericScientificNotation' ~ c1,
test_c2 == 'numericScientificNotation' ~ c2,
test_c3 == 'numericScientificNotation' ~ c3,
test_c4 == 'numericScientificNotation' ~ c4)
) %>%
select(9:12) #this is all that i need
仅需要这种有组织的输出。
谢谢!
# A tibble: 8 x 4
integer date batches numericScientificNotation
<chr> <chr> <chr> <chr>
1 9996155 NA W-7 NA
2 4001096 NA W-8 NA
3 4001525 2020-01-23 W-9 NA
4 4000590 2019-12-23 W-2 NA
5 NA 2020-01-23 W-1 NA
6 NA 2019-12-23 W-1 3.408E+20
7 4000461 2020-01-20 NA 3.527E+20
8 4000311 2019-12-08 NA 3.498E+20
最佳答案
这是一种简化此操作并减少重复的方法:
library(dplyr)
regex_list <- list(date = '(^20[1,2][0-9]\\-)|(\\/20[1,2][0-9]$)',
numericScientificNotation = '\\d\\.\\d{3}[eE][+-]\\d{2}+',
batches = '(^[a-zA-Z][0-9]{2}\\/2[0-1]{1}$)|(^[A-Z]{1,2}\\-\\d.*[a-zA-Z]*$)|(^[a-zA-Z][0-9]{2})|(^[A-Z][0-9]$)',
integers = '^-?\\d+$')
purrr::imap_dfc(regex_list, function(x, y)
df %>%
mutate(across(.fns = ~ifelse(str_detect(.x, x), .x, NA))) %>%
transmute(!!y := do.call(coalesce, .)))
# date numericScientificNotation batches integers
# <chr> <chr> <chr> <chr>
#1 NA NA W-7 9996155
#2 NA NA W-8 4001096
#3 2020-01-23 NA W-9 4001525
#4 2019-12-23 NA W-2 4000590
#5 2020-01-23 NA W-1 NA
#6 2019-12-23 3.408E+20 W-1 NA
#7 2020-01-20 3.527E+20 NA 4000461
#8 2019-12-08 3.498E+20 NA 4000311
关于r - 如何优雅地跨越多个列进行 str_detect 并有条件地填充新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67514807/
您如何优雅编码同一tableView中的两种类型的单元格? 显然我可以这样: NSDictionary *cellInfo = [_userInformation objectAtIndex:inde
假设我正在编写一个仅包含标题或主要包含标题的库,并且具有以下代码: using my_type = int; namespace detail { inline void foo() { my
我正在使用复选框和输入进行一系列启用/禁用选择,我想知道我是否可以使用循环、变量或复合语句来简单地处理这个js?感觉就像是使用大量代码来实现相对简单的功能。 这是我正在做的事情的一个 fiddle :
我正在尝试为来自维基百科的 API 响应编写一个解析器。它真的很困惑,我已经求助于旧的 RegEx 来清理大部分东西。然而,我坚持这一点。考虑一个字符串: var a ="[[December 1]
我正在通过一个 channel 接收多个消息,并在对其进行迭代之后,我想保留最后一个元素以供进一步使用。我的第一个(可能很糟糕!)方法是声明一些变量,然后在每个循环中分配它。 let last = 0
我正在编写一个 PHP Web 应用程序,它将在不久的将来在生产环境下运行,而不是使用非用户友好的 die() , 我想我会想出一个 Class处理错误消息。 基本上,我的思考过程是这样的: 如果 W
我们有 elb 负载平衡 2 台运行 tomcat 作为应用程序服务器的 WAS 机器。要实现AWS环境下的不间断部署,我们应该, 选择部署目标 WAS。 让它停止来自 elb 的交易。(elb 暂停
何为pythonic? pythonic如果翻译成中文的话就是很python。很+名词结构的用法在中国不少,比如:很娘,很国足,很CCTV等等。 我的理解为,很+名词表达了一种特殊和强调的意味。
认为已经有对此的答案,但找不到。我一直在以某种方式解析方法选项,并想检查并确保它是最优雅/最简洁的方式。 这是我通常做的: def some_method *args options = args
我正在清理我的一个旧项目。它必须做的一件事是——给定笛卡尔网格系统和网格上的两个正方形,找到所有正方形的列表,连接这两个正方形中心的线将通过这些正方形。 这里的特殊情况是所有起点和终点都被限制在正方形
如何使系统 ( SystemB1 ) 访问另一个系统 ( SystemA::sub ) 的字段,就好像它是自己的字段一样? SystemA是一个拥有自己领域的实用系统 Sub* sub . Syste
我有一个包含约 8.000.000 条记录的 MySQL 数据库。因为我需要处理所有这些,所以我使用 BlockingQueue 作为生产者从数据库读取数据并将 1000 条记录放入队列中。 Cons
我正在让我的 HTTP 服务器正常关闭。我从帖子中获取了提示 here ,到目前为止,我的代码是这样设置的: func start() { //...... //START HTTP/
示例脚本只是“wc -m”命令的包装器,简单的符号计数器。我尝试只用“teststrings” slice 元素提供输入。并在输出监听器 goroutine 接收每个字符串的符号数。寻找一种让“wc”
我想干净/优雅地关闭 Internet Explorer。 taskkill 会关闭它,但是当重新打开它时,它会询问您是否要重新打开上一个 session 。 最佳答案 尝试 CloseMainWin
Haskell 的简洁和优雅给我留下了深刻的印象。但我在 .Net 公司工作,所以当我可以使用 F# 时我会使用它——我可能是全国数百个使用它的人中唯一的一个。 ADO.NET 或 F# 是否提供像
如果我们不想在我们的类中实现 init 方法,并且记住 NSObject 中的 init 只返回一个没有初始化的对象实例,如果我们已经得到了,我不明白调用 init 的意义带有分配的实例。我已经尝试过
我们的组织中有许多初级 Delphi 开发人员,作为向他们教授 Delphi 过程的一部分,我希望他们能够看到“干净”、编写良好、设计良好的 Delphi 代码。 我要寻找的一些标准包括: 优秀的类(
我有一个 3D 图像扫描(形状:335x306x306,总元素:31368060),我想用相同大小的 3D bool 掩码来掩盖它以返回相同大小的蒙版图像。 当我简单地用掩码索引数组时: masked
如何使适配器类适本地支持 const 和非 const 底层数据? 具体例子 RigidBody是描述对象物理属性的类。 这是其非常简化的版本(1D):- class RigidBody{ f
我是一名优秀的程序员,十分优秀!