r - Purrr-Fection : In Search of An Elegant Solution to Conditional Data Frame Operations Leveraging Purrr-6ren

r - Purrr-Fection : In Search of An Elegant Solution to Conditional Data Frame Operations Leveraging Purrr

转载作者：行者123 更新时间：2023-12-04 06:55:58

背景

我有一个问题，可能有多种解决方案，但我相信有一个尚未发现的优雅解决方案利用 purrr。

示例代码

我有一个如下的大数据框，为此我在下面提供了一个示例:

library(tibble)
library(ggmap)
library(purrr)
library(dplyr)

# Define Example Data
df <- frame_data(
  ~Street,                ~City,        ~State,     ~Zip,  ~lon,      ~lat,
  "226 W 46th St",        "New York",   "New York", 10036, -73.9867,  40.75902,
  "5th Ave",              "New York",   "New York", 10022, NA,        NA,
  "75 Broadway",          "New York",   "New York", 10006, -74.01205, 40.70814,
  "350 5th Ave",          "New York",   "New York", 10118, -73.98566, 40.74871,
  "20 Sagamore Hill Rd",  "Oyster Bay", "New York", 11771, NA,        NA,
  "45 Rockefeller Plaza", "New York",   "New York", 10111, -73.97771, 40.75915
)

挑战

我想对 lon 的所有位置进行地理标记和 lat列当前为 NA .有很多方法可以解决这个问题，其中一种如下所示:

# Safe Code is Great Code
safe_geocode <- safely(geocode)

# Identify Data to be Geotagged by Absence of lon and lat
data_to_be_geotagged <- df %>% filter(is.na(lon) | is.na(lat))

# GeoTag Addresses of Missing Data Points
fullAddress <- paste(data_to_be_geotagged$Street,
                     data_to_be_geotagged$City,
                     data_to_be_geotagged$State,
                     data_to_be_geotagged$Zip,
                     sep = ", ")

fullAddress %>% 
  map(safe_geocode) %>% 
  map("result") %>%
  plyr::ldply()

问题

虽然我可以让上述工作，甚至与新发现的 lon 争吵和 lat坐标回到原始数据框，整个方案感觉很脏。我相信有一种优雅的方法可以利用管道和 purrr 来遍历数据框，并根据 lon 的缺失有条件地对位置进行地理标记。和 lat .

我经历过很多兔子洞，包括 purrr::pmap试图在构建完整地址时并行遍历多个列(以及 rowwise() 和 by_row() )。尽管如此，我在构建任何可以称为优雅解决方案的东西方面都做得不够好。

提供的任何见解将不胜感激。

最佳答案

真的，您想避免调用 geocode没有必要，因为它很慢，如果你使用谷歌，你每天只有 2500 个查询。因此，最好在同一个调用中创建两列，这可以通过列表列来完成，使用 do 创建新版本的 data.frame ，或自联接。

1.带有列表栏

使用列表列，您可以创建 lon 的新版本和 lat与 ifelse , 地理编码，如果有 NA s，否则只是复制现有值。然后，摆脱旧版本的列并取消嵌套新的列:

library(dplyr)
library(ggmap)
library(tidyr)    # For `unnest`

       # Evaluate each row separately
df %>% rowwise() %>% 
    # Add a list column. If lon or lat are NA,
    mutate(data = ifelse(any(is.na(c(lon, lat))), 
                         # return a data.frame of the geocoded results,
                         list(geocode(paste(Street, City, State, Zip))), 
                         # else return a data.frame of existing columns.
                         list(data_frame(lon = lon, lat = lat)))) %>% 
    # Remove old columns
    select(-lon, -lat) %>% 
    # Unnest newly created ones from list column
    unnest(data)

## # A tibble: 6 × 6
##                 Street       City    State   Zip       lon      lat
##                  <chr>      <chr>    <chr> <dbl>     <dbl>    <dbl>
## 1        226 W 46th St   New York New York 10036 -73.98670 40.75902
## 2              5th Ave   New York New York 10022 -73.97491 40.76167
## 3          75 Broadway   New York New York 10006 -74.01205 40.70814
## 4          350 5th Ave   New York New York 10118 -73.98566 40.74871
## 5  20 Sagamore Hill Rd Oyster Bay New York 11771 -73.50538 40.88259
## 6 45 Rockefeller Plaza   New York New York 10111 -73.97771 40.75915

2.与 do do , 另一方面，从旧的部分创建一个全新的 data.frame。它需要稍微笨重的 $符号，带有 .表示通过管道输入的分组 data.frame。使用 if和 else而不是 ifelse让您避免在列表中嵌套结果(无论如何，它们必须在上面)。

       # Evaluate each row separately
df %>% rowwise() %>% 
    # Make a new data.frame from the first four columns and the geocode results or existing lon/lat
    do(bind_cols(.[1:4], if(any(is.na(c(.$lon, .$lat)))){
        geocode(paste(.[1:4], collapse = ' '))
    } else {
        .[5:6]
    }))

它返回与第一个版本完全相同的东西。

3. 在一个子集上，用自连接重组

如果 ifelse过于困惑，您可以只对子集进行地理编码，然后通过将行绑定(bind)到 anti_join 来重新组合，即 df 中的所有行但不是子集 . :

df %>% filter(is.na(lon) | is.na(lat)) %>% 
    select(1:4) %>% 
    bind_cols(geocode(paste(.$Street, .$City, .$State, .$Zip))) %>% 
    bind_rows(anti_join(df, ., by = c('Street', 'Zip')))

它返回相同的内容，但新的地理编码行位于顶部。相同的方法适用于列表列或 do ，但由于不需要合并两组列，只需 bind_cols会成功的。

4. 在具有 mutate_geocode 的子集上
ggmap实际上包括一个 mutate_geocode当传递一个 data.frame 和一列地址时将添加 lon 和 lat 列的函数。它有一个问题:它不能接受超过地址的列名，因此需要一个包含整个地址的列。因此，虽然这个版本可能非常好，但它需要创建和删除一个包含整个地址的额外列，使其不简洁:

df %>% filter(is.na(lon) | is.na(lat)) %>% 
    select(1:4) %>% 
    mutate(address = paste(Street, City, State, Zip)) %>%    # make an address column
    mutate_geocode(address) %>% 
    select(-address) %>%    # get rid of address column
    bind_rows(anti_join(df, ., by = c('Street', 'Zip')))

##                 Street       City    State   Zip       lon      lat
## 1              5th Ave   New York New York 10022 -73.97491 40.76167
## 2  20 Sagamore Hill Rd Oyster Bay New York 11771 -73.50538 40.88259
## 3 45 Rockefeller Plaza   New York New York 10111 -73.97771 40.75915
## 4          350 5th Ave   New York New York 10118 -73.98566 40.74871
## 5          75 Broadway   New York New York 10006 -74.01205 40.70814
## 6        226 W 46th St   New York New York 10036 -73.98670 40.75902

5.基础R

Base R 可以直接赋值给一个子集，这使得这里的成语简单得多，即使它需要很多子集:

df[is.na(df$lon) | is.na(df$lat), c('lon', 'lat')] <- geocode(paste(df$Street, df$City, df$State, df$Zip)[is.na(df$lon) | is.na(df$lat)])

结果与第一个版本相同。

所有版本仅调用 geocode两次。

请注意，虽然您可以使用 purrr对于这项工作，它并不比普通的 dplyr 更适合。 . purrr擅长处理列表，虽然列表列是一种选择，但实际上并不需要对其进行操作。

关于r - Purrr-Fection : In Search of An Elegant Solution to Conditional Data Frame Operations Leveraging Purrr，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39172444/

文章推荐： amazon-simpledb - 计算 HMAC-SHA 签名

文章推荐： ruby-on-rails-3 - 限制访问回形针 :original files in S3

文章推荐： ruby-on-rails - 在新的 rails 应用程序中使用旧数据库的问题

iphone - XCode- "Previous frame inner to this frame (gdb could not unwind past this frame)"
最近，我在 XCode 上的调试器停止正常工作，并给出了以下错误: 此帧内的前一帧(gdb 无法展开超过此帧) 我已经浏览过 SO 的另一个线程，谈论丢失的符号。我通过删除符号目录并让它从 iPod
iphone - 调试器错误 : Previous frame inner to this frame (gdb could not unwind past this frame)
当我在设备上遇到断点时，出现以下调试器错误: 来自调试器的错误:此帧内的上一帧(gdb 无法展开超过此帧) 当应用程序遇到断点时，就会发生这种情况。如果我点击调试器中的继续按钮，它会愉快地继续，直到下
frame - 如何从 Frame 的历史记录中删除页面？
如何在 WinRT XAML 应用程序中操作框架的历史记录？用户将从我的中心页面开始，他们可以在其中选择一个现有项目以转到其编辑屏幕，或者他们可以选择“新项目”。 “新项目”将引导他们完成一个简短的
python - 比较后用其他 Frame 覆盖 Frame
2 帧，我希望第 2 帧“覆盖”/更新第 1 帧。基本上，其中 Table1-colB-value = Table2-oldB-value，用 Table2-newB-value 覆盖 Table1-
安卓 : Frame by Frame animation not working?
我正在尝试逐帧动画，但它给了我一个强制关闭，我不确定为什么它给我一个强制关闭。在我看来一切都很好。这是我的代码，我希望有人能帮忙吗？提前致谢。动画测试.java import android.ap
Java Swing Frame 导航到另一个 Frame
这是我的主课。 package pomsystem; public class POMSystem { public static void main(String[] args) {
class - 为什么 ifelse 将 data.frame 转换为列表 : ifelse(TRUE, data.frame(1), 0)) != data.frame(1)？
如果为TRUE，我想从函数返回一个data.frame，否则使用return(ifelse(condition, mydf, NA)) 返回NA 但是， ifelse 会从 data.frame 中删
python Pandas : compare two data-frames along one column and return content of rows of both data frames in another data frame
我正在处理两个 csv 文件并导入为数据框 df1 和 df2 df1 有 50000 行，df2 有 150000 行。我想比较(遍历每一行)df2 的“时间”df1，求时间差，返回所有列的值对应
r - 将 data.frames(n x 2 data.frames)列表 reshape 为单个 data.frame(n x 3 列)
我将许多文件夹中的小文本文件读取到一个列表中。因此，我有一个长度为 n 的列表，其中包含 2 个 data.frames。这是列表元素 3 的示例(在问题末尾输入) ip_list[[3]] $`d
R:如何高效地判断data.frame A是否包含在data.frame B中？
为了找出数据框 df.a 是否是数据框 df.b 的子集，我做了以下操作: df.a semi_join(df.b, df.a) Joining by: c("x", "y") x y 1 1
从一维 data.frame 中删除行并将其保留为 data.frame
在某些情况下，出于实现原因，我有一个只包含一个列的 data.frame df=as.data.frame(alpha=1:15) 如果我现在使用 df[-1, ] 它返回一个向量，但我想将它保留为一
c# - Frame.Navigate() 与 this.Frame.Navigate()
Windows 8.1 商店应用中的 Frame.Navigate() 和 this.Frame.Navigate() 有什么区别？这有什么区别 Frame.Navigate(typeof(Logi
根据另一个 data.frame 替换 data.frame 中的一些列值
我有两个 data.frames (df1, df2)，我想用 df1$V2 的值替换 P1-P10 列中的字母值，但保留前两列df2. df1 = data.frame(V1=LETTERS, V2
r - 使用与现有 data.frame 相同的列和行名称初始化空白 data.frame
有没有更好的方法来制作与现有 data.frame 具有相同维度、列名和行名的空白 data.frame？ BAM<-read.table(~/myfile) # 10 rows and 10 co
r - data.frames 列表中特定 data.frame 列的高效函数
我有一个列表 data.frame s。例如 set.seed(1) my_list result.df id var_p var_m var_d var_a
r - 通过匹配变量将值从一个 data.frame 添加到另一个 data.frame
假设我有两个数据框 df1 和 df2 如下 Df1 Id Price Profit Month 10 5 2 1 10 5 3 2 10 5 2
iframe - X-Frame-Options : does not permit framing 拒绝加载
我将创建一个网站，除了它自己的内容之外，它还将链接(在 iframe 中)到世界最大的报纸网站，如纽约时报、金融时报和其他一些网站。但是我遇到了框架许可的问题。例如，纽约时报向我展示了一个错误 Lo
r - 如何从 data.frame 中提取单个列作为 data.frame？
假设我有一个 data.frame: df x x A 1 10 2 20 3 30 从文档中(参见 ?"[" )您可以找到: If drop=TRUE the result is coer
r - 如何创建与现有 data.frame 具有相同列名称和类型的新 data.frame？
我有一个想要克隆的现有 data.frame，但没有其中的值。 IE。我希望新框架具有与现有框架相同的列名称和类型。原始帧的大小可能为 GB 量级，因此复制和删除数据似乎不是正确的方法，并且迭代现有列
r - 使用一个 data.frame 更新另一个 data.frame
给定两个在列名称/数据类型方面相同的数据帧，其中某些列唯一标识行，是否有一种有效的函数/方法可以让一个数据帧“更新”另一个数据帧？例如，在下面的例子中，原始和替换由'Name'和'Id'标识>。 g

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - Purrr-Fection : In Search of An Elegant Solution to Conditional Data Frame Operations Leveraging Purrr