gpt4 book ai didi

r - 使用 unnest_tokens() 按特定字符拆分列?

转载 作者:行者123 更新时间:2023-12-01 22:11:31 24 4
gpt4 key购买 nike

我正在处理一列格式为字符串的 url 向量,每个 url 以逗号分隔:

column_with_urls

["url.a, url.b, url.c"]

["url.d, url.e, url.f"]

我想使用 tidytext::unnest_tokens() R 函数将它们分成每行一个 url(尽管我愿意接受其他最好基于 R 的解决方案)。我已阅读文档 here但我不知道是否可以/建议输入单个字符进行拆分。

我的想法类似于 unnest_tokens(url, column_with_urls, by = ',')。有没有办法指定那种论点和/或解决这个问题的更好方法?

我想要的输出是一个数据框,每行有一个 url,就像这样(原始行的所有其他数据都复制到每一行):

网址

网址.a

网址.b

网址.c

...

提前致谢。

最佳答案

unnest_tokens 函数有一个选项,您可以根据正则表达式模式进行拆分。下面是使用此选项以逗号分隔的示例语法(您也可以将其用于更复杂的模式)。

请注意,这会将输入数据的类转换为 tibble

my_df = data.frame(id=1:2, urls=c("url.a, url.b, url.c",
"url.d, url.e, url.f"))
tidytext::unnest_tokens(my_df, out, urls, token = 'regex', pattern=",")
# # A tibble: 6 × 2
# id out
# <int> <chr>
# 1 1 url.a
# 2 1 url.b
# 3 1 url.c
# 4 2 url.d
# 5 2 url.e
# 6 2 url.f

关于r - 使用 unnest_tokens() 按特定字符拆分列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47660274/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com