gpt4 book ai didi

r - 解析包含html的HTML(不间断空格)

转载 作者:行者123 更新时间:2023-12-04 05:06:48 24 4
gpt4 key购买 nike

我正在使用rvest解析网站。我正在用这些不间断的小空间撞墙。如何删除解析的html文档中 元素创建的空白?

library("rvest")
library("stringr")

minimal <- html("<!doctype html><title>blah</title> <p>&nbsp;foo")

bodytext <- minimal %>%
html_node("body") %>%
html_text

现在,我提取了正文:
bodytext
[1] " foo"

但是,我无法删除那令人讨厌的空白!
str_trim(bodytext)

gsub(pattern = " ", "", bodytext)

最佳答案

jdharrison回答:

gsub("\\W", "", bodytext)

并且,这将起作用,但是您可以使用:
gsub("[[:space:]]", "", bodytext)

这将删除所有 Space characters: tab, newline, vertical tab, form feed, carriage return, space and possibly other locale-dependent characters。它是其他隐式正则表达式类的一种非常易读的替代方法。

关于r - 解析包含html的HTML(不间断空格),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27237233/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com