作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
函数url_parse
速度非常快,大部分时间都可以正常工作。但最近,域名可能包含 UTF-8 字符,例如
url <- "www.cordes-tiefkühlprodukte.de"
url_parse
在这个 url 上,我在域列中得到一个特殊字符“< fc >”:
url_parse(url)
scheme domain port path parameter fragment
1 <NA> www.cordes-tiefk<fc>hlprodukte.de <NA> <NA> <NA> <NA>
iconv
以及来自
stringi
的一些功能包,但没有成功。
httr::parse_url
,它没有这个问题。所以一种方法是检测不是 ascii 的 url,并在那些和
url_parse
上使用
parse_url
在少数特殊情况下。然而,这导致问题(有效地)检测非 ascii URL。)
url1 <- URLencode(enc2utf8(url))
没有帮助。当我做
robotstxt::paths_allowed(
url1,
domain=urltools::suffix_extract(urltools::domain(url1))
)
could not resolve host
.但是,手动插入原始URL和二级域,
paths_allowed
作品。
> sessionInfo()
最佳答案
我可以重现这个问题。我可以转换列 domain
通过使用 readr::parse_character
读取到 UTF-8和 latin1
编码:
library(urltools)
library(tidyverse)
url <- "www.cordes-tiefkühlprodukte.de"
parts <-
url_parse(url) %>%
mutate(domain = parse_character(domain, locale = locale(encoding = "latin1")))
parts
scheme domain port path parameter fragment
1 <NA> www.cordes-tiefkühlprodukte.de <NA> <NA> <NA> <NA>
latin1
)仅取决于您的语言环境,而不取决于 url 的特殊字符,但我不是 100% 确定这一点。
关于r - 在 UTF-8 域中使用 urltools::url_parse,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57060536/
函数url_parse速度非常快,大部分时间都可以正常工作。但最近,域名可能包含 UTF-8 字符,例如 url ”: url_parse(url) scheme
我是一名优秀的程序员,十分优秀!