gpt4 book ai didi

xml - as.Date 产生月份名称 "März"(三月)的 NA

转载 作者:数据小太阳 更新时间:2023-10-29 02:17:34 26 4
gpt4 key购买 nike

我得到了一个带有日期的抓取字符向量。我的问题:使用 as.Date() 时,每个包含月份名称“März”(= 在德语中表示“三月”)的日期都是 NA ed。这是为什么?

这是一个(希望可重现的)示例:

require(RCurl)
require(XML)
doc <- htmlParse(getURL("http://www.amazon.de/product-reviews/3836218984/?ie=UTF8&pageNumber=5&showViewpoints=0&sortBy=byRankDescending"),
encoding="UTF-8")
(dates <- xpathSApply(doc, "//div/span[2]/nobr", xmlValue))
# [1] "12. Februar 2009" "12. November 2006" "19. März 2010"
# [4] "30. Juni 2007" "7. März 2006" "19. März 2007"
# [7] "22. Januar 2006" "24. September 2005" "15. Februar 2012"
# [10] "28. März 2007"

Sys.setlocale("LC_TIME", "German") # on Windows, see ?Sys.setlocale
as.Date(dates, "%d. %B %Y")
# [1] "2009-02-12" "2006-11-12" NA "2007-06-30" NA
# [6] NA "2006-01-22" "2005-09-24" "2012-02-15" NA

对接下来要尝试什么有什么想法吗?

请注意,如果我在 dputed 和复制/粘贴字符向量上应用相同的内容,一切都很好:

dates <- c("12. Februar 2009", "12. November 2006", "19. März 2010", "30. Juni 2007", 
"7. März 2006", "19. März 2007", "22. Januar 2006", "24. September 2005",
"15. Februar 2012", "28. März 2007")
as.Date(dates, "%d. %B %Y")
# [1] "2009-02-12" "2006-11-12" "2010-03-19" "2007-06-30"
# [5] "2006-03-07" "2007-03-19" "2006-01-22" "2005-09-24"
# [9] "2012-02-15" "2007-03-28"

为了完整性,我的 session 信息:

R version 3.0.2 (2013-09-25)
Platform: x86_64-w64-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=German_Germany.1252 LC_CTYPE=German_Germany.1252 LC_MONETARY=German_Germany.1252
[4] LC_NUMERIC=C LC_TIME=German_Germany.1252

attached base packages:
[1] stats graphics grDevices utils datasets methods base

loaded via a namespace (and not attached):
[1] tools_3.0.2

最佳答案

我可以在 Windows 7 x64 上重现它。 R 和 Windows 如何与字符编码交互存在很多问题,我并不假装理解它们。在您的情况下,只需在转换为 Date 之前转换为 latin1 编码即可。

as.Date(iconv(dates,from='UTF-8',to='latin1'),'%d. %B %Y')
# [1] "2009-02-12" "2006-11-12" "2010-03-19" "2007-06-30" "2006-03-07" "2007-03-19"
# [7] "2006-01-22" "2005-09-24" "2012-02-15" "2007-03-28"

可能有一种方法可以让 as.Date 识别 Windows 中的不同编码,但我不知道。

关于xml - as.Date 产生月份名称 "März"(三月)的 NA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21972674/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com