gpt4 book ai didi

r - 使用R和Reader读取Wikipedia的数据时出错

转载 作者:行者123 更新时间:2023-12-02 04:32:47 25 4
gpt4 key购买 nike

我是R编程新手。我在Mac OS X El Capitan V10.11.6中使用R 3.4.2。

当我尝试从url下面读取数据时,出现错误。

数据源链接:
https://dumps.wikimedia.org/other/pageviews/2017/2017-10/pageviews-20171001-010000.gz

该文件包含四个字段:语言,Wikipedia页面标题,本小时页面收到的请求数,返回内容的总大小(以字节为单位)。这是csv文件,中间用空格隔开,没有标题行。

我试图用下面的代码读取表:

df <- read.table("https://dumps.wikimedia.org/other/pageviews/2017/2017-10/pageviews-20171001-010000.gz", sep = " ", stringsAsFactors = FALSE, header = FALSE, encoding = "UTF-8")

我得到的错误是

扫描错误(文件=文件,什么=什么,九月=九月,报价=报价,十二月=十二月,:
第1行没有2个元素
另外:警告消息:
在read.table(“ https://dumps.wikimedia.org/other/pageviews/2017/2017-10/pageviews-20171001-010000.gz”中,:
第1行似乎包含嵌入的null

我也尝试使用阅读器包,仍然失败。我使用的代码如下
df <- read_delim("https://dumps.wikimedia.org/other/pageviews/2017/2017-10/pageviews-20171001-010000.gz", delim = " ", col_names = FALSE)

顺便说一句,当我用spark scala读取此数据时,没有问题。

最佳答案

library(stringi)
library(tidyverse)

gzfile("pageviews-20171001-010000.gz") %>%
readLines(skipNul=TRUE) %>%
stri_split_fixed(" ", simplify=TRUE) %>%
as_data_frame() -> xmat

xmat

## # A tibble: 4,598,475 x 4
## V1 V2 V3 V4
## <chr> <chr> <chr> <chr>
## 1 aa Category:Articles 1 0
## 2 aa Category:User_aa 1 0
## 3 aa File:Wikipedia-logo-en.png 2 0
## 4 aa Main_Page 35 0
## 5 aa Special:ActiveUsers 6 0
## 6 aa Special:Contributions/Lars~aawiki 1 0
## 7 aa Special:Contributions/PipepBot 1 0
## 8 aa Special:ListFiles 3 0
## 9 aa Special:ListUsers 3 0
## 10 aa Special:Statistics 10 0
## # ... with 4,598,465 more rows

关于r - 使用R和Reader读取Wikipedia的数据时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47103074/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com