gpt4 book ai didi

r - tm 合并语料库列表

转载 作者:行者123 更新时间:2023-12-04 11:25:41 26 4
gpt4 key购买 nike

我有一个 URL 列表,我已为其获取 web 内容,并将其包含到 tm 语料库中:

library(tm)
library(XML)

link <- c(
"http://www.r-statistics.com/tag/hadley-wickham/",
"http://had.co.nz/",
"http://vita.had.co.nz/articles.html",
"http://blog.revolutionanalytics.com/2010/09/the-r-files-hadley-wickham.html",
"http://www.analyticstory.com/hadley-wickham/"
)

create.corpus <- function(url.name){
doc=htmlParse(url.name)
parag=xpathSApply(doc,'//p',xmlValue)
if (length(parag)==0){
parag="empty"
}
cc=Corpus(VectorSource(parag))
meta(cc,"link")=url.name
return(cc)
}

link=catch$url
cc <- lapply(link, create.corpus)

这给了我一个语料库的“大列表”,每个 URL 一个。
将它们一一组合起来工作:
x=cc[[1]]
y=cc[[2]]
z=c(x,y,recursive=T) # preserved metadata
x;y;z
# A corpus with 8 text documents
# A corpus with 2 text documents
# A corpus with 10 text documents

但是对于包含几千个语料库的列表来说,这变得不可行。
那么如何在维护元数据的同时将一个语料库列表合并为一个语料库呢?

最佳答案

您可以使用 do.call调用 c :

do.call(function(...) c(..., recursive = TRUE), cc)
# A corpus with 155 text documents

关于r - tm 合并语料库列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20971094/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com