gpt4 book ai didi

linux - tm 和 Snowball 软件包命令在 Linux 中运行缓慢

转载 作者:太空宇宙 更新时间:2023-11-04 04:04:37 26 4
gpt4 key购买 nike

我在 R 中使用 tm 和 Snowball 包进行文本挖掘。我最初在装有 Windows 7、8 GB 内存的笔记本电脑上运行它。后来我在一台 64 GB 内存的 Linux (Ubuntu) 机器上尝试了同样的方法。这两台机器都是 64 位的,并且也使用 64 位版本的 R。但是,Windows 有 R 3.0.0,而 Linux 有 R 2.14

与 Windows 相比,Linux 中的某些命令非常慢。

语料库命令

在 Windows 上

    d <- data.frame(chatTranscripts$chatConcat)
ds <- DataframeSource(d)
t1 <- Sys.time()
dsc<-Corpus(ds)
print(Sys.time() - t1)
Time difference of 46.86169 secs

这在 Windows 机器上只花了 47 秒

在 Linux 上

    t1 <- Sys.time()
dsc<-Corpus(ds)
print(Sys.time() - t1)
Time difference of 3.674376 mins

在 Linux 计算机上这大约需要220 秒

雪球阻止

在 Windows 上

    t1 <- Sys.time()
dsc <- tm_map(dsc,stemDocument)
print(Sys.time() - t1)
Time difference of 12.05321 secs

在 Windows 计算机上,这仅花费了 12 秒

在 Linux 上

    t1 <- Sys.time()
dsc <- tm_map(dsc,stemDocument)
print(Sys.time() - t1)
Time difference of 4.832964 mins

这在 Linux 机器上花费了大约 290 秒

有没有办法在 Linux 机器上加快这些命令的速度? R 版本会产生如此大的差异吗?谢谢。

拉维

最佳答案

VectorSource() 上的

Corpus() 似乎比 DataframeSource() 上的 Corpus() 更快。

你可以试试

d <- chatTranscripts$chatConcat
ds <- VectorSource(d)
Corpus(ds)

关于linux - tm 和 Snowball 软件包命令在 Linux 中运行缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21725111/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com