gpt4 book ai didi

r - 有谁知道我如何在 R 中处理大数据?

转载 作者:行者123 更新时间:2023-12-04 17:29:41 26 4
gpt4 key购买 nike

在 RStudio 中分析推文:

我的 csv 文件包含 4,000,000 条推文,有五列:screen_name、text、created_at、favorite_count 和 retweet_count。

我正在尝试使用以下代码来识别主题标签的频率,但是它在几天内运行得太慢,有时 RStudio 会崩溃。

mydata %>%
unnest_tokens(word, text, token ="tweets") %>%
anti_join(stop_words, by= "word")

我使用其他方法在 R 中处理大数据,例如: https://rviews.rstudio.com/2019/07/17/3-big-data-strategies-for-r/https://spark.rstudio.com/guides/textmining/和Spark 库:https://spark.rstudio.com/guides/textmining/ .它们都不适合我。

在 Spark 中,我执行了以下操作,但 RStudio 无法将我的数据集复制到 Spark。我在我的 RStudio 中看到“Spark 正在运行”甚至一天都没有将我的数据集复制到 Spark。

连接到您的 Spark 集群:

spark_conn <- spark_connect("local")

将 track_metadata 复制到 Spark:

track_metadata_tbl <- copy_to(spark_conn, my_database)

您有什么建议/说明/链接可以帮助我分析我的数据吗?

我的笔记本电脑是 Mac 处理器:2.9 GHz 双核 Intel Core i5 内存:8 GB 2133 MHz LPDDR3

最佳答案

如果我遇到你的情况,我不会尝试一次解析整个文件,而是一次处理一个 block 。

我会使用 vroom读取数据,并一次处理数据 block (例如,从 50k 行开始,然后看看一次可以扩展多少)。

如果您只对计算主题标签感兴趣,您可以这样做:

mydata %>%
unnest_tokens(word, text, token ="tweets") %>%
filter(str_detect(word, "^#")) %>%
count(word, sort = TRUE)

并将其附加到聚合结果的新 CSV 文件中。然后分块处理整个数据集。最后,您可以解析结果的 CSV 文件并重新聚合计数以求和并找到标签频率。

关于r - 有谁知道我如何在 R 中处理大数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60921645/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com