gpt4 book ai didi

r - 在 R 中的 Dataframe 中的文本列上执行文本分析

转载 作者:行者123 更新时间:2023-12-04 10:26:28 25 4
gpt4 key购买 nike

我已将 CSV 文件导入到 R 中的数据框中,其中一列包含文本。

我想对文本进行分析。我该怎么办?

我尝试制作一个仅包含文本列的新数据框。

OnlyTXT= Txtanalytics1 %>%
select(problem_note_text)
View(OnlyTXT).

最佳答案

这可以帮助您入门。

install.packages("gtools", dependencies = T)
library(gtools) # if problems calling library, install.packages("gtools", dependencies = T)
library(qdap) # qualitative data analysis package (it masks %>%)
library(tm) # framework for text mining; it loads NLP package
library(Rgraphviz) # depict the terms within the tm package framework
library(SnowballC); library(RWeka); library(rJava); library(RWekajars) # wordStem is masked from SnowballC
library(Rstem) # stemming terms as a link from R to Snowball C stemmer

以下假设您的文本变量(您的 OnlyTXT)位于标记为“text”的数据框“df”中。

df$text <- as.character(df$text) # to make sure it is text

# prepare the text by lower casing, removing numbers and white spaces, punctuation and unimportant words. The `tm::`prefix is being cautious.
df$text <- tolower(df$text)
df$text <- tm::removeNumbers(df$text)
df$text <- str_replace_all(df$text, " ", "") # replace double spaces with single space
df$text <- str_replace_all(df$text, pattern = "[[:punct:]]", " ")

df$text <- tm::removeWords(x = df$text, stopwords(kind = "SMART"))

corpus <- Corpus(VectorSource(df$text)) # turn into corpus

tdm <- TermDocumentMatrix(corpus) # create tdm from the corpus

freq_terms(text.var = df$text, top = 25) # find the 25 most frequent words

使用 tm 软件包或 qdap 软件包您还可以做更多事情。

关于r - 在 R 中的 Dataframe 中的文本列上执行文本分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30900229/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com