gpt4 book ai didi

R 中 URL 中每个单词的行频率

转载 作者:行者123 更新时间:2023-11-30 09:10:43 25 4
gpt4 key购买 nike

我对编程非常陌生,需要一些关于我的大学项目的 R 编程帮助。我想创建一个包含每个单词出现频率的表格。输入文件包含大约 70000 行数据,例如该 ID 用户访问的 ID 和 webURL,在 csv 文件中以逗号分隔:例如:

ID                 URLs 
m7fdn privatkunden:handys, tablets, tarife:vorteile & services:ausland & roaming,privatkunden:hilfe:mehr hilfe:ger,privatkunden:hilfe:service-themen:internet dsl & ltekonfigurieren
9ufdf mein website:kontostand & rechnung:meinerechnung:6-monate-übersicht zu ihrer rufnummer,mein website:kontostand & rechnung:meinerechnung:kosten
09nd7 404 <https://www.website.de/ussa/login/login.ftel?errorcode=2001&name=%20&goto=https%3a%,mein website:login online user:show form:login.ftel / login),mobile,mobile:meinwebsite:kundendaten (mydata.html),mobile:meinwebsite:startseite (index.html),privatkunden:home,privatkunden:meinwebsite:login.ftel

下面的代码删除了 URL 中的所有特殊字符,并给出了整个文档中使用的单词的频率。但我不想一次将其用于整个文档。我想要每行一个输出。

text <- readLines("sample.csv")
docs <- Corpus(VectorSource(text))
inspect(docs)
toSpace <- content_transformer(function (x , pattern)gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/")
docs <- tm_map(docs, toSpace, "@")
docs <- tm_map(docs, toSpace, ",")
docs <- tm_map(docs, toSpace, ";")
docs <- tm_map(docs, toSpace, "://")
docs <- tm_map(docs, toSpace, ":")
docs <- tm_map(docs, toSpace, "<")
docs <- tm_map(docs, toSpace, ">")
docs <- tm_map(docs, toSpace, "-")
docs <- tm_map(docs, toSpace, "_")
docs <- tm_map(docs, toSpace, "://")
docs <- tm_map(docs, toSpace, "&")
docs <- tm_map(docs, toSpace, ")")
docs <- tm_map(docs, toSpace, "%")


dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)

我得到的输出如下:

                       word freq  
mein mein 1451
website website 1038
privatkunden privatkunden 898
meinwebsite meinwebsite 479
rechnung rechnung 474

我想要的输出应该是这样的:

ID               privatkunden  website    hilfe    rechnung  kosten      
m7fdn 4 7 2 7 0
9ufdf 3 1 9 3 5
09nd7 5 7 2 8 9

上表表示 ID m7fdn 在其 URL 中包含 4 次 privatkunden 和 2 次 hilfe 等。上表仅供引用,并未统计具体字数。只要有很多字数,这个表就可以很长。请帮我得到这个输出。一旦我得到这张表,我就必须应用机器学习。

最佳答案

我认为这里有两点需要提及:

1)读入您的数据:

text <- readLines("sample.csv")

为您提供一个向量,其中 text[1] 是数据的完整第一行,text[2]完整数据的第一行>完整数据的第二行等等。VectorSource 需要的是只有 URL 列的一列。使用 read.table 或例如这个:

require(tidyr)
text <- readLines("1.txt")
text <- data.frame(a=text[-1]) %>% separate(a, c("ID", "URLs"), sep=6)

2) 在tm中使用您的数据通过以下方式将您的网址设为语料库:

docs <- Corpus(VectorSource(text$URLs))
names(docs) <- text$ID

现在您进行 tm_map 转换...最后您将执行以下操作:

dtm <- DocumentTermMatrix(docs) 

就这样:

> as.matrix(dtm[1:3,1:5])
Terms
Docs (index.html (mydata.html 404 ã¼bersicht ausland
m7fdn 0 0 0 0 1
9ufdf 0 0 0 1 0
09nd7 1 1 1 0 0

关于R 中 URL 中每个单词的行频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39426940/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com