gpt4 book ai didi

r - 文本挖掘 - removePunctuation 不删除引号和破折号

转载 作者:行者123 更新时间:2023-12-01 11:32:54 25 4
gpt4 key购买 nike

我一直在做一些文本挖掘。我使用创建了 DTM 矩阵以下步骤。

corpus1<-VCorpus(VectorSource(resume1$Dat1)) 

corpus1<-tm_map(corpus1,content_transformer(tolower))
corpus1<-tm_map(corpus1,content_transformer(trimWhiteSpace))

dtm<-DocumentTermMatrix(corpus1,
control = list(removePunctuation = TRUE,
removeNumbers = TRUE,
removeSparseTerms=TRUE,
stopwords = TRUE))

在所有的运行之后,我仍然会听到像-quotation,“有趣,模型”这样的词, dtm 中的等。在数据中也得到像 ""这样的空白

我该怎么办?我不需要这个破折号和额外的引文。

最佳答案

我知道我可能来不及回复了,但我遇到了类似的问题并且没有轻易找到答案。我希望这可以帮助其他面临同样问题的人。

要重现该问题,您可以将此示例与两个有问题的文本摘录一起使用:

library("tm")
library("textclean")
dt <- c("Vi ville också att husmodellen skulle ” ta in” det fina älvläget så mycket som möjligt.”",
"Det är betydligt trivsammare att jobba härifrån än att sitta och ” arbeta” i ett kontorsrum i centrum.")

dt 看起来像这样:

> dt
[1] "Vi ville också att husmodellen skulle ” ta in” det fina älvläget så mycket som möjligt.”"
[2] "Det är betydligt trivsammare att jobba härifrån än att sitta och ” arbeta” i ett kontorsrum i centrum."

在我的例子中,问题出现是因为我在文本中有大括号。 removePunctuation 不会将这种类型的大括号识别为标点符号,因此在将它应用到我的文本后我仍然有花括号。

> removePunctuation(dt)
[1] "Vi ville också att husmodellen skulle ” ta in” det fina älvläget så mycket som möjligt”"
[2] "Det är betydligt trivsammare att jobba härifrån än att sitta och ” arbeta” i ett kontorsrum i centrum"

我发现包 textclean (2018) 有一个函数可以用 \" 替换花括号,然后可以使用 removePunctuation 删除它:

> removePunctuation(replace_curly_quote(dt))
[1] "Vi ville också att husmodellen skulle ta in det fina älvläget så mycket som möjligt"
[2] "Det är betydligt trivsammare att jobba härifrån än att sitta och arbeta i ett kontorsrum i centrum"

如果您仍然需要帮助来解决您提到的其他问题,请为您的数据集添加代码示例,以便我们重现错误并可能修复它们。

关于r - 文本挖掘 - removePunctuation 不删除引号和破折号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30703215/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com