gpt4 book ai didi

string - R 文本挖掘 - 将段落一个接一个地组合在一起,而不会混淆句子

转载 作者:行者123 更新时间:2023-12-04 20:52:21 25 4
gpt4 key购买 nike

R 和文本挖掘的初学者。目前使用 tm 包。

我正在尝试将语料库中两个不同文档的文本添加在一起。
当我使用类似的语句时

 c(corpus.doc[[1]],corpus.doc[[2]]) 

或粘贴声明
  paste(corpus.doc[[1]],corpus.doc[[2]]) 

我得到每行文本组合的结果。

例如:
如果
> corpus.doc[[1]] 

He visits very often
and
sometimes more

> corpus.doc[[2]])

She also
stays

我从这些陈述中得到的信息类似于
He visits very often She also
and stays
sometimes more

我怎样才能防止这种情况,而是得到
He visits very often
and
sometimes more
She also
stays

或者有没有一种简单的方法来组合 R tm 包中的文档?先感谢您!

附加信息

当我使用
a <- c( corpus.doc[[1]], corpus.doc[[2]], recursive=TRUE)

我知道 a 变成了包含两个文档的语料库,因此每个文档的文本仍未合并。我愿意
a[[1]] 

给我 corpus.doc[[1]] 和 corpus.doc[[2]] 的组合文本。
str(corpus.doc)

显示类似这样的东西
 List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"

而且它一直在继续......

最佳答案

pkg:tm 中的帮助说明有一个 c.Corpus 函数,其“递归”的默认设置为 FALSE,但如果设置为 TRUE,则可能会导致“智能”合并。如果您认为 copus.doc 是一个语料库类对象列表,您可以尝试:

c( corpus.doc[[1]], corpus.doc[[2]], recursive=TRUE)

...但不清楚您是否确实拥有“语料库”级对象。
str(corpus.doc)   # see above

所以这个很长的列表中的第一个元素不是一个语料库分类的对象,而是一个纯文本文档。

关于string - R 文本挖掘 - 将段落一个接一个地组合在一起,而不会混淆句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9038433/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com