gpt4 book ai didi

r - 使用R语料库保留文档ID

转载 作者:行者123 更新时间:2023-12-04 03:11:36 27 4
gpt4 key购买 nike

我搜索了stackoverflow和网络,只能找到部分解决方案,或者由于TM或qdap的更改而无法解决的解决方案。问题如下:

我有一个数据框: ID 文本(简单的文档ID/名称,然后是一些文本)

我有两个问题:

第1部分:如何创建tdm或dtm并维护文档名称/ID?它仅在inspect(tdm)上显示“character(0)”。
第2部分:我只想保留一个特定的术语列表,即与删除自定义停用词相反。我希望这种情况发生在语料库中,而不是tdm/dtm。

对于第2部分,我使用了这里的解决方案:How to implement proximity rules in tm dictionary for counting words?
这是在tdm部分发生的!对于第2部分,有没有更好的解决方案,其中您使用了诸如“tm_map(my.corpus, keepOnlyWords ,customlist)”之类的东西?

任何帮助将不胜感激。
非常感谢!

最佳答案

在较新版本的tm中,使用DataframeSource()函数要容易得多。

“数据框源将数据框x的每一行都解释为一个文档。第一列必须命名为“doc_id”,并且每个文档均包含唯一的字符串标识符。第二列必须命名为“text”并包含“UTF -8“表示文档内容的编码字符串。可选的附加列用作文档级元数据。”

因此,在这种情况下:

dd <-data.frame(
doc_id=10:13,
text=c("No wonder, then, that ever gathering volume from the mere transit ",
"So that in many cases such a panic did he finally strike, that few ",
"But there were still other and more vital practical influences at work",
"Not even at the present day has the original prestige of the Sperm Whale")
,stringsAsFactors=F
)

Corpus = VCorpus(DataframeSource(dd))

关于r - 使用R语料库保留文档ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24501514/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com