gpt4 book ai didi

r - 如何在语料库中手动设置文档 ID?

转载 作者:行者123 更新时间:2023-12-02 07:37:32 25 4
gpt4 key购买 nike

我正在从数据框创建 Copus。我将其作为 VectorSource 传递,因为我只想将一列用作文本源。这可以找到,但是我需要语料库中的文档 ID 来匹配数据框中的文档 ID。文档 ID 存储在原始数据框中的单独列中。

df <- as.data.frame(t(rbind(c(1,3,5,7,8,10), 
c("text", "lots of text", "too much text", "where will it end", "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))

运行此代码会创建一个语料库,但文档 ID 为 1-6。有什么方法可以创建文档 ID 为 1、3、5、7、8、10 的语料库吗?

最佳答案

我知道 @user1098798 可能已经晚了,但是有一种方法可以在创建语料库时直接指定 ID。您需要将数据加载为 DataframeSource() 并将映射添加到列:

corpus = VCorpus(DataframeSource(df), readerControl = list(reader = readTabular(mapping = list(content = "textColumn", id = "ids"))))

关于r - 如何在语料库中手动设置文档 ID?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14852357/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com