gpt4 book ai didi

r - 如何使用新(测试)数据重新创建相同的 DocumentTermMatrix

转载 作者:行者123 更新时间:2023-11-30 08:23:42 25 4
gpt4 key购买 nike

假设我有基于文本的训练数据和测试数据。更具体地说,我有两个数据集 - 训练和测试 - 并且它们都有一列,其中包含文本并且对当前的工作感兴趣。

我使用R中的tm包来处理训练数据集中的文本列。删除空格、标点符号和停用词后,我对语料库进行了词干处理,最终创建了一个 1 克的文档术语矩阵,其中包含每个文档中单词的频率/计数。然后,我采用预先确定的截止值(例如 50),并仅保留那些计数大于 50 的术语。

接下来,我使用 DTM 和因变量(存在于训练数据中)训练一个 GLMNET 模型。到目前为止,一切都进展顺利且轻松。

但是,当我想根据测试数据或将来可能出现的任何新数据对模型进行评分/预测时,该如何进行?

具体来说,我想找出的是如何在新数据上创建精确的 DTM?

如果新数据集没有任何与原始训练数据相似的单词,那么所有术语的计数都应该为零(这很好)。但我希望能够在任何新语料库上复制完全相同的 DTM(就结构而言)。

有什么想法/想法吗?

最佳答案

tm 有这么多陷阱... 查看更高效 text2vecvectorization vignette这完全回答了这个问题。

对于tm,这可能是为第二个语料库重建 DTM 矩阵的一种更简单的方法:

crude2.dtm <- DocumentTermMatrix(crude2, control = list
(dictionary=Terms(crude1.dtm), wordLengths = c(3,10)) )

关于r - 如何使用新(测试)数据重新创建相同的 DocumentTermMatrix,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16630627/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com