gpt4 book ai didi

nlp - 如何使用 Weka 创建词袋?

转载 作者:行者123 更新时间:2023-12-04 17:56:37 25 4
gpt4 key购买 nike

我有一个文档语料库,我想将每个文档表示为一个向量。基本上,对于存在于文档中的词和其他词(存在于语料库中的其他文档中,而不是在这个特定文档中),向量将具有 1,它将具有 0。我如何为所有人创建这个向量Weka中的文件?

有没有一种使用 Weka 的快速方法来做到这一点?我还希望 Weka 在创建此向量之前删除停用词,并尽可能进行一些预处理。

谢谢
阿布舍克

最佳答案

您想要 StringToWordVector筛选。

它具有用于二进制出现和停止的选项,以及许多其他选项,例如词干提取、截断单词列表、丢弃不常用的术语、大小写折叠。

关于nlp - 如何使用 Weka 创建词袋?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7709684/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com