gpt4 book ai didi

java - Mahout:将一个大文本文件转换为 SequenceFile 格式

转载 作者:太空宇宙 更新时间:2023-11-04 07:58:59 25 4
gpt4 key购买 nike

我在网上为此做了很多搜索,但我什么也没找到,尽管我觉得它一定有些常见。我过去曾使用 Mahout 的 seqdirectory 命令来转换包含文本文件的文件夹(每个文件都是一个单独的文档)。但在这种情况下,文档太多(十万个),以至于我有一个非常大的文本文件,其中每一行都是一个文档。如何将这个大文件转换为 SequenceFile 格式,以便 Mahout 理解每一行都应被视为一个单独的文档?非常感谢您的帮助。

最佳答案

是的,如何做到这一点并不是很明显或非常直观,尽管(对你来说幸运的是:P)我已经在堆栈中多次回答了这个确切的问题,例如 here 。看看;)

关于java - Mahout:将一个大文本文件转换为 SequenceFile 格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13145638/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com