gpt4 book ai didi

java - 更改 MALLET 中主题分发文件中的列顺序

转载 作者:行者123 更新时间:2023-12-02 13:39:00 24 4
gpt4 key购买 nike

MALLET 在训练主题模型时使用 --output-doc-topics 参数生成一个制表符分隔的文件,其中包含每个文档的主题分布。它看起来像这样:

doc#    filename    topic#    weight
0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ...

但是,我需要对该文件进行不同的排序以进行进一步处理。现在,列按主题权重降序排序(0.211...、0.133...等)。但是否也可以按主题编号升序(0、1、2、...)及其相应的权重对其进行排序?

最初,我认为可以使用 Excel 来完成排序,但文件太大(> 20 GB)。

可能有一个 MALLET 参数吗?我已经浏览了 --help 部分,但没有找到任何相关内容。

或者,您能推荐一个能够进行这种排序的工具或 API 吗?

谢谢!

最佳答案

如果您获取最新版本(2.0.8),默认情况下按主题 id 排序显示所有主题:

--doc-topics-max INTEGER
When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics. A negative value indicates that all topics should be printed.
Default is -1

关于java - 更改 MALLET 中主题分发文件中的列顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42841988/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com