gpt4 book ai didi

python - 使用 Python 的 LDA - 输入文件

转载 作者:太空宇宙 更新时间:2023-11-03 13:16:01 24 4
gpt4 key购买 nike

我正在 Python 中运行 lda 库,并且正在运行这个示例。有谁知道X、词汇和标题的格式吗?我找不到文档。

import numpy as np
import lda
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()

最佳答案

X 是一个矩阵,其中行是标题,列是词汇。它是标题文本的词袋表示。

X
Out[8]:
array([[1, 0, 1, ..., 0, 0, 0],
[7, 0, 2, ..., 0, 0, 0],
[0, 0, 0, ..., 0, 0, 0],
...,
[1, 0, 1, ..., 0, 0, 0],
[1, 0, 1, ..., 0, 0, 0],
[1, 0, 1, ..., 0, 0, 0]], dtype=int32)

在上面的矩阵中,每一行都是一袋单独标题的单词表示。每列代表一个特定的单词示例。

vocab[:5]
Out[5]: ('church', 'pope', 'years', 'people', 'mother')

因此,X 矩阵中的每一行 i,col j 给出了第 i 个标题中特定单词的频率。

titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)

标题 U: Prince Charles ... 提到了 church once、pope 0 次、years once 等词。

In [13]: type(titles)
Out[13]: tuple

In [14]: type(vocab)
Out[14]: tuple

In [15]: type(X)
Out[15]: numpy.ndarray

关于python - 使用 Python 的 LDA - 输入文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30314295/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com