gpt4 book ai didi

python - 使用 PAM LDA 在 python 中进行主题建模的奇怪输出

转载 作者:行者123 更新时间:2023-12-03 20:40:31 25 4
gpt4 key购买 nike

我正在尝试对我的数据框进行主题建模,该数据框仅由英文单词组成,您可以将其替换为任何文本-

dfi['clean_text']
Out[154]:
0 thank you for calling my name is gabrielle and...
1 your available my first name is was there you ...
2 good
3 go head sorry
4 no go head i mean how do you want to pull my r...

14676 just the email is fine
14677 okay great so then everything is process here ...
14678 no thats it i appreciate it
14679 yes and thank you very much we appreciated hav...
14680 thank you bye bye
我的模型 -
#Pachinko Allocation Model
import tomotopy as tp
from pprint import pprint

model = tp.LDAModel(k=2, seed=1) #k is the number of topics

for texts in dfi['clean_text']:
model.add_doc(texts)

model.train(iter=100)

#Extracting the word distribution of a topic
for k in range(model.k):
print(f"Topic {k}")
pprint(model.get_topic_words(k, top_n=5))
Topic 0
[(' ', 0.2129271924495697),
('e', 0.08137548714876175),
('o', 0.0749373733997345),
('a', 0.07390690594911575),
('t', 0.06929121911525726)]
Topic 1
[(' ', 0.19975200295448303),
('e', 0.09751541167497635),
('t', 0.06939278542995453),
('i', 0.06373799592256546),
('o', 0.06239694356918335)]
但是正如您在这里看到的,输出没有按主题显示字符串或单词,它只是出于某种奇怪的原因显示字母。我是 python 新手,可能在这里遗漏了一些东西。

最佳答案

您需要以某种方式标记文本 - 即决定将较长的文本字符串拆分为标记列表(本质上是单词)的规则。在没有这个的情况下,迭代单个字符串,这可能是 tomotopy 在后台所做的,返回一个字符列表。这就是您在示例输出中看到带有单字母标记的主题的原因。
标记化本身就是一个巨大的话题,但作为最小的起点,您可以像在 toy example in the tomotopy docs 中一样使用 texts.strip().split(),如下所示:

for texts in dfi['clean_text']:
model.add_doc(texts.strip().split()) # edited this line
返回
Topic 0
[('go', 0.21682846546173096),
('name', 0.21682846546173096),
('to', 0.10895361006259918),
('no', 0.10895361006259918),
('r', 0.10895361006259918)]
Topic 1
[('you', 0.11457936465740204),
('my', 0.11457936465740204),
('head', 0.0765131339430809),
('is', 0.0765131339430809),
('first', 0.03844689577817917)]

关于python - 使用 PAM LDA 在 python 中进行主题建模的奇怪输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67254627/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com