gpt4 book ai didi

language-agnostic - 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本?

转载 作者:行者123 更新时间:2023-12-04 12:31:57 25 4
gpt4 key购买 nike

假设我从论坛中收集了帖子。然后我删除了所有的用户名和签名,这样现在我只知道哪个帖子在哪个线程中,而不知道谁发布了什么,甚至有多少作者(尽管显然作者数量不能大于文本数量) .

我想使用马尔可夫模型(看看哪个单词/字母跟在哪个后面)来计算有多少人使用了这个论坛,以及哪些帖子是由同一个人写的。为了大大简化,也许一个人倾向于说“他是”,而另一个人倾向于说“他是”——我说的是适用于这种基本逻辑的模型。

请注意数据如何存在一些明显的问题:有些帖子可能很短(一个字回答)。它们可能是重复的(互相引用或使用流行的论坛标语)。个别文本不是很长。

人们可能会怀疑一个人很少会连续发帖,或者人们更有可能在他们已经发帖的线程中发帖。利用这一点是可选的。

让我们假设帖子是纯文本并且没有标记,并且论坛上的每个人都使用英语。

我想获得所有文本的距离矩阵 T_i使得 D_ij是文本 T_i 的概率和文字 T_j由同一作者撰写,基于单词/字符模式。我打算使用这个距离矩阵来对文本进行聚类,并提出诸如“撰写此文本的人还撰写了哪些其他文本?”之类的问题。

我将如何实际执行此操作?我需要一个隐藏的MM吗?如果是这样,隐藏状态是什么?我了解如何在文本上训练 MM,然后生成类似的文本(例如,生成的爱丽丝梦游仙境),但是在训练频率树之后,我如何使用它检查文本以获取其生成的概率那棵树?在构建树时我应该看字母还是单词?

最佳答案

我的建议是抛开关于距离矩阵的事情,首先考虑一个概率模型 P(text | author)。构建该模型是您工作中最困难的部分;一旦你有了它,你就可以通过贝叶斯规则计算 P(author | text) 。不要把车放在马之前:模型可能会或可能不会涉及距离度量或各种矩阵,但不要担心,让它脱离模型即可。

关于language-agnostic - 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22825656/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com