language-agnostic - 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本？-6ren

language-agnostic - 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本？

转载作者：行者123 更新时间：2023-12-04 12:31:57

25

4

假设我从论坛中收集了帖子。然后我删除了所有的用户名和签名，这样现在我只知道哪个帖子在哪个线程中，而不知道谁发布了什么，甚至有多少作者(尽管显然作者数量不能大于文本数量) .

我想使用马尔可夫模型(看看哪个单词/字母跟在哪个后面)来计算有多少人使用了这个论坛，以及哪些帖子是由同一个人写的。为了大大简化，也许一个人倾向于说“他是”，而另一个人倾向于说“他是”——我说的是适用于这种基本逻辑的模型。

请注意数据如何存在一些明显的问题:有些帖子可能很短(一个字回答)。它们可能是重复的(互相引用或使用流行的论坛标语)。个别文本不是很长。

人们可能会怀疑一个人很少会连续发帖，或者人们更有可能在他们已经发帖的线程中发帖。利用这一点是可选的。

让我们假设帖子是纯文本并且没有标记，并且论坛上的每个人都使用英语。

我想获得所有文本的距离矩阵 T_i使得 D_ij是文本 T_i 的概率和文字 T_j由同一作者撰写，基于单词/字符模式。我打算使用这个距离矩阵来对文本进行聚类，并提出诸如“撰写此文本的人还撰写了哪些其他文本？”之类的问题。

我将如何实际执行此操作？我需要一个隐藏的MM吗？如果是这样，隐藏状态是什么？我了解如何在文本上训练 MM，然后生成类似的文本(例如，生成的爱丽丝梦游仙境)，但是在训练频率树之后，我如何使用它检查文本以获取其生成的概率那棵树？在构建树时我应该看字母还是单词？

最佳答案

我的建议是抛开关于距离矩阵的事情，首先考虑一个概率模型 P(text | author)。构建该模型是您工作中最困难的部分；一旦你有了它，你就可以通过贝叶斯规则计算 P(author | text) 。不要把车放在马之前:模型可能会或可能不会涉及距离度量或各种矩阵，但不要担心，让它脱离模型即可。

关于language-agnostic - 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22825656/

25

4

0

文章推荐： Github 个人页面未更新新提交

文章推荐：回归表中的引用类别

文章推荐： c - 试图将 C 程序翻译成 x86 汇编

文章推荐： ldap - 如何将 LDAP 副本提升为 master

language-agnostic - 移植和迁移在编程上有区别吗？
在嵌入式系统编程的上下文中是否存在普遍差异？最佳答案这些不是正式的术语，所以这是相当主观的。迁移意味着将您的代码库移动到另一个系统(无意返回)。这也可能意味着切换到另一个工具链或编程语言。移植
language-agnostic - 如何用堆栈模拟递归？
听说任何递归算法都可以用栈来表示。最近，我一直在一个可用调用堆栈非常小的环境中编写程序。我需要做一些深度递归，所以我想知道如何重新设计任何递归算法以使用显式堆栈。例如，假设我有这样一个递归函数 f
language-agnostic - 数字是否在所有文本编码中都按顺序表示？
这个问题与语言无关，但受到这些 c/c++ 问题的启发。 How to convert a single char into an int Char to int conversion in C 假设
language-agnostic - 我如何在运行时生成和执行机器代码？
我最接近汇编的是构建我自己的 Java 类库，它加载类文件并允许您创建、编译和反编译类。在努力完成这个项目时，我想知道 Java 虚拟机实际上是如何在 JIT 优化期间在运行时生成 native 机器
language-agnostic - 半字节在编程中的使用
如标题所说的简单问题。我在 StackOverflow(和互联网)上看到了一些关于半字节用例的问题，但我不明白为什么我们需要使用半字节。我的意思是字节是计算中最小的内存单位，因此对它执行操作来操作它的
language-agnostic - 关于在多行条件表达式中放置逻辑运算符的建议
这真是一个详细的格式问题，但我每次都被它绊倒...... 对于多行条件表达式，逻辑运算符的首选位置是什么？备选方案 1:每行末尾的逻辑运算符 if (value1 == comparision1 &
language-agnostic - 哪些图书馆可以正确计算秒数以及哪些日期？
计算“2021-01-01 12:56:23.423 UTC”和“2001-01-01 00:00:00.000 UTC”之间的 SI 秒数” 为例。最佳答案 C++20 可以用下面的语法来完成:
language-agnostic - 函数中的抽象层次
我正在读一本名为“干净的代码”的书，当作者试图讲述我们如何编写一个高效的函数时卡住了。他说，“为了确保我们的函数做”一件事， “我们需要确保我们函数中的语句都处于同一抽象级别”。那么作者究竟想通过抽象
language-agnostic - 让浏览器缓存图片
我的网站上有一张相当大的图片(大约 200kb)。我没有计划在不久的将来改变它。我如何告诉浏览器缓存它？最佳答案设置正确的标题对您有很大帮助。过期时间:2012 年 4 月 15 日星期四 20
language-agnostic - 重构工具的优缺点
一般来说，重构工具的优缺点是什么？最佳答案优势如果工具对您有帮助，您更有可能进行重构。一个工具更有可能在第一次正确地进行“重命名”类型重构。一个工具可以让您在代码库上进行重构，而无需手动进行
language-agnostic - 新程序员的玩具项目
当我第一次开始自学编程时，在完成教程后，我会觉得我仍然无法用语言做任何事情。所以，我环顾四周，想找点事情做。由于我刚刚学习了一些基础知识，因此查找、阅读和添加到一个开源项目中所涉及的工作量似乎是无法克
language-agnostic - 为什么以析取范式表达代码很重要？
在我工作的公司，最近要求所有“高度可见”的 bool 逻辑必须以析取范式表示。例如(尽管这个概念与语言无关)， #if (defined(A) || defined( B )) || (define
language-agnostic - 如何表示魔方
我想知道我们如何在 mathematica 中设计一个魔方。这可能吗？我们如何使用它。我们如何决定立方体的 6 个面上的较小立方体的不同分隔。最佳答案您问的是如何定义数据结构。您的选择是任意的，只
language-agnostic - 系统托盘应用标准
对于具有系统托盘图标的应用程序的行为方式，是否有任何标准？我最近编写了一个应用程序，它大部分时间都位于系统托盘中。我把它交给了一个 friend ，她的第一 react 是双击图标进入主窗口(工作正
language-agnostic - 可分发软件的版权和合理使用
一个商业可分发软件的文本长度和/或音频片段长度是多少才能通过合理使用的阈值并侵犯所包含作品的版权？归属是否可以免除开发者的侵权行为？一个例子是在启动屏幕上使用的小说中的引用。最佳答案不幸的是，没有
language-agnostic - 开发者常用哪些技术来快速建站？
我是一名经验丰富的 C/C++/C#/Objective-C 桌面、Web 和移动程序员，我已经习惯于从头开始构建我的大部分软件。我已经使用 ASP.NET 从头开始构建了我的所有网站。对于我想测
language-agnostic - 用矩阵变换3D向量的方法
我一直在阅读有关使用矩阵转换 Vector3 的内容，并且正在努力深入研究数学并自己编写代码而不是使用现有代码。无论出于何种原因，我的学校类(class)从未包括矩阵，所以我正在填补我的知识空白。谢天
language-agnostic - 递归的相关性
所以我目前正在尝试掌握递归的概念，我理解我遇到的大部分问题，但我觉得它的使用似乎不适用于太多计算问题。不过，这只是一个新手的假设，所以我问，作为程序员，递归有很多实际用途吗？还有，用它可以解决哪些典型
language-agnostic - 规划问题的递归解决方案的最佳方法是什么？
我正在学习递归。我已经使用递归解决了一些其他问题，例如创建二叉树、汉诺塔等。所以，我明白什么是递归，但我发现自己很难规划和实现正确的递归解决方案。是否有任何关于规划、思考或实现问题递归解决方案的一般
language-agnostic - 在虚拟机中运行我的开发工具的建议
每次我需要移动到一台新机器，或者买一台笔记本电脑，或者通过不断的安装和卸载搞砸我的注册表时，我开始变得非常厌烦和厌倦设置我的所有开发工具。这么新的计划。我听说有人虚拟化他们的开发环境，这听起来是个好

首页

博学

6Ren·AI

商城

language-agnostic - 如何实现一个简单的马尔可夫模型来将作者分配给匿名文本？