machine-learning - 作者唯一的 "literary style"可以用来识别他/她是文本的作者吗？-6ren

machine-learning - 作者唯一的 "literary style"可以用来识别他/她是文本的作者吗？

转载作者：行者123 更新时间：2023-11-30 08:21:55

27

4

让我们想象一下，我有同一个人写的两篇英语文本。是否可以应用一些马尔可夫链算法来分析每个:根据统计数据创建某种指纹，并比较从不同文本获得的指纹？假设我们有一个包含 100 篇文本的图书馆。有人写了文本1，也写了其他文本，我们需要通过分析他/她的写作风格来猜测是哪一篇。有没有已知的算法可以做到这一点？这里可以应用马尔可夫链吗？

最佳答案

这绝对是可能的，而且根据文本或其某些部分识别作者的成功记录确实令人印象深刻。

一些代表性研究(警告:链接为 pdf 文件):

为了帮助您进行网络搜索，该学科通常称为风格测定(有时也称为风格遗传学)。

所以我认为两个最重要的问题是:哪些分类器可用于此目的以及哪些数据被输入到分类器？

我仍然感到惊讶的是，实现非常准确的分类只需要很少的数据。通常，数据只是一个词频列表。 (词频列表目录可在线获取 here 。)

例如，一个广泛用于机器学习并可从网络上多个地方获取的数据集由四位作者的数据组成:莎士比亚、简·奥斯汀、 jack ·伦敦、弥尔顿。这些作品被分为 872 篇(大致对应于章节)，换句话说，四位作者每人大约有 220 篇不同的实质性文本；这些片段中的每一个都成为数据集中的单个数据点。接下来对每个文本进行词频扫描，并使用 70 个最常见的单词进行研究，其余的频率扫描结果被丢弃。以下是 70 个单词列表中的前 20 个单词。

['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
  'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from']

每个数据点只是 872 章中每章 70 个单词中每个单词的计数。

[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]

每个数据点都是作者文学指纹的一个实例。

每个数据点中的最后一项是一个整数 (1-4)，表示该文本所属的四位作者之一。

最近，我通过一个简单的无监督机器学习算法运行了这个数据集；结果非常好——四个类几乎完全分离，你可以在我的 Answer 中看到这一点。 StackOverflow 上之前的一个问题与一般使用 ML 进行文本分类相关，而不是作者识别。

那么还使用了哪些其他算法？显然，监督类别中的大多数机器学习算法都可以成功解析此类数据。其中，经常使用多层感知器(MLP，又名神经网络)(Author Attribution Using Neural Networks 就是一项经常被引用的研究)。

关于machine-learning - 作者唯一的 "literary style"可以用来识别他/她是文本的作者吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4771293/

27

4

0

文章推荐： python - statsmodels 和 R 中的泊松回归

文章推荐： javascript - 以编程方式调用对象中的所有函数？ (JavaScript)

machine-learning - 作者唯一的 "literary style"可以用来识别他/她是文本的作者吗？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques

首页

博学

6Ren·AI

商城

machine-learning - 作者唯一的 "literary style"可以用来识别他/她是文本的作者吗？