- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
让我们想象一下,我有同一个人写的两篇英语文本。是否可以应用一些马尔可夫链算法来分析每个:根据统计数据创建某种指纹,并比较从不同文本获得的指纹?假设我们有一个包含 100 篇文本的图书馆。有人写了文本1,也写了其他文本,我们需要通过分析他/她的写作风格来猜测是哪一篇。有没有已知的算法可以做到这一点?这里可以应用马尔可夫链吗?
最佳答案
这绝对是可能的,而且根据文本或其某些部分识别作者的成功记录确实令人印象深刻。
一些代表性研究(警告:链接为 pdf 文件):
为了帮助您进行网络搜索,该学科通常称为风格测定(有时也称为风格遗传学)。
所以我认为两个最重要的问题是:哪些分类器可用于此目的以及哪些数据被输入到分类器?
我仍然感到惊讶的是,实现非常准确的分类只需要很少的数据。通常,数据只是一个词频列表。 (词频列表目录可在线获取 here 。)
例如,一个广泛用于机器学习并可从网络上多个地方获取的数据集由四位作者的数据组成:莎士比亚、简·奥斯汀、 jack ·伦敦、弥尔顿。这些作品被分为 872 篇(大致对应于章节),换句话说,四位作者每人大约有 220 篇不同的实质性文本;这些片段中的每一个都成为数据集中的单个数据点。接下来对每个文本进行词频扫描,并使用 70 个最常见的单词进行研究,其余的频率扫描结果被丢弃。以下是 70 个单词列表中的前 20 个单词。
['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from']
每个数据点只是 872 章中每章 70 个单词中每个单词的计数。
[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]
每个数据点都是作者文学指纹的一个实例。
每个数据点中的最后一项是一个整数 (1-4),表示该文本所属的四位作者之一。
最近,我通过一个简单的无监督机器学习算法运行了这个数据集;结果非常好——四个类几乎完全分离,你可以在我的 Answer 中看到这一点。 StackOverflow 上之前的一个问题与一般使用 ML 进行文本分类相关,而不是作者识别。
那么还使用了哪些其他算法?显然,监督类别中的大多数机器学习算法都可以成功解析此类数据。其中,经常使用多层感知器(MLP,又名神经网络)(Author Attribution Using Neural Networks 就是一项经常被引用的研究)。
关于machine-learning - 作者唯一的 "literary style"可以用来识别他/她是文本的作者吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4771293/
这两个文件之间的主要区别是什么:styles.xml (res\values\styles.xml) 和 styles.xml (res\values-v21\styles.xml ? 针对旧的and
我正在尝试将按钮样式设置为看起来像我在 Android Full Width ICS style Minimalist Bottom ButtonsViews 中询问的那些按钮. 我已经成功了,有兴趣
只是想检查一下: 如果我有 Style.css 和 Style.min.css(在同一目录中)并且我的 html 页面引用了 Style.css,浏览器/服务器是否会下载 Style.min.css?
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
从上面的问题,我认为这会相对容易,但我找不到任何关于如何向“样式”下拉菜单添加样式的文档。谁能把我推向正确的方向? 最佳答案 样式下拉列表会根据主题的typography.css 文件中的类自动填充。
我有两种风格 还有这个 如果我尝试在这样的对象上使用第二个 编译器抛出这个错误: 错误 16 Style 对象不能影响它所应用的对象的 St
我想知道是否有关于在 Lisp 中使用标签的标准做法。我一直在弄乱这里第一个答案中描述的算法的 Lisp 实现 Generating permutations lazily我当前的版本使用标签来分解部
我想以编程方式获取样式为“ButtonBar”的 LinearLayout 的背景颜色。 我试过用LinearLayout的getBackgroundColor,没找到方法。 有人有想法吗?问候 最
我在扩展 javax.swing.text.DefaultStyledDocument 的类中遇到间歇性问题。该文档正在发送到打印机。大多数情况下,文档的格式看起来是正确的,但有时却并非如此。看起来格
我想将所有元素设为边框。我想这样做: * { box-sizing: border-box; } 如何使用 React 的内联样式做到这一点?我不想在每个组件中都写这个规则... 最佳答案 这是不
当我创建一个 Android 应用程序项目时,我在 (android:theme="@style/AppTheme") 上的 AndroidManifest.xml 中出现错误 找不到与给定名称匹配的
一种风格ol.layer.Vector可以设置为 ol.style.Style ,样式函数或 ol.style.Style 的数组.数组的用途和作用——与仅传递 ol.style.Style 相比目的
我的意思是内部风格 #div {color:red;} document.getElementsByTagName('style').innerHTML 不工作... document.style
http://synergine.net/rain.php 你好。我试图清除 .ripple div 中所有元素的样式属性,但没有成功: function contact(level){ focus_
我使用 vue 和 v-for 循环来创建跨度。以下是使用 bootstrap4 的背景颜色的一种样式的成功: {{ group }} export default {
有没有办法只存储元素的当前样式状态,这样我就可以搞砸样式然后再重置它? 类似于(虽然这不起作用):http://jsfiddle.net/843Pj/ var el=document.getEleme
我正在尝试将 tinymce 配置为不允许在 style 属性中使用 css 样式。 我只想允许一种样式,即文本装饰。这是一个类似的问题 http://tinymce.moxiecode.com/pu
我对style.css做了一些修改,上传到网上。但是它没有显示我需要的结果。即它仍然采用旧的 style.css 代码。 我可以离线查看更改,但是当我给它完整的 href 链接时,它没有显示必要的结果
我添加到 web 文件夹下的样式文件夹似乎没有被我的 JSP 上的调度程序 servlet 映射。我明白了 WARN : org.springframework.web.servlet.PageNot
是否有任何用于 JQuery 数据表的 Metro Style CSS 样式插件? 最佳答案 看看here 或者您可以自己创建一个。 Metro 风格很容易用 Segoe 字体复制 关于jquery
我是一名优秀的程序员,十分优秀!