machine-learning - 最新的句子可读性算法-6ren

machine-learning - 最新的句子可读性算法

转载作者：行者123 更新时间：2023-11-30 08:29:40

27

4

我正在研究一种估计 sentence difficulty 的算法，但我发现的方法似乎太旧了，无法利用现代计算机的功能。

当今使用的算法大多是在 40 到 60 年前开发的。 Flesch-Kincaid是最受欢迎的，并且仍然被国防部和许多州和企业用作文件标准。我查看了 Flesch-Kincaid 年级水平、Gunning Fog Index、SMOG Index、Fry Readability Formula 和 Coleman-Liau Index。

我决定使用自动可读性索引:

ARI = 4.71 * (characters / words) + .5 * (words / sentences) - 21.43;

在我看来，根据基于语料库的词频列表为每个单词分配一个值，然后将这些值代入旧的可读性公式中并不困难。
可以对前 1000 到 5000 个最常见的单词执行此操作。此外，为某些不同类型的单词和词性单独列出列表可能会很有效。连词的存在肯定是句子复杂性的标志。

有什么公式可以做到这一点吗？

最佳答案

当您在机器学习公式中看到硬编码常量时，请保持怀疑......

Automated Readability Index 中的数字表示适合用于构建它的数据集以及选择用来表示它的特征的模型。除了适合性之外，我认为作为一种常见的衡量标准，根据学校成绩进行校准是另一个好处。

您将词频添加到可读性中的想法听起来是一个很棒的功能。毕竟，语法简单的句子中的一个不熟悉的单词可能会使其变得难以阅读。

您应该选择在给定词频的情况下表示句子的方式。例如整个句子的概率、不常见单词的数量、最小频率等。

然后您应该构建一个数据集并从中学习模型的参数。最直接的方法是使用手动标记的句子数据集以提高可读性。然而，构建这样一个数据集似乎非常耗时。

你可以通过使用一些可读性水平一般已知的来源来绕过这个问题，并根据来源标记句子的可读性。例如，simple English wikipedia 中的句子应该比维基百科的内容更具可读性。常见可读性级别的其他来源可以是华尔街日报和网络论坛。对这些句子进行一些手动标记，以便对齐和校准您的可读性值。

通过使用此技术，您可以权衡标签准确性和标签数量。由于事实证明机器学习可以在存在白噪声甚至恶意错误的情况下完成，因此这种权衡通常是有益的。

关于machine-learning - 最新的句子可读性算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13795019/

27

4

0

文章推荐： javascript - 许多对象的模态 Rails Form_for

文章推荐： machine-learning - 哪些回归方法适合二值特征和连续输出？

scala - Scala(最新 2.10)与 Groovy++(最新 0.9.1？)的比较
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
pyEcharts安装及详细使用指南(最新)
ECharts是一个纯Javascript的图表库，可以流畅的运行在PC和移动设备上，兼容当前绝大部分浏览器，底层依赖轻量级的Canvas类库ZRender，提供直观、生动、可交互、可高度个性化定制
Docker如何快速搭建LNMP环境(最新)
前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文
详解使用Xcode7的Instruments检测解决iOS内存泄露(最新)
作为一名ios开发攻城狮,在苹果没有出arc(自动内存管理机制)时,我们几乎有一半的开发时间都耗费在这么管理内存上.后来苹果很人性的出了arc,虽然在很大程度上,帮助我们开发者节省了精力和时间.但是
pandas - 以相反的顺序使用系列(最新)
如何反转Pandas中DataSeries的排序顺序，以便我按降序使用它们？最佳答案 In [28]: s = pd.Series([20, 10, 30], ['c', 'a', 'b']) In
jQuery 最新 $.browser
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Is jQuery $.browser Deprecated? 最新的 jQuery 库是否发生变化 $.brows
MySQL 更新其他行以跟踪当前/最新
我正在开发一个 Intranet 项目，所以我无法复制/粘贴代码，所以希望我的描述和一些小片段会有所帮助。我知道 MySQL 触发器无法做到这一点，但希望有一种干净的 JPA PrePersist(
mySQL 组，最新
这是数据集: 人员状态日期埃里克 1 1/1/2015 埃里克 2 2/1/2015 埃里克 3 2015 年 3 月 1 日约翰福音 1 3/1/2015 约翰福音 2 2015 年 2 月 1
php - 按日期排序(最新)
现在我正在使用下面的查询按每篇文章的 auto_increment id 排序 mysql_query("SELECT * FROM articles ORDER BY id DESC"); 我想知道
mysql - 最新 - 邮政编码数据库？
已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。关闭
mysql - 最新 - 邮政编码数据库？
已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。关闭
php - 按日期排序(最新)
现在我正在使用下面的查询按每篇文章的 auto_increment id 排序 mysql_query("SELECT * FROM articles ORDER BY id DESC"); 我想知道
dedeCMS 织梦的日期时间格式大全(最新)
在我们做文章的时候常用一些函数修改来实现自己的页面效果，例如，时间的自定义格式我们常常需要乃至的，搜集了些有关时间格式的CODE，作大家为参考,希望对大家有些帮助列表页list_article
github - 保持 fork 最新
我想将某些东西提交到 github 存储库，但我(显然)没有任何权利这样做。我对那个 repo 做了一个分支，提交了我的更改并提交了一个 pull-request。现在，问题是过了一段时间其他人已经
sql - 仅连接另一个表中每一行的最高(最新)值
我是 SQL 新手，所以现有的答案对我来说有点复杂。我有三张 table : WORKER |id |name |date |... JOB |id |name |salary |accept AP
excel - 粘贴的形状不被视为“最新”形状
我正在自动从PowerPoint和Excel电子表格中生成PowerPoint报表。在粘贴表格之前，我已经完成了整个过程。我使用PPApp.CommandBars.ExecuteMso ("Past
java - Spring kafka消费者不尊重自动偏移重置=最新
我们有 1 个 Kafka 主题和 1 个分区: 从 spring boot kafka 消费者那里看到一个相当奇怪的行为。 Spring kafka消费者在重新启动时总是从主题的开头开始消费。我已
ios - 如何从ALASSET照片库中获取第一张(最新)照片？
通过编程从iOS照片库获取最新照片是否有技巧？我知道我可以按日期搜索，但是我必须每隔一微秒进行一次扫描，以便进行某种比较以准确地找到它。有没有人做过这个或任何想法？最佳答案我之前采取的一种方法
javascript - 最新 Kendo 版本的页面加载缓慢问题
我们上周将 Web 应用程序中的 Telerik Kendo 库从 V2015.2.902 升级到 V2016.1.112。从那时起，我们注意到使用 Kendo 的页面需要很长时间才能加载(30 秒到
sql - 为每个学生选择*最新*成绩信息
我有两个表: STUDENT GRADES ---------- ---------- id id name person_id ad

首页

博学

6Ren·AI

商城

machine-learning - 最新的句子可读性算法