gpt4 book ai didi

machine-learning - 最新的句子可读性算法

转载 作者:行者123 更新时间:2023-11-30 08:29:40 27 4
gpt4 key购买 nike

我正在研究一种估计 sentence difficulty 的算法,但我发现的方法似乎太旧了,无法利用现代计算机的功能。

当今使用的算法大多是在 40 到 60 年前开发的。 Flesch-Kincaid是最受欢迎的,并且仍然被国防部和许多州和企业用作文件标准。我查看了 Flesch-Kincaid 年级水平、Gunning Fog Index、SMOG Index、Fry Readability Formula 和 Coleman-Liau Index。

我决定使用自动可读性索引:

ARI = 4.71 * (characters / words) + .5 * (words / sentences) - 21.43;

在我看来,根据基于语料库的词频列表为每个单词分配一个值,然后将这些值代入旧的可读性公式中并不困难。
可以对前 1000 到 5000 个最常见的单词执行此操作。此外,为某些不同类型的单词和词性单独列出列表可能会很有效。连词的存在肯定是句子复杂性的标志。

有什么公式可以做到这一点吗?

最佳答案

当您在机器学习公式中看到硬编码常量时,请保持怀疑......

Automated Readability Index 中的数字表示适合用于构建它的数据集以及选择用来表示它的特征的模型。除了适合性之外,我认为作为一种常见的衡量标准,根据学校成绩进行校准是另一个好处。

您将词频添加到可读性中的想法听起来是一个很棒的功能。毕竟,语法简单的句子中的一个不熟悉的单词可能会使其变得难以阅读。

您应该选择在给定词频的情况下表示句子的方式。例如整个句子的概率、不常见单词的数量、最小频率等。

然后您应该构建一个数据集并从中学习模型的参数。最直接的方法是使用手动标记的句子数据集以提高可读性。然而,构建这样一个数据集似乎非常耗时。

你可以通过使用一些可读性水平一般已知的来源来绕过这个问题,并根据来源标记句子的可读性。例如,simple English wikipedia 中的句子应该比维基百科的内容更具可读性。常见可读性级别的其他来源可以是华尔街日报和网络论坛。对这些句子进行一些手动标记,以便对齐和校准您的可读性值。

通过使用此技术,您可以权衡标签准确性和标签数量。由于事实证明机器学习可以在存在白噪声甚至恶意错误的情况下完成,因此这种权衡通常是有益的。

关于machine-learning - 最新的句子可读性算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13795019/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com