gpt4 book ai didi

algorithm - 如何确定指标分数的适当权重

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:35:34 25 4
gpt4 key购买 nike

我正在对文本分析进行一些个人研究,并提出了将近 70 个指标(代词使用频率、阅读水平、元音频率、要点的使用等)来对一段文本进行“评分”。

理想情况下,同一作者的不同文本片段会有相似的分数。最终目标是索引大量作者,并使用分数来猜测谁写了一篇单独的、匿名的文本。

我希望分数从 0 归一化到 100,并表示两段文本在写作风格上“相似”的百分比。类似 How to decide on weights? 的问题和 How to calculate scores?描述评分指标背后的数学原理以及如何标准化,但假设每个指标的权重都相同。

我的问题是:如何确定在对每个指标进行评分时使用的适当权重,以确保每个用户的累积分数最准确地描述了该特定用户的写作?

此外,可以为每个用户分配权重。如果每个单词的音节最恰本地描述了谁为 Alice 写了一篇文章,而两个字母单词的频率对 Bob 来说是最好的,我希望 Alice 最重的权重是每个单词的音节,而 Bob 的频率是两个-字母词。

最佳答案

如果你想用加权分数来做,看看http://en.wikipedia.org/wiki/Principal_component_analysis - 你可以为不同的作者绘制第一对(最大的)主成分的值,看看你是否找到了一个聚类。您还可以绘制最小的几个主成分的图,看看是否有任何突出的东西 - 如果突出,可能是由于小故障或错误 - 它往往会从一般规则中挑选出异常(exception)情况。

另一个选项是 http://en.wikipedia.org/wiki/Linear_discriminant_analysis

如果为爱丽丝与非爱丽丝的分类建立权重,以及为鲍勃与非鲍勃的分类建立权重,我想您可以建立每个作者的权重。

尝试识别作者的另一种方法是构建一个 http://en.wikipedia.org/wiki/Language_model对于每个作者。

我突然想到,如果您准备声称您的不同措施是独立的,那么您可以将它们与 http://en.wikipedia.org/wiki/Naive_Bayes_classifier 结合起来。 .最终贝叶斯因子的对数将是各个贝叶斯因子的对数之和,从而为您提供加权分数之和。

关于algorithm - 如何确定指标分数的适当权重,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9849103/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com