gpt4 book ai didi

algorithm - 我怎样才能从语料库中只找到 'interesting' 个单词?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:27:58 25 4
gpt4 key购买 nike

我正在分析句子。我想知道每个句子的相关内容,松散地定义为与语料库其余部分相关的“半独特词”。类似于亚马逊的“统计上不可能的短语”,它似乎(经常)通过古怪的词串传达一本书的特征。

我的第一步是开始制作常用单词列表。这会剔除简单的,例如 athefrom 等。显然,这个列表变得很长。

一个想法是生成这个列表:制作语料库词频的直方图,并去掉前 10% 或类似的东西(IE the 出现 700 次,from 600 次,但 micropayments 只有 50 次,在临界值以下,因此相关。

我今天刚刚从 Hacker News 了解到的另一个算法是 Tf idf ,这看起来很有帮助。

还有什么其他方法比我的两个想法更有效?

最佳答案

看看this article (单词的级别统计:在文学文本和符号序列中查找关键字,发表于 Phys. Rev. E)。

首页上的图片及其标题解释了重要的观察结果。在堂吉诃德中,“but”和“Quixote”这两个词出现的频率相似,但它们的频谱却大不相同(“Quixote”的出现是聚集在一起的,而“but”的出现间隔更均匀) .因此,“Quixote”可以归类为一个有趣的词(关键词),而“but”则被忽略。

它可能是也可能不是您要找的东西,但我想熟悉这个结果不会有什么坏处。

关于algorithm - 我怎样才能从语料库中只找到 'interesting' 个单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3480391/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com