gpt4 book ai didi

nlp - Smalltalk和tf-idf算法

转载 作者:行者123 更新时间:2023-12-03 02:51:15 26 4
gpt4 key购买 nike

任何人都可以在 Smalltalk 中展示用于自然语言处理的 tf-idf 算法的简单实现或使用示例吗?我在名为 NaturalSmalltalk 的包中找到了一个实现,但这对于我的需求来说似乎太复杂了。 Python 中的一个简单实现就像 this one .

我注意到 Hapax 中有另一个 tf-idf ,不过好像和软件系统词汇分析有关,没有找到如何使用的例子。

最佳答案

我是 Visualworks 原始 Hapax 包的作者。 Hapax 是一个通用信息检索包,它应该能够处理任何类型的文本文件。我只是碰巧用它来分析源代码文件。

您正在寻找的类是TermDocumentMatrix,应该有两个方法globalWeighting:localWeighting:,您可以将实例传递给它们InverseDocumentFrequencyLogTermFrequencyTermFrequency 根据您的需要。通常,当提到 tfidf 时,人们的意思是它包括对数项频率。

应该有最好的测试来使用一个小的示例语料库来演示 TDM 类。如果测试尚未移植到 Squeak,请告诉我,以便我为您提供示例。

关于nlp - Smalltalk和tf-idf算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11381050/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com