gpt4 book ai didi

比较想法相似性的算法(作为字符串)

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:45:05 25 4
gpt4 key购买 nike

考虑一个记录问题答案的任意文本框,你死前想做什么?

使用一组响应字符串(最大长度 240),我想以某种方式对它们进行排序和分组,并按想法对它们进行计数(这可能只是字符串相似性,如 this question 中所述)。

  1. 是否有其他或更好的方法来做这样的事情?
  2. 这与字符串相似度有什么不同吗?
  3. 问这个问题合适吗?

这里的想法是让人们一遍又一遍地在文本框中书写,而我提供一个数字来描述,一般来说,802 个人写了大致相同的东西

最佳答案

比字符串相似度难多了。这是您至少需要做的事情:

  • 执行一些文本格式化/清理任务,例如删除标点符号和常见的“停用词”
  • 根据出现答案的术语构建一个语料库(单词及其使用统计信息的集合)。
  • 计算每个术语的权重。
  • 从每个答案构建一个文档向量(每个术语对应于非常高维的欧几里德空间中的一个维度)
  • 对文档向量运行聚类算法。

阅读一本好的统计自然语言处理书籍,或在 google 上搜索好的介绍/教程(可能的术语:statistical nlptext categorizationclustering) 根据您选择的语言,您可能会找到一些库(wekanltk 浮现在脑海中),但无论如何您都需要了解这些概念才能使用该库.

关于比较想法相似性的算法(作为字符串),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9984026/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com