gpt4 book ai didi

algorithm - 关联词接近度

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:48:20 26 4
gpt4 key购买 nike

假设我有一段大约一段对话的文字记录。 1小时。我想知道哪些词彼此非常接近。我将使用哪种类型的统计技术来确定哪些词聚集在一起以及它们彼此之间的接近程度?

我怀疑是某种聚类分析或 PCA。

最佳答案

要确定单词的接近度,您必须构建一个图表:

  1. 每个单词都是一个顶点(或“节点”),并且
  2. 左右词为边

所以“我喜欢狗”会有 2 条边和 3 个顶点。

现在,下一步是根据这个模型来决定您对“关闭”的定义是什么。

这是统计数据的用武之地。

确定相关词的“组”

  1. MCL 聚类 - 这将为您提供许多聚类,这些聚类在算法上具有很高的一起出现的几率。

  2. K MEANS 聚类 - 这将为您提供“k”组单词。

  3. 阈值 - 这是最可靠和直观的方法。绘制您了解的一小部分数据(例如,您阅读过的新闻剪辑或文章中的一段)的所有关系,并运行您的方法生成图表,并使用 graphviz 或 cytoscape 等工具可视化该图表.一旦可以看到相关性,就可以计算出在明显聚集在一起的不同单词之间通常会发现多少条边。例如,您可能会发现,聚集在一起的两个单词每 5 个实例就有一条边。使用它作为截止点并编写您自己的图形分析脚本,该脚本输出在您的顶点图中每 5 个单词实例至少有 1 个边的单词对。

    1. 通过 ROC 曲线评估 3。您可以将此截止值滴定得越来越高,直到“簇”很少为止。如果您随后针对具有已知预期结果的段落运行您的算法(由已经知道哪些词应该被报告为相关的人创建),您可以使用比较相关词的接收器操作特征来评估算法的精度输出到预先计算的黄金标准。

关于algorithm - 关联词接近度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7863710/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com