gpt4 book ai didi

statistics - 如何对调查中问题的自由形式答案进行分类和表格化?

转载 作者:行者123 更新时间:2023-12-04 07:07:34 25 4
gpt4 key购买 nike

我想分析一项网络调查的答案(如果有兴趣,Git User's Survey 2008)。一些问题是自由形式的问题,例如“您是如何听说 Git 的?”。有 3,000 多条回复完全靠手工分析这些回复是不可能的(尤其是本次调查中有相当多的自由形式问题)。

我如何至少半自动地将这些回复(可能基于响应中使用的关键词)分组到类别中(即程序可以要求确认),然后如何表格化(计算每个类别中的条目数)那些免费的-表单回复(答案)?一个答案可以属于多个类别,但为了简单起见,可以假设类别是正交的/排他的。

我想知道的至少是要搜索的关键字,或者 算法 (方法)使用。我更喜欢 中的解决方案Perl (或 C)。

可能的解决方案 1。(部分):贝叶斯分类

(添加 2009-05-21)

我想到的一种解决方案是使用类似算法(及其背后的数学方法)进行贝叶斯垃圾邮件过滤,只是不是一两个类别(“垃圾邮件”和“火腿”),而是更多;并且类别本身将自适应/交互地创建。

最佳答案

文本::Ngrams + 算法::集群

  • 使用 Text::Ngrams 为每个答案生成一些向量表示(例如字数) .
  • 使用 Algorithm::Cluster 对向量进行聚类确定分组以及与组对应的关键字。
  • 关于statistics - 如何对调查中问题的自由形式答案进行分类和表格化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/887954/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com