gpt4 book ai didi

python - 分析标签集的最佳方法?

转载 作者:太空宇宙 更新时间:2023-11-04 01:35:18 25 4
gpt4 key购买 nike

我有数以千计的调查回复,这些回复已根据回复内容进行了标记。每个响应可以有一个或多个标签(最多 20 个),并且标签彼此独立,而不是被构造为类别-子类别或其他东西。

我希望能够进行如下分析:

  • 给定标签有多少个实例?
  • 哪些标签总体上出现的频率最高?
  • 标签 X 出现的位置,哪些其他标签最常与其一起出现?
  • 所有标签的列表及其旁边的每个标签
  • 选择数据子集进行类似分析(例如按国家/地区)

与我共事的人传统上用 Excel 解决所有问题(一般业务战略咨询工作),但在这种情况下行不通。他们的回应是将项目框架更改为 Excel 可以在数据透视表中处理的内容,但如果我们可以使用更强大的工具来支持更复杂的关系,那就更好了。

我一直在学习 SQLite,但我开始担心我想做的事情会非常复杂。

我也一直在学习 Python(出于不相关的原因),我想知道 ORM 工具和一些 Python 代码是否是更好的选择。

还有类似 Access 的东西(我没有,但如果它是这类东西的最佳选择,我可能会愿意得到)。

总而言之,我很想知道进行这些类型的分析总体上有多难,以及哪些工具最适合这项工作。我完全接受这样的想法,即我正在以倒退的方式思考部分或全部问题,并且欢迎就我在这里所写内容的任何方面提出任何建议。

最佳答案

将所有标签收集到一个列表中,并使用 python collections.Counter 和相关方法来获取频率和大量其他统计信息。就这样

>>> from collections import Counter
>>> x=['java', 'python', 'scheme', 'scheme', 'scheme', 'python', 'go', 'go', 'c',
... 'c']
>>> freqs = Counter(x)
>>> freqs.most_common(1)
[('scheme', 3)]
>>>

关于python - 分析标签集的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10522290/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com