gpt4 book ai didi

mahout - 如何包含用于聚类的日期时间和其他优先级信息?

转载 作者:行者123 更新时间:2023-12-01 05:20:57 25 4
gpt4 key购买 nike

我想对文本进行聚类。我有点理解聚类的概念 纯文字 Mahout in Action 的内容:

  • 对输入中的所有术语进行映射(int -> term)并存储到字典中
  • 将所有输入文档转换为归一化稀疏向量
  • 做聚类

  • 我想对文本以及其他信息进行聚类,例如日期时间、地点、与我在一起的人。例如,我希望将在远方 10 天访问中制作的文档放入一个不同的集群中。

    我知道我必须编写自己的工具来根据日期时间、位置、标签和(自然)文本制作矢量。我该如何处理?我应该使用内置工具对文本进行矢量化,然后将该输出集成到我自己的矢量中吗?称重尺寸怎么样?

    最佳答案

    我不能给你完整的实现细节,因为我不确定,但我可以帮你解决一个难题。您几乎肯定需要一些上下文分析来提取实体(例如位置、时间/日期、人名)

    为此,请查看 OpenNLP。

    http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html

    特别是查看 POS 标记器和名称查找器。

    提取出相关实体后,您“可能”可以使用 Mahout 分类对它们做一些事情(一旦您提取了足够的实体来训练您的模型),但我不确定。

    祝你好运

    关于mahout - 如何包含用于聚类的日期时间和其他优先级信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16706301/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com