gpt4 book ai didi

Python:聚类搜索引擎关键词

转载 作者:太空狗 更新时间:2023-10-30 00:15:30 26 4
gpt4 key购买 nike

Python:聚类搜索引擎关键字

你好,我有一个 CSV,最多 20,000 行(我有 100,000 多个不同的网站),每行包含一个引用关键字(即有人在搜索引擎中输入的关键字以查找相关网站),以及多次访问。

我要做的是将这些关键字聚类成“相似含义”的聚类,并创建聚类的层次结构(按照每个聚类的搜索总数的总和排列)。

示例集群 - “女装” - 理想情况下包含以下几行关键字:女装,1000女装,300女装,50女装, 6女装,2

我可以使用类似 Python 自然语言工具包的工具:http://www.nltk.org/和 WordNet,但是,我猜测对于某些网站,引用关键字将是 WordNet 一无所知的词/短语。例如,如果该网站是名人网站,WordNet 不太可能知道“Lady Gaga”的任何信息,如果该网站是新闻网站,情况更糟。

因此,我也猜测解决方案必须是一个看起来只使用源数据本身的解决方案。

我的查询与在 How to cluster search engine keywords? 提出的查询非常相似,只是我正在寻找开始的地方,但使用 Python 而不是 Java。

我也想知道 Google Predict 和/或 Google Refine 是否有用。

无论如何,欢迎提出任何想法/建议,

谢谢,C

最佳答案

我非常喜欢 Woosh。它是一个纯 Python 搜索引擎,除其他外,还提供那种功能。检查一下。

http://packages.python.org/Whoosh/index.html

您正在寻找的功能称为“分面搜索结果”

http://packages.python.org/Whoosh/facets.html

埃尔南

关于Python:聚类搜索引擎关键词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5457993/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com