Python:聚类搜索引擎关键词-6ren

Python:聚类搜索引擎关键词

转载作者：太空狗更新时间：2023-10-30 00:15:30

26

4

Python:聚类搜索引擎关键字

你好，我有一个 CSV，最多 20,000 行(我有 100,000 多个不同的网站)，每行包含一个引用关键字(即有人在搜索引擎中输入的关键字以查找相关网站)，以及多次访问。

我要做的是将这些关键字聚类成“相似含义”的聚类，并创建聚类的层次结构(按照每个聚类的搜索总数的总和排列)。

示例集群 - “女装” - 理想情况下包含以下几行关键字:女装，1000女装，300女装，50女装, 6女装，2

我可以使用类似 Python 自然语言工具包的工具:http://www.nltk.org/和 WordNet，但是，我猜测对于某些网站，引用关键字将是 WordNet 一无所知的词/短语。例如，如果该网站是名人网站，WordNet 不太可能知道“Lady Gaga”的任何信息，如果该网站是新闻网站，情况更糟。

因此，我也猜测解决方案必须是一个看起来只使用源数据本身的解决方案。

我的查询与在 How to cluster search engine keywords? 提出的查询非常相似，只是我正在寻找开始的地方，但使用 Python 而不是 Java。

我也想知道 Google Predict 和/或 Google Refine 是否有用。

无论如何，欢迎提出任何想法/建议，

谢谢，C

最佳答案

我非常喜欢 Woosh。它是一个纯 Python 搜索引擎，除其他外，还提供那种功能。检查一下。

http://packages.python.org/Whoosh/index.html

您正在寻找的功能称为“分面搜索结果”

http://packages.python.org/Whoosh/facets.html

埃尔南

关于Python:聚类搜索引擎关键词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5457993/

26

4

0

文章推荐： Python urlopen 连接中止 - urlopen 错误 [Errno 10053]

文章推荐： c# - 从 C# 中的字符串调用表单

文章推荐： c# - 在 C# 中动态访问类及其属性

文章推荐： c# - 如何更改 backgroundworker 中的 ListView？跨线程错误

.NET使用阻塞和返回；关键词
当我说这个 using (Entities db = new Entities()) { return db.TableName.AsQueryable().ToList(); } 因为返回了
algorithm - 如何从给定的文本中自动识别标签(关键词)？
它应该表现得像Delicious toolbar对于 Firefox 来说；它列出了可能要点击的标签。效果如下图: 代码应该能够找到文本的关键词。有什么好的算法或者开源项目推荐吗？我找到了 this
Android:我上传了我的第一个应用程序!关键词？
我刚刚在市场上上传了我的第一个应用程序。一切顺利，看起来很好。我尝试了几个关键词来搜索它，这些词在我的描述和促销文本中也有，但有些词找不到我的应用程序，有些却找到了。关键字策略如何在市场上的应用程序
git - Git 提交消息中的 Phabricator 关键词
我已经开始在我的提交消息中使用对 Maniphest 任务的引用，这对于自动关闭任务等非常有用。我发现这个页面有很多关键词，但我很好奇是否有更多或任何关于如何使用它们的文档。 https://pha
c++ - 为什么这个 Qt 示例使用地址而不是对象和函数本身？没有 SLOT/SIGNAL 关键词？
我在 Qt 文档中遇到过这段代码: Counter a, b; QObject::connect(&a, &Counter::valueChanged, &b, &C
iOS:这是 Audio Session 模拟器错误吗？关键词:kAudioSessionProperty_AudioRoute kAudioSessionUnsupportedPropertyError
有人可以确认这是否确实是一个错误吗？ (如果是这样，我将离开并将其提交给 Apple)。尝试获取 kAudioSessionProperty_AudioRoute 在 4.3 之前的任何版本的模拟器
iphone - Objective-C - 比 NSCaseInsensitiveSearch 更好的搜索？关键词？ NSPredicate？
目前我正在使用它来搜索我的词典数组(来自 plist 文件): for(NSDictionary *wine in mainArray) { NSString *wineNam

首页

博学

6Ren·AI

商城

Python:聚类搜索引擎关键词