- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
Python:聚类搜索引擎关键字
你好,我有一个 CSV,最多 20,000 行(我有 100,000 多个不同的网站),每行包含一个引用关键字(即有人在搜索引擎中输入的关键字以查找相关网站),以及多次访问。
我要做的是将这些关键字聚类成“相似含义”的聚类,并创建聚类的层次结构(按照每个聚类的搜索总数的总和排列)。
示例集群 - “女装” - 理想情况下包含以下几行关键字:女装,1000女装,300女装,50女装, 6女装,2
我可以使用类似 Python 自然语言工具包的工具:http://www.nltk.org/和 WordNet,但是,我猜测对于某些网站,引用关键字将是 WordNet 一无所知的词/短语。例如,如果该网站是名人网站,WordNet 不太可能知道“Lady Gaga”的任何信息,如果该网站是新闻网站,情况更糟。
因此,我也猜测解决方案必须是一个看起来只使用源数据本身的解决方案。
我的查询与在 How to cluster search engine keywords? 提出的查询非常相似,只是我正在寻找开始的地方,但使用 Python 而不是 Java。
我也想知道 Google Predict 和/或 Google Refine 是否有用。
无论如何,欢迎提出任何想法/建议,
谢谢,C
最佳答案
我非常喜欢 Woosh。它是一个纯 Python 搜索引擎,除其他外,还提供那种功能。检查一下。
http://packages.python.org/Whoosh/index.html
您正在寻找的功能称为“分面搜索结果”
http://packages.python.org/Whoosh/facets.html
埃尔南
关于Python:聚类搜索引擎关键词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5457993/
当我说这个 using (Entities db = new Entities()) { return db.TableName.AsQueryable().ToList(); } 因为返回了
它应该表现得像Delicious toolbar对于 Firefox 来说;它列出了可能要点击的标签。效果如下图: 代码应该能够找到文本的关键词。有什么好的算法或者开源项目推荐吗? 我找到了 this
我刚刚在市场上上传了我的第一个应用程序。一切顺利,看起来很好。我尝试了几个关键词来搜索它,这些词在我的描述和促销文本中也有,但有些词找不到我的应用程序,有些却找到了。 关键字策略如何在市场上的应用程序
我已经开始在我的提交消息中使用对 Maniphest 任务的引用,这对于自动关闭任务等非常有用。 我发现这个页面有很多关键词,但我很好奇是否有更多或任何关于如何使用它们的文档。 https://pha
我在 Qt 文档中遇到过这段代码: Counter a, b; QObject::connect(&a, &Counter::valueChanged, &b, &C
有人可以确认这是否确实是一个错误吗? (如果是这样,我将离开并将其提交给 Apple)。 尝试获取 kAudioSessionProperty_AudioRoute 在 4.3 之前的任何版本的模拟器
目前我正在使用它来搜索我的词典数组(来自 plist 文件): for(NSDictionary *wine in mainArray) { NSString *wineNam
我是一名优秀的程序员,十分优秀!