- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的用户有城市、国家、追随者数量和其他一些字段。当我在城市和国家/地区字段中按“美国纽约”搜索并按关注者数量排序时,我需要首先显示按关注者数量降序排序的“美国纽约”的人,然后我需要显示来自美国其他城市的人也按 followersAmount 降序排序。我想我可以通过仅按词频进行评分并首先按分数排序,其次按关注者数量排序来做到这一点,但我找不到如何配置它。
最佳答案
像这样的事情呢:
{
"query" : {
"bool" : {
"should" : [
{
"constant_score" : {
"query" : {
"match" : {
"city" : "New York"
}
}
}
},
{
"constant_score" : {
"query" : {
"match" : {
"country" : "USA"
}
}
}
}
]
}
},
"sort" : [
"_score",
{ "followersAmount" : { "order" : "desc"} }
]
}
您可以期望来自“美国纽约”的人获得相同的分数。来自美国而非纽约的人将获得相同的分数,但分数较低。对于得分相同的人,他们将按照 followersAmount 排序。当然,这只是让您入门的初始查询 - 可能需要更多调整和内容。
编辑:用 constant_score 更新
我希望基本的 TF-IDF 算法和字段长度的结合能有所帮助。一般来说,与国家/地区的条款相比,我希望城市的条款具有更大的相关 IDF。因此,在城市比赛中获得更高的分数似乎是可取的。就 TF 和字段长度规范而言,给只有一个匹配城市的人打分比给有两个城市的人打分(如果您碰巧有这些字段的数组以允许多个城市)似乎也很有利。但是,我不确定您的数据是什么样的。我已经更新了查询,以便使用 constant_score 查询时 Elasticsearch 的基本算法不会产生这样的影响。
关于在elasticsearch中仅按词频排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32952451/
我在 Eclipse 中创建了一个 Java 程序。该程序计算每个单词的频率。例如,如果用户输入“I went to the shop”,程序将产生输出“1 1 1 2”,即 1 个字长 1 ('I'
我在工作中只有 R 可用,而且我以前用 Python 做过。我需要获取 CSV 文件中每组事件的计数。我在 Python 中进行了情绪分析,我在提供的表格中搜索了一本 Python 字典,其中包含每个
我想一个字一个字地读,然后将哪个字与我的结构数组中的字进行比较。如果我没有,我想在第一个空位添加。 #include #include #include #include using names
我想计算已转换为标记的文本文件中特定单词前后三个单词的频率。 from nltk.tokenize import sent_tokenize from nltk.tokenize import wor
我需要编写一个程序来计算文本中每个单词的频率,此外我需要能够返回 n 个最常用单词的列表(如果更多单词具有相同的频率(它们按字母顺序排序)。还有一个未计算在内的单词列表(停用词)。 停用词使用什么结构
我对 sklearn 的 TfidfVectorizer 在计算每个文档中单词的频率时有一个疑问。 我看到的示例代码是: >>> from sklearn.feature_extraction.tex
我是一名优秀的程序员,十分优秀!