- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 Web 应用程序,可以通过 SolR 上的 url 查询执行搜索。
结果作为 Document 对象接收。
我的查询如下:q=Book:Harlan AND Book:Coben AND ..
,它工作正常。
String[] word = searchedWord.trim().split(" ");
for (int i = 0; i < word.length; i++) {
if (!StringUtils.isEmpty(word[i])) {
if (i > 0) {
query.append("%20AND%20");
}
String utf_encoded = URLEncoder.encode(StringEscapeUtils.escapeJava(word[i]), "UTF-8");
}
}
但我需要强制执行搜索术语的类型,因为当搜索术语类似于精确术语:“Harlan Coben”
时,此代码将其分成两个单词“Harlan
和 Coben"
根据示例,我的网络应用程序应该能够搜索:
确切条款:“Harlan Coben”
多个术语:shakespeare harlan coben
多个混合术语:shakespeare "harlan coben"coben
或 shakespear "harlan coben"
或 "harlan coben"coben
调用 SolR 的 URL 采用 UTF-8 编码以替换特殊字符。
我应该如何进行?通过正则表达式 ?或者还有其他方法吗?
------编辑--------
更具体地说,所有这些字符都可以是“@(!ùéàç”或中文/俄语或任何其他字符(unicode?)特定语言。
我需要匹配它们并将它们分开以准备 SolR 查询。
示例:
如果搜索词是:coben "Harlan Coben"s(554603)hakesdpeare Straße Привет
我的正则表达式应该匹配并给出这个结果:
coben
"Harlan Coben"
s(554603)hakesdpeare
Straße
Привет
然后我需要将它们与 AND Book:
或 juste Book:
连接起来以进行如下查询:
q=Book:coben AND Book:"Harlan Coben"AND Book:s(554603)hakesdpeare AND Book:Straße AND Book:Привет
我尝试了 @fge 的 ("[a-z]+(?:\s+[a-z]+)+"|[a-z]+)(?:\s+|$)
(感谢那个),但它只与 [a-z] 匹配,我用 \\p{all}
尝试过,但没有成功..
有什么想法吗?
------结束编辑--------
感谢您的帮助!
最佳答案
你可以使用正则表达式,但它会很复杂;在这种情况下,您需要更换。这里假设您的搜索词中只有字母:
("[a-z]+(?:\s+[a-z]+)+"|[a-z]+)(?:\s+|$)
(请注意,这里的交替顺序很重要!)
示例:
public final class Bar
{
private static final Pattern PATTERN = Pattern
.compile("(\"[a-z]+(?:\\s+[a-z]+)+\"|[a-z]+)(?:\\s+|$)",
Pattern.CASE_INSENSITIVE);
public static void main(final String... args)
throws IOException
{
tryAndMatch("\"Harlan Coben\"");
tryAndMatch("shakespeare harlan coben");
tryAndMatch("shakespeare \"harlan coben\" coben");
}
private static void tryAndMatch(final String input)
{
final Matcher m = PATTERN.matcher(input);
System.out.printf("INPUT: -->%s<--\n", input);
while (m.find())
System.out.printf("Term -->%s<--\n", m.group(1));
System.out.println("END INPUT");
}
}
<小时/>
现在,对于 URL 的替换,请注意 URLEncoder
不是用来编码 URL 组件的,它是用来编码 application/x-www 的-form-urlencoded
数据,其中空格变为 +
,并且不具有与 URI 路径或片段相同的转义字符集。
最准确的解决方案是使用 URI 模板。这允许您编写模板,例如:
http://my.site/?q={query}
其中 query
是任何 Unicode 字符串,这将为您对其进行编码( self 推销:如果您有兴趣,我有一个 library to do that )。
第二种是使用Guava 15.0+,它有一个set of escapers especially made for URLs .
关于java - 使用 SolR 的不同类型术语构建查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22540518/
我支持 Rails 项目,其中包含 Rails 应用程序和 Solr 的附加实例。 我的环境:rails 3.2.1、ruby 2.1.2、sunspot 2.1.0、Solr 4.1.6。 问题:
在 Solr 中添加和提交之间的根本区别是什么?我们已经阅读了几个文档,但现在仍然非常清楚它到底做了什么,以及何时使用 Add 和何时使用 Commit? 据我了解,Add 将数据添加到 solr 数
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 5年前关闭。 Improve t
我们可以在 solr suggester 响应中添加上下文而不是上下文过滤吗? 我有 5 个不同的类别。每个类别都有不同的名称。我的建议者在名字上工作。我可以得到如下输出吗? { "term" :
在 solrconfig.xml 中,filterCache(或 queryResultCache 等)的 'autowarmCount' 表示当新的搜索者到来时将复制多少缓存实体。但是,如果我在 s
我们计划部署 Solr 来搜索从通用 CMS 平台发布的多个站点。 每种语言都有单独的网站,其他语言的内容主要是从英语翻译过来的。 搜索要求包括 – 关键字突出显示、建议(“你是什么意思?”)、停用词
我们有一个系统,使用户能够创建应用程序并在其应用程序上存储数据。我们希望将每个应用程序的索引分开。我们为每个应用程序创建一个核心,并在用户进行查询时搜索给定的应用程序。由于应用程序之间没有任何关系,因
我写了一个小型搜索引擎作为我的每周项目。它基于查询向量和文档向量之间的余弦相似度。向量是使用 tf-idf 标记的疮计算的。 我开始了解 Apache Solr,它是一个全文搜索引擎。我的问题是 so
为了索引我的网站,我有一个 Ruby 脚本,它反过来生成一个 shell 脚本,将我的文档根目录中的每个文件上传到 Solr。 shell 脚本有很多行,如下所示: curl -s \ "htt
是否可以分享Solr fieldType s 定义于 schema.xml多核之间? 我在 Solr 中有许多核心,发现自己正在重新定义 fieldType s 仅基于内置过滤器和分词器。例如
我想通过命令停止 solr 所以如果找到这篇文章 http://rc98.net/solrinit echo "Stopping Solr" cd $SOLR_DIR
我想用守护进程运行 solr。我在另一篇文章中看到有一个可以运行的 init.d 脚本,但它在我的 ubuntu 环境中似乎有问题。每当我尝试使用/etc/init.d/solr start 运行脚本
我有一个 solr 搜索返回上下文突出显示结果,显示网址和电子邮件,句点后带有空格 - 例如“www.google.com”或“email@google.com”无论如何要关闭它,以便它们正常显示?谢
我遇到了一个问题,其中一个列是多值的。例如:值可以是 (11,22) (11,33) (11,55) , (22,44) , (22,99) 我想执行一个分组操作,它将产生: 11 : 计数 3 22
这个问题在这里已经有了答案: How to select distinct field values using Solr? (6 个回答) 6年前关闭。 我有如下 solr 索引数据 7920
背景 使用 Solr 4.0.0。我已经索引了一组示例文档的文本并启用了术语向量,因此我可以使用快速向量突出显示 为了突出显示,我正在使用带有句子边界的 Break Iterator Boundar
题 我在哪里可以找到一个完整的示例,该示例展示了从索引文档到检索搜索结果的分层分面搜索是如何工作的? 我的研究到目前为止 Stackoverflow 有一些帖子,但它们都只针对分层分面搜索的某些方面;
我正在尝试开始使用 Apache Solr,但有些事情我不清楚。通读tutorial ,我已经设置了一个正在运行的 Solr 实例。我感到困惑的是 Solr 的所有配置(架构等)都是 XML 格式的。
我将以下文档存储在 Solr 中: doc { id: string; // this is a unique string that looks like an md5 result
我有一个关于在 solr 中创建嵌套字段的可能性的问题。 谷歌搜索告诉我一些关于组的信息,但我认为它只是为了结果? 我想要的是这样的结构: 类别1 项目 1 (9) 项目 2 (8) 类别2 项目 3
我是一名优秀的程序员,十分优秀!