- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
有许多单词被连字符或空格分隔,但通常用作一个单词。
例如:篮球或篮球可以写成篮球。
现在当我索引为句子时,说:"Hey dude, I played basket ball yesterday".
现在我尝试查询 "basketball"
[没有双引号]..
在这种情况下,或者反之亦然,(索引 basketball
和查询 basket ball
)我不会得到任何结果。有没有办法直接或间接解决这个问题?Edit:
我举的例子只是为了说明问题。在我的实际应用场景中,我将索引和搜索 ID。
如果我索引:011 12345,
我应该可以使用 01112345 查询它。
提前致谢。
最佳答案
连字符不是这里的问题,假设您使用的是诸如连字符之类的标记的 StandardTokenizer 之类的东西,那么搜索“basket ball”的用户将匹配原始文本“Basket-Ball”(以及vica-versa),所以没有有问题。
问题是在两个词和一个词等价物之间进行,例如“篮球”和“篮球”。你基本上需要处理同义词 (例如夹克/外套或在您的情况下篮球/“篮球”)。
您可以通过自己创建等效单词列表或使用像 WordNet 这样的字典来克服这个问题。 ,并用每个术语的同义词补充索引或搜索。 Solr 有一个 SynonymFilter您可能可以利用(另请参阅 here )。
编辑:
这是我不久前写的一个非常基本的同义词过滤器的代码。同义词没有具体化,但您可以轻松地自己添加。
public class SynonymFilter extends TokenFilter {
private static final Logger log = Logger.getLogger(SynonymFilter.class);
private Stack<Token> synStack = new Stack<Token>();
static CharArrayMap<String[]> synLookup = new CharArrayMap<String[]>(5, true);
static {
synLookup.put("basketball".toCharArray(), new String[]{"basket ball"});
synLookup.put("trainer".toCharArray(), new String[]{"sneaker"});
synLookup.put("burger".toCharArray(), new String[]{"hamburger"});
synLookup.put("bike".toCharArray(), new String[]{"bicycle", "cycle"});
}
// TODO reverse map all the syns to each other e.g. sneaker to trainer
protected SynonymFilter(TokenStream input) {
super(input);
}
@Override
public Token next(Token reusableToken) throws IOException {
if (synStack.size() > 0)
return synStack.pop();
Token nextToken = input.next(reusableToken);
if (nextToken != null) {
addSynonyms(nextToken);
}
return nextToken;
}
private void addSynonyms(Token nextToken) {
char[] word = Arrays.copyOf(nextToken.termBuffer(), nextToken.termLength());
String[] synonyms = synLookup.get(word);
if (synonyms != null) {
for (String s : synonyms) {
if (!equals(word, s)) {
char[] chars = s.toCharArray();
Token synToken = new Token(chars, 0, chars.length, nextToken.startOffset(), nextToken.endOffset());
synToken.setPositionIncrement(0);
synStack.add(synToken);
log.info("Found synonym: " + s + " for: " + new String(nextToken.term()));
}
}
}
}
public static boolean equals(char[] word, String subString) {
return equals(word, word.length, subString);
}
public static boolean equals(char[] word, int len, String subString) {
if (len != subString.length())
return false;
for (int i = 0 ; i < subString.length(); i++) {
if (word[len - i - 1] != subString.charAt(subString.length() - i - 1))
return false;
}
return true;
}
}
关于java - 带连字符的 Lucene 索引/查询策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4931589/
作者:小林coding 计算机八股文网站:https://xiaolincoding.com 大家好,我是小林。 今天跟大家聊聊,常见的缓存更新策略。 Cache Aside(旁路缓存)策略; Rea
我使用 git 多年,最近为了一个项目改用 mercurial。在过去的 6 个月里,我已经学会了如何通过命令行很好地使用 Mercurial。 这可能是我的想象,但在我看来,mercurial 在
这个问题适合任何熟悉的人 Node.js express Passport 带有 Passport 的 JWT 身份验证(JSON Web token ) Facebook OAuth2.0 或谷歌
在 Coq 中,当试图证明记录的相等性时,是否有一种策略可以将其分解为所有字段的相等性?例如, Record R := {x:nat;y:nat}. Variables a b c d : nat.
我正在处理的项目目前只有一个 Bootstrap 文件,用于初始化应用程序中的所有 javascript 对象。类似于下面的代码 if(document.getElementById('nav'))
我正在考虑使用 OpenLDAP 在首次登录时添加密码到期和强制更改密码。 似乎使用 ppolicy 覆盖来实现这一点。 当我在 ppolicy.schema 中看到这个时,我开始使用 ppolicy
这基本上是我昨天问的一个问题的重新陈述,因为我得到的一个答案似乎没有理解我的问题,所以我一定是不清楚。我的错。 因为 WPF 依赖于 DirectX,所以它对卡和驱动程序的内部非常敏感。我有一个案例,
我是单点登录(SSO)概念的新手。我开始知道 SAML 请求和响应是实现 SSO 流程的最佳方式。然后我开始阅读有关 SAML2.0 的信息。我来了一个术语 NameIdPolicy 在 saml1.
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
在 Azure 上创建新的 SQL 数据库时,它将“计算+存储”选项设置为“2 vCore + 32GB 数据最大大小”作为默认配置,但我不想使用 vCore,我可以更改它。但问题是,是否可以通过策略
我希望创建一项策略,防止在未启用身份验证的情况下创建应用服务(仅审核它们是不够的)。 以下策略可以正确识别未启用身份验证的现有资源: { "mode": "All", "policyRule"
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错,但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错,但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
我正在使用 wunderground 的 json api 来查询我网站上的天气状况。 api 为我提供了一个包含所有必要数据的漂亮 json 对象,但我每天只能进行多次调用。存储这些数据的首选方式是
我有一个名为可视化数据结构的项目。我有这样的 OOP 设计。 Class VisualDataStructures extends JFrame Class ControlPanel extends
这个问题在这里已经有了答案: 关闭 14 年前。 副本: Use javascript to inject script references as needed? Javascript 没有任何指
Android 应用程序遇到了一些 ANR 问题,因此我实现了 StrictMode 策略。以前从未使用过这个,所以希望有人可以帮助解释以下内容: 为什么日志显示 2 个看似相似的违规行为,除了前 4
我目前正在尝试解决一个问题。假设我们在路上行驶,我们知道路上有 10 家酒店。每家酒店都有 0 到 6 星。我的问题是:找到选择星级酒店的最佳解决方案。唯一的问题是:您不能回头去参观您已经决定不去的酒
我正在将我的应用程序迁移到 MVP。从这个 konmik 中获得了有关静态演示者模式的提示 这是我的简要 MVP 策略。为简洁起见,删除了大部分样板和 MVP 监听器。这个策略帮助我改变了方向,证明了
我是一名优秀的程序员,十分优秀!