- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将 lucene tokenizer 迁移到 apache solr。我已经为 lucene 上的每个字段类型(如标题、正文等)编写了 TokenizerFactory 。在lucene中,有一种方法可以添加TokenStream到文档中的字段。在 solr 中,我们必须制作自定义分词器/过滤器才能与 lucene 一起工作。我在给定领域遇到问题,我已经研究了许多博客和书籍,但它们无法解决我的问题。在大多数博客和书籍中,他们都使用 string,int 直接表示字段类型。
我已经为 apache solr 构建了自定义 TokenFilterFactory 并放置在我的 schema.xml 中,如下所示
<fieldType name="text_reversed" class="solr.TextField">
<analyzer>
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="analyzer.TextWithMarkUpTokenizerFactory"/>
<filter class="analyzer.ReverseFilterFactory" />
</analyzer>
当我尝试在 solr 上索引文档时
TextWithMarkUp textWithMarkUp = //get from method
SolrInputDocument solrInputDocument = new SolrInputDocument();
solrInputDocument.addField("id", new Random().nextDouble());
solrInputDocument.addField("title", textWithMarkUp);
在 Apache Solr 管理面板上结果将如下所示
{
"id":"0.4470506508669744",
"title":"com.xyz.data:[text = Several disparities are highlighted in the new report:\n\n74 percent of white male students said they felt like they belonged at school., tokens.size = 24], tokens = [Several] [disparities] [are] [highlighted] [in] [the] [new] [report] [:] [74] [percent] [of] [white] [male] [students] [said] [they] [felt] [like] [they] [belonged] [at] [school] [.] ",
"_version_":1607597126134530048
}
我无法在自定义 TokenStream 上获取 textWithMarkUp 实例,这将阻止我像之前使用 lucene 那样展平给定对象。在 lucene 中,我曾经在创建自定义 TokenStream 实例后设置 textWithMarkUp 实例。下面是我的 textWithMarkUp 实例的 json 版本
{
"text": "The law, which was passed by the Louisiana Legislature and signed by Gov.",
"tokens": [
{
"category": "Determiner",
"canonical": "The",
"ids": null,
"start": 0,
"length": 3,
"text": "The",
"order": 0
},
//tokenized/stemmed/tagged all the words
],
"abbreviations": [],
"essentialTokenNumber": 12
}
以下代码是我想要做的
public class TextWithMarkUpTokenizer extends Tokenizer {
private final PositionIncrementAttribute posIncAtt;
protected int tokenIndex = -1; // index of the current token in the collection of metaQTokens
protected List<MetaQToken> metaQTokens;
protected TokenStream tokenTokenizer;
public TextWithMarkUpTokenizer() {
MetaQTokenTokenizer metaQTokenizer = new MetaQTokenTokenizer();
tokenTokenizer = metaQTokenizer;
posIncAtt = addAttribute(PositionIncrementAttribute.class);
}
public void setTextWithMarkUp(TextWithMarkUp text) {
this.markup = text == null ? null : text.getTokens();
}
@Override
public final boolean incrementToken() throws IOException {
//get instance of TextWithMarkUp here
}
private void setCurrentToken(Token token) {
((IMetaQTokenAware) tokenTokenizer).setToken(token);
}
}
我已经遵循了 TextWithMarkUpTokenizerFactory
类的所有实现,但是一旦我们在 solr 上的 lib 文件夹下加载了 jar,Solr 将完全控制工厂类。
那么有没有什么方法可以在 solr 索引期间设置给定实例?我研究过Update Request Processors 。无论如何,这可以解决我的问题吗?
最佳答案
Solr 搜索结果与索引系统收到的结果完全相同。这将是所有更新处理器处理后的原始输入。 Solr 默认使用的更新处理器链不会更改输入。
架构中定义的分析链对搜索结果绝对没有影响 - 它们只会影响索引时和查询时生成的标记。存储的数据不受分析的影响。
当您使用自定义对象执行“addField”时,很可能会调用以下 SolrJ 代码来确定要发送到 Solr 的内容。 (val是输入对象):
writeVal(val.getClass().getName() + ':' + val.toString());
这将创建一个字符串,其中包含类的名称,后跟该类的字符串表示形式。正如 MatsLindh 在评论中所说,SolrJ 对您的自定义对象一无所知,因此数据不会作为您的自定义对象类型到达 Solr。
关于java - 如何在 Apache Solr 中扁平化对象并应用于字段类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51632368/
我的一位教授给了我们一些考试练习题,其中一个问题类似于下面(伪代码): a.setColor(blue); b.setColor(red); a = b; b.setColor(purple); b
我似乎经常使用这个测试 if( object && object !== "null" && object !== "undefined" ){ doSomething(); } 在对象上,我
C# Object/object 是值类型还是引用类型? 我检查过它们可以保留引用,但是这个引用不能用于更改对象。 using System; class MyClass { public s
我在通过 AJAX 发送 json 时遇到问题。 var data = [{"name": "Will", "surname": "Smith", "age": "40"},{"name": "Wil
当我尝试访问我的 View 中的对象 {{result}} 时(我从 Express js 服务器发送该对象),它只显示 [object][object]有谁知道如何获取 JSON 格式的值吗? 这是
我有不同类型的数据(可能是字符串、整数......)。这是一个简单的例子: public static void main(String[] args) { before("one"); }
嗨,我是 json 和 javascript 的新手。 我在这个网站找到了使用json数据作为表格的方法。 我很好奇为什么当我尝试使用 json 数据作为表时,我得到 [Object,Object]
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我听别人说 null == object 比 object == null check 例如: void m1(Object obj ) { if(null == obj) // Is thi
Match 对象 提供了对正则表达式匹配的只读属性的访问。 说明 Match 对象只能通过 RegExp 对象的 Execute 方法来创建,该方法实际上返回了 Match 对象的集合。所有的
Class 对象 使用 Class 语句创建的对象。提供了对类的各种事件的访问。 说明 不允许显式地将一个变量声明为 Class 类型。在 VBScript 的上下文中,“类对象”一词指的是用
Folder 对象 提供对文件夹所有属性的访问。 说明 以下代码举例说明如何获得 Folder 对象并查看它的属性: Function ShowDateCreated(f
File 对象 提供对文件的所有属性的访问。 说明 以下代码举例说明如何获得一个 File 对象并查看它的属性: Function ShowDateCreated(fil
Drive 对象 提供对磁盘驱动器或网络共享的属性的访问。 说明 以下代码举例说明如何使用 Drive 对象访问驱动器的属性: Function ShowFreeSpac
FileSystemObject 对象 提供对计算机文件系统的访问。 说明 以下代码举例说明如何使用 FileSystemObject 对象返回一个 TextStream 对象,此对象可以被读
我是 javascript OOP 的新手,我认为这是一个相对基本的问题,但我无法通过搜索网络找到任何帮助。我是否遗漏了什么,或者我只是以错误的方式解决了这个问题? 这是我的示例代码: functio
我可以很容易地创造出很多不同的对象。例如像这样: var myObject = { myFunction: function () { return ""; } };
function Person(fname, lname) { this.fname = fname, this.lname = lname, this.getName = function()
任何人都可以向我解释为什么下面的代码给出 (object, Object) 吗? (console.log(dope) 给出了它应该的内容,但在 JSON.stringify 和 JSON.parse
我正在尝试完成散点图 exercise来自免费代码营。然而,我现在只自己学习了 d3 几个小时,在遵循 lynda.com 的教程后,我一直在尝试确定如何在工具提示中显示特定数据。 This code
我是一名优秀的程序员,十分优秀!