gpt4 book ai didi

java - 如何防止 solr 在索引时解码 url?

转载 作者:行者123 更新时间:2023-12-01 15:19:06 24 4
gpt4 key购买 nike

我正在使用 Solrj 在 Solr 中索引文档,其中一个字段是 url。在创建 solr 文档并随后将其传递到 SolrServer 时,我没有进行任何显式解码,以保持 url 的原始格式。但是,一旦被索引,网址就会被解码。

这是一个包含撇号的测试示例。


http://test.com/test/Help/What%e2%80%99s_N1

在 solr 索引中,它被解码为


http://test.com/test/Help/What's_N1

这是一个示例代码:


SolrServer solrServer = new StreamingUpdateSolrServer(solrPostUrl, solrQueueSize, solrThreads);
SolrInputDocument solrDoc = new SolrInputDocument();
solrDoc.addField("url", "http://test.com/test/Help/What%e2%80%99s_N1");
UpdateResponse solrResponse = solrServer.add(solrDoc);

我查看了 SolrInputDocument 对象,它确实具有正确的格式,即编码版本。

如果有人能提供这方面的指示,我将不胜感激。

谢谢

最佳答案

我认为这是因为你的标记器

A good general purpose tokenizer that strips many extraneous characters and sets token types to meaningful values. Token types are only useful for subsequent token filters that are type-aware of the same token types. There aren't any filters that use StandardTokenizer's types.

关于标准Tokenizer

看看here

您可以在 solr/schema.xml 中更改所有这些行为

关于java - 如何防止 solr 在索引时解码 url?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11221019/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com