gpt4 book ai didi

lucene - Solar CELL/Tika 输出的格式是什么?以及如何修复它?

转载 作者:行者123 更新时间:2023-12-01 06:44:48 24 4
gpt4 key购买 nike

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已经为文本启用了存储并检查了它。以下是示例 DOC 文件的结果:

, a mobile user interface (UI) software development company, based in Cambridge, UK. After integrating the company, Qualcomm re-branded their interface markup language and its accompanying integrated development environment (IDE) as HYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1" *\o "UiOne (page does not exist)" uiOne** . In March 2009, Qualcomm informed their Cambridge engineering staff, mostly from the division working on HYPERLINK "http://en.wikipedia.org



该文档包含来自 Wikipdia 的 Material 。我在 http://pastebin.com/8FL9eHJv 上捕获了完整输出

所以 Solr CEl/Tika 插入自己的格式,格式的结果显示在搜索输出中 .如何解决问题,以便搜索结果(文本片段)不包含格式?

谷歌搜索告诉我 TIKA 有几种输出格式,那是方法吗?或者有没有插件可以在渲染结果之前过滤文本?

相关详情 : 我的配置是 现货 :
我的上传命令是 python 的变体

curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"



我的 schema.xml http://pastebin.com/VLz2uuDQ

我的 SolrConfig.xml http://pastebin.com/X2J2jj64

最佳答案

您是否在询问搜索结果中的额外超链接项。如果是,请尝试将 solrconfig.xml 中的提取请求句柄更新为

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

关于lucene - Solar CELL/Tika 输出的格式是什么?以及如何修复它?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6765855/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com