gpt4 book ai didi

solr - 如何使用 Solr 的 FileListEntityProcessor 在搜索结果中显示文件名

转载 作者:行者123 更新时间:2023-12-04 14:42:32 41 4
gpt4 key购买 nike

我正在尝试扫描目录中的所有 pdf/doc 文件。这很好用,我可以扫描所有文档。

接下来我要尝试做的也是在搜索结果中接收文件的文件名。但是文件名永远不会出现。我尝试了几件事,但文档对如何执行此操作不是很有帮助。

我正在使用在 solr 发行版中找到的 solr 配置:apache-solr-3.1.0/example/example-DIH/solr/tika/conf

这是我的数据配置:

<dataConfig>
<dataSource type="BinFileDataSource" name="bin"/>
<document>
<entity name="f" processor="FileListEntityProcessor" recursive="true"
rootEntity="false" dataSource="null" baseDir="C:/solrtestsmall"
fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)" onError="skip">

<entity name="tika-test" processor="TikaEntityProcessor"
url="${f.fileAbsolutePath}" format="text" dataSource="bin"
onError="skip">
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="text"/>
</entity>

<field column="fileName" name="fileName"/>
</entity>
</document>
</dataConfig>

我感兴趣的是如何正确配置它,以及我可以找到特定文档的任何其他地方。

最佳答案

您应该在列中使用文件而不是文件名

<field column="file" name="fileName"/>

不要忘记将“fileName”添加到字段部分的 schema.xml。

<field name="fileName" type="string" indexed="true" stored="true" />

关于solr - 如何使用 Solr 的 FileListEntityProcessor 在搜索结果中显示文件名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5990190/

41 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com