gpt4 book ai didi

solr - 如何上载/索引丰富/结构化文本文档以使用ElasticSearch进行搜索?

转载 作者:行者123 更新时间:2023-12-02 22:52:06 25 4
gpt4 key购买 nike

我正在围绕包括Microsoft Word Docs,PowerPoint,PDF和文本文件在内的一系列文档构建搜索引擎。我已经成功下载并安装了ElasticSearch并使其运行(在命令提示符和浏览器-localhost:9200中可见)。

我可以上传和搜索手动输入的数据(可以在网上的一些教程中找到-例如http://www.elasticsearchtutorial.com/elasticsearch-in-5-minutes.html#Indexing)

现在,我需要使(大?)从搜索手动输入的数据跳转到搜索大型结构化文本文件库。我的问题是-我该如何上传/索引这些文档以使它们可用于我已经在运行的Elasticsearch实例。

我知道这可能太大了,无法在单个答复中回答-甚至指向工具或教程链接也会有所帮助。

版本:Windows 7,Elasticsearch 1.2.1

最佳答案

我会尝试使用Elasticsearch附件插件:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-attachment-type.html
https://github.com/elasticsearch/elasticsearch-mapper-attachments

Attachment Type

The attachment type allows to index different "attachment" type field (encoded as base64), for example, Microsoft Office formats, open document formats, ePub, HTML, and so on (full list can be found here).

The attachment type is provided as a plugin extension. The plugin is a simple zip file that can be downloaded and placed under $ES_HOME/plugins location. It will be automatically detected and the attachment type will be added.



它使用Apache Tika构建,并支持以下文件格式:

Supported Document Formats

  • HyperText Markup Language
  • XML and derived formats
  • Microsoft Office document formats
  • OpenDocument Format
  • Portable Document Format
  • Electronic Publication Format
  • Rich Text Format
  • Compression and packaging formats
  • Text formats
  • Audio formats
  • Image formats
  • Video formats
  • Java class files and archives
  • The mbox format


http://tika.apache.org/0.10/formats.html

它作为插件提供-如果您不熟悉插件架构,请在这里查看:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html

关于solr - 如何上载/索引丰富/结构化文本文档以使用ElasticSearch进行搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24169302/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com