gpt4 book ai didi

amazon-web-services - ElasticSearch在pdf文档中搜索内容

转载 作者:行者123 更新时间:2023-12-03 02:12:04 24 4
gpt4 key购买 nike

我正在利用AWS Lex chatbotElasticSearch进行一个项目。我的目标是解析查询,目的是搜索单个pdf文档并提取一些相关信息。
我的印象是ElasticSearch可以实现,尽管我的研究遇到了障碍。我了解ElasticSearch具有索引文档的功能,但是这似乎仅限于为实际文件建立索引以搜索与查询匹配的文件。我希望在PDF文档中找到实际内容,并尝试根据查询提取一些内容。这可能吗?

最佳答案

Elasticsearch无法直接索引PDF。您可以提取PDF的文本,对其进行索引,然后照常进行查询。 Apache Tika“从超过一千种不同的文件类型(例如PPT,XLS和PDF)中检测并提取元数据和文本。”
您可以将Tika作为Docker容器运行:docker-tikaserver
要为PDF编制索引,请将您的数据发送到Tika(例如,以可通过http:// tika:9998访问的docker容器运行),获取文本并为其编制索引:

doc = {...} # other content to index
try:
# open PDF and read contents into data
# send content to tika to extract text
doc["content"] = requests.put("http://tika:9998/tika", data=data).text
es.index(index="my-index", id=doc["id"], body=doc))
except Exception as e:
log.error("error extracting text: %s", e)

关于amazon-web-services - ElasticSearch在pdf文档中搜索内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64467285/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com