gpt4 book ai didi

elasticsearch - 用于同一文本的多个版本的Elasticsearch模式

转载 作者:行者123 更新时间:2023-12-02 22:40:56 25 4
gpt4 key购买 nike

我正在使用一个系统,该系统可以从各种新闻站点下载文章,并对文本进行各种NLP分析。我想存储每篇文章的多个版本和各个方面,包括

  • 原始HTML
  • 清理后的纯文本版本
  • 文章的CoreNLP输出。

    由于我想将纯文本版本存储在Elasticsearch上,因此我考虑将其他所有内容也存储在Elasticsearch上。我没有Elasticsearch的经验,所以我无法告诉您哪种更好的存储方式:
  • 每篇文章有一条记录,其中HTML,文本和CoreNLP输出作为该文章的属性:{html: '....', text: '....', CoreNLP: '....'}
  • 将每种类型的信息以其自己的类型存储:/articles/html/1/articles/text/1/articles/corenlp/1等...

  • 哪个更常见?还有第三种更好的选择吗?

    最佳答案

    取决于您要在哪里进行COreNLP,html整理等。如果您想 flex 执行此操作,我将使用多字段类型:

    https://www.elastic.co/guide/en/elasticsearch/reference/0.90/mapping-multi-field-type.html

    如果您是在 flex 之外进行的,这是不常见的,因为这对 flex 是一件好事,则可以使用多字段方法。

    关于elasticsearch - 用于同一文本的多个版本的Elasticsearch模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30718752/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com