gpt4 book ai didi

html - 如何在没有HTML的情况下在Elasticsearch中存储文档?

转载 作者:行者123 更新时间:2023-12-02 23:23:31 26 4
gpt4 key购买 nike

我想索引包含汉字/单词的文档。在某些字段中,还有一些HTML标记。

我使用“html_strip”来避免对HTML进行索引,但是我的问题是文档与HTML一起存储在elasticsearch中。这是我的索引设置和映射:

PUT test
{
"settings" : {
"index" : {
"number_of_shards" : 1,
"number_of_replicas" : 0
},
"analysis": {
"analyzer": {
"ch_analyzer": {
"tokenizer": "icu_tokenizer",
"char_filter": [ "html_strip" ]
}
}
}
},
"mappings": {
"qa": {
"properties": {
"comment_desc": {
"type": "text",
"analyzer": "ch_analyzer"
},
"article_title": {
"type": "text",
"analyzer": "ch_analyzer"
},
"article_desc": {
"type": "text",
"analyzer": "ch_analyzer"
}
}
},
"sport": {
"properties": {
"title": {
"type": "text",
"analyzer": "ch_analyzer"
},
"content": {
"type": "text",
"analyzer": "ch_analyzer"
}
}
}
}
}

例如,我具有以下内容:
"<p><br/>台灣人,奧運直播,使用PPStream,(PPS網路電視),觀看同步奧運實況</b>!"

实际上,它已被索引,但将按原样存储。

我应该对映射进行什么更改以删除 存储的文档中的HTML部分?
我怎样做才能将该文本存储在剥离了HTML组件的Elasticsearch中?

最佳答案

如果要在Elasticsearch上执行此操作(而不是作为预处理步骤),则必须使用ingest node。没有ingest processor可以完全满足您的要求,因此您必须使用脚本处理器或编写插件来完成此操作。

根据您的用例,在预处理步骤中进行此操作可能会更容易(使用您选择的语言编写代码)。

关于html - 如何在没有HTML的情况下在Elasticsearch中存储文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45914632/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com