gpt4 book ai didi

elasticsearch - stormcrawler:indexer.md.mapping-如果元数据标记不存在会发生什么?

转载 作者:行者123 更新时间:2023-12-03 01:30:00 25 4
gpt4 key购买 nike

Stormcrawler 1.13出现了一个奇怪的问题。在我们的某些(但不是全部)网站上,我们有一个<meta name="college" content="thiscollege"/>标记,而SC的indexer.md.mapping设置为- parse.college=college。对于设置了该元标记的网站,这似乎可以正常工作。

我们遇到的问题是,如果将页面3.html,4.html和5.html的metatag设置为thiscollege1,则搜寻器将找到没有meta标签的page25.html,这似乎是重新使用来自5.html的meta标记的值thiscollege1并将其填充到Elastic索引的college字段中。

有没有一种方法可以设置该变量,以使该变量在每次转到新页面时都将其清零或取消设置,以使该变量不会被继承?

任何有关如何调整此设置的建议将不胜感激!

追逐问题一直是个麻烦,因为某些记录似乎只包含随机条目。直到我将记录与某些状态记录(按NextFetchDate排序)进行匹配,我才发现它可能是一个结转变量。我将尝试只用几页来建立一个特定的测试来专门证明/反驳该理论,但是现在这是唯一适合所发生的事情的方法。

任何想法欢迎!

最佳答案

仅当您在config metadata.transfer的值中列出parse.college时,才应该发生这种情况。

关于elasticsearch - stormcrawler:indexer.md.mapping-如果元数据标记不存在会发生什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56469827/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com