gpt4 book ai didi

google-search-appliance - 如何重新抓取具有错误状态的文档

转载 作者:行者123 更新时间:2023-12-02 17:30:13 24 4
gpt4 key购买 nike

我们昨天遇到了一个问题,导致 gsa 抓取工具无法登录我们的网站进行抓取。因此,许多 URL 都被索引为登录页面。我在搜索页面上看到很多标题为“请登录”(登录页面的标题)的结果。此外,当我检查“索引诊断”时,这些 URL 的抓取状态为“正在重试 URL:在获取期间由对等方重置连接。”。

现在登录问题已解决,一旦重新抓取页面,抓取状态就会变为成功,并且它正在获取页面内容,并且搜索结果会以正确的标题显示。但由于我无法控制什么是正在抓取中,有些页面尚未重新抓取,仍然存在问题。

没有一个统一的 URL 可以让我强制重新抓取。因此我的问题是:有没有办法根据抓取状态强制重新抓取(“重试 URL:在获取期间由对等方重置连接。”)?如果具体来说,如何根据抓取状态类型(错误/成功/排除)重新抓取?

最佳答案

  1. 使用“Index> Diagnostics >”将所有错误 URL 导出为 csv 文件索引诊断”

  2. 打开 CSV 并对抓取状态列应用过滤器并获取具有以下内容的网址 您正在寻找的错误。

  3. 复制这些网址并转到“内容源 > 网页抓取 > 新鲜度” 调整>重新抓取这些 URL 模式”并粘贴并单击“重新抓取”

就是这样。你完成了!

PS:如果错误网址较多(>10000,如果我没记错的话),您可能无法在单个 csv 文件中获取所有这些错误网址。在这种情况下,您可以批量执行。

问候,

莫罕

关于google-search-appliance - 如何重新抓取具有错误状态的文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31325983/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com