google-search-appliance - 如何重新抓取具有错误状态的文档-6ren

google-search-appliance - 如何重新抓取具有错误状态的文档

转载作者：行者123 更新时间：2023-12-02 17:30:13

24

4

我们昨天遇到了一个问题，导致 gsa 抓取工具无法登录我们的网站进行抓取。因此，许多 URL 都被索引为登录页面。我在搜索页面上看到很多标题为“请登录”(登录页面的标题)的结果。此外，当我检查“索引诊断”时，这些 URL 的抓取状态为“正在重试 URL:在获取期间由对等方重置连接。”。

现在登录问题已解决，一旦重新抓取页面，抓取状态就会变为成功，并且它正在获取页面内容，并且搜索结果会以正确的标题显示。但由于我无法控制什么是正在抓取中，有些页面尚未重新抓取，仍然存在问题。

没有一个统一的 URL 可以让我强制重新抓取。因此我的问题是:有没有办法根据抓取状态强制重新抓取(“重试 URL:在获取期间由对等方重置连接。”)？如果具体来说，如何根据抓取状态类型(错误/成功/排除)重新抓取？

最佳答案

使用“Index> Diagnostics >”将所有错误 URL 导出为 csv 文件索引诊断”
打开 CSV 并对抓取状态列应用过滤器并获取具有以下内容的网址您正在寻找的错误。
复制这些网址并转到“内容源 > 网页抓取 > 新鲜度” 调整>重新抓取这些 URL 模式”并粘贴并单击“重新抓取”

就是这样。你完成了!

PS:如果错误网址较多(>10000，如果我没记错的话)，您可能无法在单个 csv 文件中获取所有这些错误网址。在这种情况下，您可以批量执行。

问候，

莫罕

关于google-search-appliance - 如何重新抓取具有错误状态的文档，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31325983/

24

4

0

文章推荐：用于获取 TFS 集合/项目列表的 PowerShell 脚本

文章推荐： version-control - SCM中标签的正确使用

appliance - 是否可以编写基于 Windows 的设备？
开源社区正在生产大量的软件设备，因为他们能够分发操作系统，基本上是免费的。因此，您可以非常轻松地下载应用程序的虚拟镜像并在几分钟内运行它，而无需进行配置和设置。这对于降低设置和配置成本以及为客户提供演
google-search-appliance - 如何重新抓取具有错误状态的文档
我们昨天遇到了一个问题，导致 gsa 抓取工具无法登录我们的网站进行抓取。因此，许多 URL 都被索引为登录页面。我在搜索页面上看到很多标题为“请登录”(登录页面的标题)的结果。此外，当我检查“索引诊
search - Apache Lucene与Google Search Appliance
有没有人遇到过Apache Lucene的功能？我听说它甚至可以与Google Search Appliance(GSA)相提并论。我正在寻找两者之间的明确比较，如果可能的话？在线上进行的比较非常模
database - Google Search Appliance 数据库供稿
我是第一次为工作设置 GSA 盒子。我已经建立了与成功抓取所有行的数据库的连接(用于人员搜索)。然后它为我创建了一个提要，但总是返回“错误失败”，并在日志中显示以下内容: ProcessNode: D
file - 如何在 Google Search Appliance 上搜索多种文件类型
我想一次搜索多种文件类型。例如，当我想搜索“.htm”文件时，我将“filetype:htm”添加到查询中，效果很好。同样，“filetype:html”也有效。但是，如何指定返回所有 htm 和 h
xslt - 在 Google Search Appliance 中更改结果标题
出于各种原因，我非常希望能够在 Google Mini 的搜索结果中将文件名显示为结果标题，而不是默认的。我几乎可以通过替换来做到这一点 ...
search - Google Search Appliance (GSA) 的替代软件
我对在(大型)大学环境中使用的 Google Search Appliance (GSA) 的软件替代品感兴趣。有没有人从 GSA 迁移到替代解决方案的经验？如果是这样，这样做的原因是什么(技术、财务
hyperlink - Google Search Appliance 能否生成一份报告，显示您网站上的损坏链接？
我知道 Google Search Appliance 可以访问此信息(因为这会影响 PageRank 算法)，但是有没有办法从抓取工具设备导出此信息？外部工具不起作用，因为很大一部分内容用于公司内
.net - 将 Google Search Appliance 结果实现到网站中
我有兴趣了解人们将 Google Search Appliance 的搜索结果实现到现有网站的首选方法或途径。更具体地说，人们喜欢如何将搜索结果实现/嵌入到他们现有的网站中，并在搜索结果周围保留周围的
java - Google Search Appliance Feed 错误
根据以下文档，我解析并构建了包含用于馈送的元标记的 xml 文件。 https://www.google.com/support/enterprise/static/gsa/docs/admin/72
java - Google Search Appliance 查询请求返回 502
在我的 Java 项目中，我使用 GSA Java API作为查询和获取搜索结果的助手。根据API文档，我相信我已经按照书本做了所有正确的事情。为了测试我的第一个搜索操作，我构造了以下 URL URL
javascript - 将搜索重定向到 Google Search Appliance 结果页面
我有一个带有搜索按钮的主页，当前可将用户引导至 Google 的通用 Search Appliance (GSA) 结果页面，但我希望将结果包装到自定义 HTML 页面中，而不使用 XSLT。我浏览
google-search-appliance - GSA 在没有 q 参数的情况下获取集合中的最新结果
我正在尝试将最新结果插入主页上的集合(按数据排序)中。我没有“q”参数，因为用户尚未在主页中进行搜索。那么，有办法做到这一点吗？也许是一个特殊字符，我在文档中没有找到任何内容。最佳答案您可以利用
mysql - Google Search Appliance 索引 MySQL 数据库
我们正在运行 GSA 7.2.0.G.114 尝试从 MySQL DB 获取数据。然而 Connector 4.1.0 仅支持● Oracle 11g● 微软SQL Server 2008我们无法使用
css - 显示问题 IE9 和 Google Search Appliance
在我们的 Google Search Appliance 上使用 IE9 或更低版本时，内容无法正确显示。太糟糕了，网站无法使用。看起来 css 没有被应用。如果我使用 FF 或 Chrome，或 I
comparison - FAST ESP 与 Google Search Appliance 的开发
两者中的哪一个提供了更好的 API 以进行开发？虽然有一个虚拟的 Google Search Appliance 可供下载，但 FAST 没有这样的等效项。因此，希望在这些产品中具有经验的开发人员
google-analytics - GA 不跟踪 Google Search Appliance 的子域
我一直在使用 Urchin 6，但也刚刚开始使用 Google Analytics。我也在使用 Google Search Appliance 进行网站搜索。搜索位于子域上，即 www.search
mediawiki - 如何让 MediaWiki 忽略来自 Google Search Appliance 的页面浏览量？
每个 MediaWiki 上的页面查看计数器页面似乎是识别流行页面的好方法，这些页面值得付出更多努力来保持最新和有用，但我遇到了问题。我们使用Google Search Appliance索引我们的
search - Elastic Search 和 Google Search Appliance 页面排名之间的区别
Elasticsearch 中的页面排名是如何工作的。一旦我们创建了一个索引，就会有一个底层智能层创建一个元数据存储库并提供结果以根据相关性进行查询。我已经创建了几个索引，我想知道在提供查询后结果是如
ssl - 没有数字证书的 Google Search Appliance 可以扫描启用了 SSL 的站点吗？
已在网站上启用 HTTPS，但 Google Search Appliance 现在无法抓取或访问该网站。我的技术团队无法弄清楚问题出在哪里，我也无法找到确定的解决方案。您可以提供的任何帮助将不胜感激

首页

博学

6Ren·AI

商城

google-search-appliance - 如何重新抓取具有错误状态的文档