gpt4 book ai didi

sharepoint - MOSS 2007 抓取

转载 作者:行者123 更新时间:2023-12-03 16:34:28 24 4
gpt4 key购买 nike

我正在尝试让 crawl 在我拥有的两个独立农场上工作,但无法让它在任何一个农场上工作。它们都有两个 WFE,另外一个 WFE 配置为索引服务器。还有一台专用于查询的服务器和两台用于数据库的集群 SQL 2005 后端服务器。我尝试了至少 50 个不同的网站,但都没有成功,这些网站是我通过搜索引擎找到的解决方案。我已配置(扩展)我的 Web 应用程序以使用 http://servername:12345作为默认区域和 http://abc.companyname.com作为自定义区域和 Intranet 区域。当我将其中的每一项输入到内容源中,然后尝试运行爬网时,我在爬网日志中收到了一些错误:

http://servername:12345返回:
“无法连接到服务器。请确保该站点可以访问。”

http://abc.companyname.com返回:
“已被收集者删除。(包含该项目的起始地址或内容源已被删除,因此该项目已被删除。)”

但是,我可以同时单击两个 URL,并且可以访问该页面。

有什么想法吗?


更多信息:

可以这么说,我擦干净了石板,然后又进行了一次抓取以提供更新的示例。

我的内容来源是这样的:

http://servername:33333
http://sharepoint.portal.fake.com
sps3://服务器名:33333

我当前的抓取日志错误是:

sps3://服务器名:33333
PortalCrawl Web 服务出错。

http://servername:33333/mysites
由于无索引属性,此 URL 的内容被服务器排除。

http://servername:33333/mysites
已抓取

sts3://服务器名:33333/contentdbid={62a647a...
已抓取

sts3://服务器名:33333
已抓取

http://servername:33333
已抓取

http://sharepoint.portal.fake.com
Crawler 无法与服务器通信。检查服务器是否可用以及防火墙访问配置是否正确。

我仔细检查了上面的拼写错误,但没有看到任何拼写错误,所以这应该是一个准确的反射(reflect)。

最佳答案

要记住的一点是,爬网 SharePoint 网站不同于爬网文件共享或非 SharePoint 网站。

其他一些快速提示:

  • sps3: 协议(protocol)用于为人物搜索抓取用户个人资料。在准备好用户个人资料之前,您可以忽略爬虫所说的任何内容。
  • 您的爬网帐户应该可以访问您的整个农场。如果您看到权限错误,请查找告诉您如何重置爬网帐户的知识库文章(这是一个特定的 stsadm.exe 命令)。如果您尝试抓取另一个场的内容,则必须采取其他措施来授予您的抓取帐户访问权限。我认为这是您目前最大的问题。
  • 爬虫(从索引服务器运行)将尝试访问公共(public) URL。我以前遇到过服务器间通信问题;确保三台服务器都可以相互ping通,并确保索引服务器可以访问公共(public)URL(在索引服务器上打开IE查看)。如果遇到问题,是时候清理索引服务器的主机文件了。无论如何,这是 SharePoint 为您做的事情,所以不要觉得这样做太糟糕。如果您设置了除集成 Windows 身份验证之外的任何设置,则您将需要更加努力地工作才能让您的爬网程序正常工作。

无论如何,回复中有很多来回,所以我只是随便提出了一堆建议,也许其中一个是中肯的。

关于sharepoint - MOSS 2007 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/101182/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com