gpt4 book ai didi

php - 允许搜索引擎索引文档,但只允许付费成员(member)访问。可能的?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:39:07 25 4
gpt4 key购买 nike

我正在创建一个网站,该网站的管理员上传文件仅供网站的付费成员(member)使用。但我想要的是搜索引擎抓取或索引文档,以便它出现在搜索引擎搜索结果中。文档包括DOC、DOCX和PDF。

例如,我有一个包含以下文本的文档:“敏捷的棕色狐狸跳过了懒惰的狗”。现在有人谷歌的“棕色狐狸”。假设我有排名,我希望结果出现在 Google 结果中。当用户点击它时,我希望用户登陆一个页面,而不是文档,其中有一个文本预览和一个链接,可以成为成员(member)查看完整文档。

我计划在上传文档时将页面上的文档预览保存到数据库中。因此它很容易看到并且可以抓取。对于全文,我只能想办法让全文被抓取。但我认为,如果我允许搜索引擎进行抓取,那么我也会向用户授予访问权限。如果我使用 htaccess 来防止文档被直接访问,那么我也将爬虫拒之门外。

我也考虑过提取所有文档文本并将其放入数据库中,但我在某处读到很难区分用户和蜘蛛,使用用户代理是个坏主意,因为它很容易被欺骗.

所以我很困惑我应该怎么做。任何帮助将不胜感激。提前致谢!

最佳答案

不,不可能。任何用户都可以通过更改其 User-Agent 伪装成搜索引擎。

您可以执行基于 IP 地址的限制或基于启发式的检测,但您可能会不小心阻止抓取工具。

也许您应该为用户提供每天一定数量的免费页面浏览量,或者考虑采用不同的货币化方法。

关于php - 允许搜索引擎索引文档,但只允许付费成员(member)访问。可能的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9074413/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com