gpt4 book ai didi

tomcat - 关于 Web 应用程序中的 robots.txt 文件

转载 作者:行者123 更新时间:2023-11-28 22:44:09 25 4
gpt4 key购买 nike

我正在使用 Tomcat 5.5 服务器并且部署了一个 Web 应用程序。我想阻止访问我项目中的 .txt 文件的 http 请求。例如像这样的 http url—— https://MyDomain/inside/mytest.txt

我认为这可以使用 web.xml 文件中的安全约束或编写自定义阀来完成。但是,我正在探索使用 robots.txt 文件的可能性,因为它们看起来非常简单。所以我编写了一个 robots.txt 文件来阻止对 *.txt 文件的访问,如下所示 --

#走开用户代理: *不允许:/*.txt

我已经把它放在 ROOT 文件夹中,也放在 webapps 文件夹内的所有路径中。但是,它似乎没有任何效果,我仍然能够访问 *.txt 文件。 robots.txt 文件在 Tomcat 中生效是否需要任何其他注意事项和步骤?非常感谢这里的任何帮助。

最佳答案

robots.txt 是 Web Robots(例如搜索引擎网络爬虫)遵循的约定,它起作用是因为 Web Robot 查看此文件并遵守它在其中找到的规则.参见 http://www.robotstxt.org/特别是http://www.robotstxt.org/robotstxt.html获取更多信息。

请注意,它并不是一种安全措施 - 它只是一种咨询协议(protocol),任何行为不端的网络机器人都可以随意忽略它(因为服务器不执行其规则)。事实上,robots.txt 甚至不针对通常希望能够访问这些页面的人类用户。

如果您真的想阻止您的 Web 应用程序的所有用户(不仅仅是行为良好的自动网络爬虫)对文件的访问,那么您将需要执行您提到的类似安全约束的操作。

另外几个选择:

  • 将文本文件放在 Web 应用程序的 WEB-INF/classes/ 文件夹中,因为此文件夹的内容永远不会提供给 Web 客户端,但可供 Web 应用程序使用例如,使用 ClassLoader.getResourceAsStream 对自身进行编码。

  • 将文本文件放在 Web 应用程序的 WEB-INF/ 文件夹中,因为此文件夹的内容永远不会提供给 Web 客户端,但可供 Web 应用程序代码本身使用例如,使用 ServletContext.getResourceAsStream

关于tomcat - 关于 Web 应用程序中的 robots.txt 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13834750/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com