gpt4 book ai didi

robots.txt - robots.txt 的伦理

转载 作者:行者123 更新时间:2023-12-03 08:45:38 28 4
gpt4 key购买 nike

关闭。这个问题是opinion-based .它目前不接受答案。












想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它.

8年前关闭。




Improve this question




我有一个严肃的问题。忽略网站上存在 robots.txt 文件是否合乎道德?这些是我想到的一些考虑因素:

  • 如果有人建立一个网站,他们会期待一些访问。诚然,网络爬虫在不点击可能支持该网站的广告的情况下使用带宽,但网站所有者正在将他们的网站放在网络上,对,那么他们期望他们永远不会被机器人访问有多合理?
  • 一些网站显然使用 robots.txt 是为了防止他们的网站被 Google 或其他可能获取价格的实用程序抓取,从而让人们轻松进行价格比较。他们在网站上有私有(private)搜索引擎,因此他们显然希望人们能够搜索该网站;显然他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较。

  • 正如我所说,我不想争论。我只是想知道是否有人提出过在道德上允许忽略 robots.txt 文件的案例?我想不出允许忽略 robots.txt 的情况,主要是因为人们(或企业)花钱建立他们的网站,所以他们应该能够告诉世界上的谷歌/雅虎/其他 SE 他们不想在他们的索引上。

    为了把这个讨论放在上下文中,我想创建一个价格比较网站,其中一个主要供应商有一个 robots.txt,它基本上可以防止任何人抢他们的价格。我希望能够获得他们的信息,但正如我所说,我不能证明只是无视网站所有者的意愿。

    我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听关注 Stack Overflow 的开发人员的意见。

    顺便说一句,在 Hacker News question 上有一些关于这个话题的讨论。但他们似乎主要关注这方面的法律方面。

    最佳答案

    论据:

  • robots.txt 文件是一种默示许可,尤其是在您知道它的情况下。因此,继续抓取他们的网站可能会被视为未经授权的访问(即黑客攻击)。糟透了,但是最近在其他法律案件中也提出了这样的论点(与 robots.txt 没有直接关系,但与其他“被动控制”有关。)
  • 抢价格不违反版权法,包括 DMCA,因为版权不包括事实信息,只包括创意。
  • 从道德上讲,您不应该抢价格,因为供应商应该有能力更改价格,而不必担心被来自您网站的人指责为诱饵/转换。
  • 您是否走上正轨,向他们解释该网站并表示您希望将它们包括在您的供应商列表中?也许他们会喜欢这个想法,并以一种您易于使用且对他们来说生产资源较少的方式实际公开数据。
  • 没有直接写关于 robots.txt 的法律,因为一般都遵循网络礼节。不要成为“坏人”之一。
  • 有些人过滤机器人是因为他们使用 URL 链接来执行“操作”,比如将东西添加到购物车中,而机器人会在他们的数据库中留下大量废弃的购物车。
  • 有些人过滤机器人是因为他们有独家价格,他们不能根据与供应商的协议(protocol)公开宣传。通过在您的网站上公开这些价格,您可能会将它们置于不利位置。
  • 在这种经济环境下,如果一家公司不想尽一切可能为自己做广告,那么你不包括他们就是他们自己的错。
  • 关于robots.txt - robots.txt 的伦理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/999056/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com