У меня есть серьезный вопрос. Всегда ли этично игнорировать присутствие файла robots.txt на веб-сайте? Вот некоторые из соображений, которые я имел в виду:
-
Если кто-то ставит веб-сайт, они ожидают некоторых посещений. Конечно, веб-сканеры используют пропускную способность, не нажимая на объявления, которые могут поддерживать сайт, но владелец сайта размещает свой сайт в Интернете, правильно, так насколько разумно ожидать, что они никогда не будут посещаться ботом?
-
Некоторые сайты, по-видимому, используют файл robots.txt, чтобы не допустить, чтобы их сайт был сканирован Google или какой-либо другой утилитой, которая может захватить цены и, следовательно, позволит людям легко сравнивать цены. У них есть частные поисковые системы на сайте, поэтому они явно хотят, чтобы люди могли искать сайт; по-видимому, они просто не хотят, чтобы люди могли легко сравнивать свою информацию с другими поставщиками.
Как я уже сказал, я не пытаюсь спорить; Я просто хотел бы знать, если кто-нибудь когда-либо придумал случай, когда этично допустимо игнорировать присутствие файла robots.txt? Я не могу придумать случай, когда допустимо игнорировать файл robots.txt в основном потому, что люди (или предприятия) платят деньги за размещение своих веб-сайтов, чтобы они могли рассказать Googles/Yahoos/Other SE о мире, что они не хотят быть на своих показателях.
Чтобы обсудить это в контексте, я хотел бы создать сайт сравнения цен, и у одного из основных поставщиков есть файл robots.txt, который в основном не позволяет кому-либо ухватить их цены. Я хотел бы получить информацию, но, как я уже сказал, я не могу оправдать просто игнорирование пожеланий владельца сайта.
Я видел здесь очень резкую дискуссию и почему я хотел бы услышать мнения разработчиков, которые следуют за Stack Overflow.
Кстати, есть некоторые обсуждения этой темы на тему Hacker News, но они, как представляется, в основном фокусируются на юридических аспектах это.