Этика robots.txt

У меня есть серьезный вопрос. Всегда ли этично игнорировать присутствие файла robots.txt на веб-сайте? Вот некоторые из соображений, которые я имел в виду:

Если кто-то ставит веб-сайт, они ожидают некоторых посещений. Конечно, веб-сканеры используют пропускную способность, не нажимая на объявления, которые могут поддерживать сайт, но владелец сайта размещает свой сайт в Интернете, правильно, так насколько разумно ожидать, что они никогда не будут посещаться ботом?
Некоторые сайты, по-видимому, используют файл robots.txt, чтобы не допустить, чтобы их сайт был сканирован Google или какой-либо другой утилитой, которая может захватить цены и, следовательно, позволит людям легко сравнивать цены. У них есть частные поисковые системы на сайте, поэтому они явно хотят, чтобы люди могли искать сайт; по-видимому, они просто не хотят, чтобы люди могли легко сравнивать свою информацию с другими поставщиками.

Как я уже сказал, я не пытаюсь спорить; Я просто хотел бы знать, если кто-нибудь когда-либо придумал случай, когда этично допустимо игнорировать присутствие файла robots.txt? Я не могу придумать случай, когда допустимо игнорировать файл robots.txt в основном потому, что люди (или предприятия) платят деньги за размещение своих веб-сайтов, чтобы они могли рассказать Googles/Yahoos/Other SE о мире, что они не хотят быть на своих показателях.

Чтобы обсудить это в контексте, я хотел бы создать сайт сравнения цен, и у одного из основных поставщиков есть файл robots.txt, который в основном не позволяет кому-либо ухватить их цены. Я хотел бы получить информацию, но, как я уже сказал, я не могу оправдать просто игнорирование пожеланий владельца сайта.

Я видел здесь очень резкую дискуссию и почему я хотел бы услышать мнения разработчиков, которые следуют за Stack Overflow.

Кстати, есть некоторые обсуждения этой темы на тему Hacker News, но они, как представляется, в основном фокусируются на юридических аспектах это.

Ответ 1

Аргументы:

Файл robots.txt является подразумеваемой лицензией, тем более, что вы знаете об этом. Таким образом, продолжая царапать их сайт, можно рассматривать как несанкционированный доступ (т.е. Взлом). Отстой, но такие аргументы были сделаны недавно в других судебных делах (напрямую не связанных с robots.txt, а в отношении других "пассивных элементов управления".)
Захват цен не нарушает никаких законов об авторском праве, включая DMCA, поскольку авторское право не включает фактическую информацию, только объявление.
Этически вы не должны брать цены, потому что продавец должен иметь возможность изменять цены, не беспокоясь о том, что вас обвиняют в приманке/переключателе людьми, приходящими с вашего сайта.
Вы взяли высокую дорогу, объясняя им сайт и заявив, что хотите включить их в список поставщиков? Возможно, они будут любить эту идею и фактически подвергать данные таким образом, который вам легко будет потреблять и менее ресурсоемким для их производства.
Не существует законов, написанных непосредственно о файле robots.txt, потому что в основном используется сетевой этикет. Не будьте одним из "плохих парней".
Некоторые люди фильтруют роботы, потому что они используют URL-ссылки для выполнения "действий", таких как добавление вещей в телеги, а роботы оставляют их с огромным количеством заброшенных корзин в своей базе данных.
Некоторые люди фильтруют роботы, потому что у них есть эксклюзивные цены, которые они не могут рекламировать открыто на основе соглашений с их поставщиками. Вы можете поставить их в плохую позицию, подвергая эти цены на своем сайте.
В этой экономике, если компания не хочет делать все возможное, чтобы рекламировать себя, это их собственная ошибка, что вы их не включаете.

Ответ 2

Другое использование robots.txt - это защита веб-пауков от самих себя. Это относительно легко для паутины, чтобы погрязнуть в бесконечно глубоком лесу ссылок, и правильно построенный файл robots.txt скажет пауку, что "вам не нужно идти сюда".

Ответ 3

Многие люди пытались построить бизнес, не создавая двигатели сравнения цен, которые очищали основные сайты.

Как только вы начнете получать какой-либо трафик/доход, о котором вы говорите, вы получите прекратить и воздержаться. Это случилось с десятками, если не сотнями проектов. Я даже работал над небольшим проектом, получившим C & D от Craigslist.

Вы знаете, как они говорят: "Легче попросить прощения, чем получить разрешение"? Это не выполняется при очистке страницы. Получите разрешение, или вы услышите от их адвокатов.

Если вам повезет, это будет на ранней стадии, когда вам нечего терять. Если это будет поздно, вы можете потерять свой бизнес и всю свою работу за одну ночь с помощью одной буквы.

Получение разрешения не должно быть трудным. Если вы не делаете что-то подлый, вы, скорее всего, будете управлять им дополнительным трафиком. Ад, как только ваш продукт выйдет, сайты могут попросить вас или даже заплатить вам за добавление своих данных.

Ответ 4

"Нет" означает "нет".

Ответ 5

Чтобы ответить на узкий вопрос, для сайта сравнения цен вы, вероятно, лучше всего хватаете цену в реальном времени, а не отказываетесь от базы данных заранее. Трудно представить, что это проблема.

Ответ 6

Одна из причин, по которой мы разрешаем роботам копаться в Интернете без жалобы, заключается в том, что мы можем остановить их, если хотим. Защищает обе стороны.

Помните шум, когда роботы Cuil были обвинены в том, что они перешли сверху, очевидно, что в некоторых случаях они действуют как DoS-атака и используют ограничения пропускной способности некоторых небольших сайтов?

Если слишком много людей нарушают robots.txt, мы можем получить что-то еще хуже.

Ответ 7

Интересная версия истории IRL с участием The Harvard Coop: Куп звонит в Cops на копирах ISBN.

Ответ 8

Короткий ответ: Нет.

В узком вопросе: если продавец говорит, что их цены секретны, я думаю, вы должны это уважать. Я свяжусь с ними и спрошу, действительно ли они не хотят, чтобы модели сравнения цен, такие как ваши, включали их, или если знак "без нарушения" по техническим причинам. Если последние, возможно, они предоставят вам альтернативу. Если первое, то я бы сказал слишком плохо, они не включаются, они теряют бизнес, и это их проблема.

Тангенциальный разглагольствование: Лично я досадуюсь от компаний, которые заставляют меня прыгать через обручи, чтобы узнать цену своей продукции, места, которые заставляют меня звонить и разговаривать с продавцом, чтобы он мог дать мне тяжелую продажу, или, что еще хуже, заставить меня дать им свой номер телефона, чтобы их продавец мог звонить и преследовать меня. Я полагаю, что если они боятся рассказать мне цену, это, вероятно, означает, что она слишком высока.

В общем: файл robots.txt похож на знак "No Trespassing". Это право собственника сказать, кто разрешен на их имущество. Если вы считаете, что их причины немыслимы, вы можете вежливо предложить им принять знак. Но вы не имеете права игнорировать их желания. Если кто-то ставит на своем дворе знак "Несовершеннолетний", и я говорю: "Эй, я просто хочу быстро покончить, что это такое?" - Может быть, я наступаю на его ценные болгарские фиолетовые луковицы и уничтожаю ценные инвестиции. Может быть, я пересекаю свой народ священным погребением и нарушаю их религиозную чувствительность. Или, может быть, он просто раздражительный рывок. Но это все еще его собственность и его право. О, и если я упаду в опасную провал, не обращая внимания на знак "Без нарушений", кто виноват? (В Америке я, вероятно, все еще мог бы предъявить ему иск за все, что он заслужил, несмотря на то, что он предупредил меня, но так ли?)

Ответ 9

Я показываю некоторое невежество здесь, но я всегда думал, что бот был чем-то, только отправленным поисковой системой. Как Google или Yahoo.

Таким образом, если вы написали приложение, которое искало содержимое в Интернете, я бы не подумал, что бот поисковой системы, насколько мне известно, пытается блокировать файл robots.txt.

Но это может быть просто выборочное незнание, потому что я могу это сделать, пока веб-мастер этого сайта не свяжется со мной и не попросит меня остановиться:)

Ответ 10

Если люди делают это доступным для публичного доступа, они не должны пытаться устанавливать ограничения на него. Добавление файла robots.txt на ваш сайт эквивалентно помещению знака на ваш газон, который гласит: "Пожалуйста, не смотрите на меня".