Подтвердить что ты не робот

Получение Запрещено robots.txt: scrapy

во время обхода веб-сайта, такого как https://www.netflix.com, получая запрещенный robots.txt: https://www.netflix.com/" >

ОШИБКА: нет ответа, загруженного для: https://www.netflix.com/

Ответ 1

В новой версии (scrapy 1.1), запущенной 2016-05-11, сканирование сначала загружает robots.txt перед обходом. Чтобы изменить это изменение поведения в settings.py с помощью ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Вот примечания к выпуску

Ответ 2

Прежде всего вам нужно убедиться, что вы изменяете свой агент пользователя в запросе, иначе пользовательский агент по умолчанию будет заблокирован.