Как веб-сканеры обрабатывают javascript

Сегодня много контента в Интернете генерируется с использованием JavaScript (в частности, с помощью фоновых вызовов AJAX). Мне было интересно, как сканеры веб-страниц, такие как Google, обрабатывают их. Знают ли они о JavaScript? Есть ли у них встроенный механизм JavaScript? Или они просто игнорируют весь созданный JavaScript контент на странице (я думаю, это маловероятно). Используют ли люди специальные методы для индексации контента, которые в противном случае были бы доступны через фоновые запросы AJAX для обычного пользователя Интернета?

Ответ 1

JavaScript обрабатывается как Bing, так и Google. Yahoo использует данные об искателях Bing, поэтому их также следует обрабатывать. Я не смотрел в другие поисковые системы, поэтому, если вы заботитесь о них, вы должны искать их.

Bing опубликовал руководство в марте 2014 года о том, как создавать веб-сайты на основе JavaScript, которые работают со своим искателем (в основном связанным с pushState) которые являются хорошей практикой в целом:

Избегайте создания неработающих ссылок с помощью pushState
Избегайте создания двух разных ссылок, которые ссылаются на один и тот же контент с помощью pushState
Избегайте cloaking. (Здесь статья Bing опубликована об их обнаружении маскировки в 2007 году)
Поддержка браузеров (и сканеров), которые не могут обрабатывать pushState.

Опубликованные в Google руководства в мае 2014 г. о том, как создавать веб-сайты на основе JavaScript, которые работают со своим искателем, а также рекомендуют их рекомендации

Не блокируйте JavaScript (и CSS) в файле robots.txt.
Убедитесь, что вы можете обрабатывать загрузку сканеров.
Это хорошая идея для поддержки браузеров и сканеров, которые не могут обрабатывать (или пользователей и организаций, которые не разрешают) JavaScript
Трудный JavaScript, который использует тайные или специфические особенности языка, может не работать с искателями.
Если ваш JavaScript удаляет контент со страницы, он может не индексироваться. вокруг.

Ответ 2

Большинство из них никак не обрабатывают Javascript. (По крайней мере, все поисковые роботы крупных поисковых систем этого не делают.)

Вот почему все еще важно, чтобы ваш сайт грамотно обрабатывал навигацию без Javascript.

Ответ 3

Я протестировал это, поставив страницы на моем сайте только доступными Javascript, а затем наблюдая их присутствие в поисковых индексах.

Страницы моего сайта, которые были доступны только Javascript, впоследствии были проиндексированы Google.

Содержимое было достигнуто с помощью Javascript с использованием "классической" методики или создания URL-адреса и установки соответствующего окна.

Ответ 4

Именно то, что сказал Бэн С. И любой доступ к вашему сайту с помощью Lynx также не будет выполнять JavaScript. Если ваш сайт предназначен для общего пользования, он, как правило, может использоваться без использования JavaScript.

Также, связанный: если есть страницы, которые вы хотели бы найти в поисковой системе, и которые обычно возникают только из JavaScript, вы можете подумать о создании статических версий их, достижимых с помощью карты сайта для сканирования, где эти статические страницы используйте JavaScript для загрузки текущей версии при использовании браузера с поддержкой JavaScript (в случае, если человек с браузером следует вашей карте сайта). Поисковая система увидит статическую форму страницы и сможет ее проиндексировать.

Ответ 5

Сканеры не анализируют Javascript, чтобы узнать, что он делает.

Они могут быть созданы для распознавания некоторых классических фрагментов, таких как onchange="window.location.href=this.options[this.selectedIndex].value;" или onclick="window.location.href='blah.html';", но они не беспокоятся о вещах, таких как контент, взятый с использованием AJAX. По крайней мере, пока нет, и контент, полученный таким образом, всегда будет вторичным.

Итак, Javascript следует использовать только для дополнительной функциональности. Основное содержимое, которое вы хотите найти искателям, должно быть по-прежнему являться простым текстом на странице и регулярными ссылками, которые легко могут выполнять сканеры.

Ответ 6

сканеры могут обрабатывать вызовы javascript или ajax, если они используют какие-то фреймворки, такие как "htmlunit" или "selenium"