Подтвердить что ты не робот

Apache Lucene против Google Search Appliance

Кто-нибудь сталкивался с особенностями Apache Lucene? Я слышал, что он даже сопоставим с Google Search Appliance (GSA). Я искал для них определенное сравнение, если это возможно?

Те сравнения, которые доступны в Интернете, довольно расплывчаты.

4b9b3361

Ответ 1

Вероятно, трудно найти сравнение между Apache Lucene и Google Search Appliance, потому что они такие разные вещи. В то время как Lucene является программным компонентом для индексирования документов, имеющих базовую значимость "наращивания", GSA - это продукт корпоративного поиска (аппаратное/физическое оборудование) с множеством готовых функциональных возможностей для настройки и оптимизации результатов поиска на основе алгоритма поиска Google.

Таким образом, это в основном два отличных инструментария с различными сценариями реализации. Но, конечно, перекрываются, особенно если они используются для обеспечения поиска на вашем среднем веб-сайте.

В верхней части моей головы несколько тем, которые вы можете начать для сравнения:

Развертывание/Архитектура

  • Lucene - это программный компонент, который может быть глубоко интегрирован в ваше собственное программное обеспечение, предоставляя индекс (обычно на основе файлов, иногда в памяти), чтобы быстро индексировать и получать контент.
  • Проект lucene предоставляет довольно большой список анализаторов для индексирования индексов разных языков (западные языки, арабский, азиатский и т.д.), но имеет место для усовершенствований с помощью анализаторов.
  • Lucene для .Net - довольно популярный порт для интеграции в Microsoft.Net Plattforms.
  • Программное обеспечение и аппаратное обеспечение GSA объединены вместе и проданы как устройство с интерфейсом HTTP (ы), обеспечивающим результаты поиска в HTML (через собственные XSLT) или XML (для лучшей интеграции на вашем сайте).
  • GSA поставляется с языковыми пакетами (установленными и загружаемыми). Вам нужно будет выбрать один из пакетов. Если вам нужна поддержка для большего количества языков, вам может потребоваться добавить еще одну GSA в инфраструктуру (если все необходимые языки не находятся в одном комплекте)
  • GSA отлично работает и требует очень небольшого обслуживания.
  • GSA позволяет масштабировать практически без инженерных усилий. глобально распределенных, но подключенные GSA могут быть настроены через веб-интерфейс.
  • GSA можно сделать HA, купив более дешевый модуль горячего резервирования.

Индексация

  • Lucene предоставляет сканеры (и API-интерфейс искателя) для индексации содержимого. Не имеет значения, действительно ли ваш искатель сканирует веб-сайт, например Google, или сканирует базу данных на основе операторов SQL или предоставляет текстовый поток, считываемый из плоских файлов. Но обычно вам нужно внедрить искатель, если предоставленное не соответствует вашим потребностям.
  • GSA использует гусеничную технологию, используемую Google, соблюдая инструкции Robots (в тегах TXT или Meta), она предоставляет API фида для источников, которые невозможно обходить (т.е. не связывать между собой), и поддерживает поддержку SQL-запросов все базы данных мэров для извлечения данных из базы данных (будь то URL-адреса для обхода или сами данные)

Настройка поиска/релевантности

  • Lucene не нацелена на и не имеет хорошей поддержки настройки релевантности (за исключением увеличения записей в индексе). Это приложение, использующее результаты индекса для настройки
  • Lucene - это индекс, используемый SOLR, который обеспечивает настройки и архитектуры, более похожие на GSA (включая репликацию результатов по HTTP (-ам))
  • GSA позволяет создавать наборы результатов смещения на основе метаданных, шаблонов даты и URL. В последней версии вы можете даже настроить свои собственные сущности и предубеждать результаты, основанные на них.
  • GSA поддерживает факсимильные рамки для метаданных и еще несколько причудливых материалов на их интерфейсе, например, предварительные изображения для документов, автозапуска и т.д.

Коммерческие вещи

  • Lucene - продукт с открытым исходным кодом (без затрат), но требует приобретения оборудования
  • GSA начинается со $20 тыс. за 500 тыс. документов/URL-адресов
  • Google предоставляет несколько уровней поддержки.
  • Лицензии GSA должны быть продлены на 2 или 3 года (вы получаете новое оборудование).
  • GSA не требует дополнительного оборудования (устройство включено)

... есть еще что добавить, но я надеюсь, что вы поняли.


Обновление февраль 2016 года:

Google сообщила партнерам, что GSA будет прекращена примерно в 2019 году. Лучший сайт для ссылки на данный момент выглядит http://fortune.com/2016/02/04/google-ends-search-appliance/.