Я хочу использовать Google 2 грамма для моего проекта; но размер данных делает поиск дорогим как с точки зрения скорости, так и с точки зрения хранения.
Существует ли для этого веб-API (на любом языке)? Веб-сайт http://books.google.com/ngrams/graph отображает изображение, могу ли я получить значения данных?
API Google N-Gram Web
Ответ 1
Ну, я об этом поработал, используя Google BigQuery
В этом случае триграммы доступны в общественном достоянии. Используя Доступ к командной строке выполнил эту работу для меня.
Ответ 2
Я нашел отличную альтернативу: Microsoft Web N-Gram
Он может быть запрошен по-разному, включая вызов GET с переходом через интерфейс REST. Например, вызывая URL-адрес:
http://weblm.research.microsoft.com/weblm/rest.svc/bing-body/apr10/1/jp?u={YOUR_TOKEN}&p=red+panda
возвращает
-9.005
который является логарифмической вероятностью фразы red panda
.
Кроме того, он более удобен, чем Google N-Grams, поскольку для данной фразы он не просто выводит свою абсолютную частоту, но может выводить свою совместную вероятность, условную вероятность и даже наиболее вероятные слова, которые следуют.
Отказ от ответственности: я не сотрудник Microsoft, я просто думаю, что просто нашел потрясающий сервис.