Как работают статистически невероятные фразы Amazon?

Как работает что-то вроде статистически невероятных фраз?

Согласно амазонке:

Amazon.com Статистически невероятный Фразы, или "SIP", являются наиболее отличительные фразы в тексте книг в программе Search Inside! ™. Чтобы определить SIP, наши компьютеры сканируют текст всех книг в Поиске Внутри! программа. Если они найдут фразу что происходит много раз в конкретная книга по всем Поиск внутри! книг, эта фраза SIP в этой книге.

SIP не обязательно невероятны в определенной книге, но они невероятным по отношению ко всем книгам в Поиск внутри!. Например, большинство SIP для книги о налогах относятся налоги. Но поскольку мы отображаем SIP в порядке их оценки невероятности, первые SIP будут посвящены налоговым темам, которые эта книга упоминается чаще, чем другие налоговые книги. Для произведений художественной литературы, SIP имеют тенденцию быть отличительным словом комбинации, которые часто намекают на важные элементы графика.

Например, для первой книги Джоэла SIP являются: пропущенные абстракции, сглаженные тексты, собственные корма для собак, количество ошибок, ежедневные сборки, база данных ошибок, графики программного обеспечения.

Одним из интересных осложнений является то, что это фразы из 2 или 3 слов. Это делает вещи немного более интересными, потому что эти фразы могут пересекаться или содержать друг друга.

Ответ 1

Это очень похоже на то, как Lucene оценивает документы для заданного поискового запроса. Они используют метрику TF-IDF, где TF - это частотная частота, а idf - частота обратного документа. Бывший ранжирует документ выше, тем более условия запроса появляются в этом документе, а последний ранжирует документ выше, если у него есть термины из запроса, которые появляются нечасто по всем документам. Конкретным способом их расчета является log (количество документов/количество документов с термином), т.е. Обратная частота, появляющаяся в этом выражении.

Итак, в вашем примере эти фразы являются SIP по отношению к книге Джоэла, потому что это редкие фразы (появляющиеся в нескольких книгах), и они появляются несколько раз в его книге.

Изменить: в ответ на вопрос о 2-граммах и 3 граммах перекрытие не имеет значения. Рассмотрим предложение "мои две собаки коричневые". Здесь список из 2-граммов [ "мои два", "две собаки", "собаки", "коричневые" ), а список из 3-граммов - "мои две собаки", "две собаки", "собаки коричневые" ]. Как я упоминал в своем комментарии, с перекрытием вы получаете N-1 2-граммов и N-2 3-граммов для потока из N слов. Поскольку 2 грамма может равняться только 2 граммам, а также для 3 грамм, вы можете обрабатывать каждый из этих случаев отдельно. При обработке 2 грамм каждое "слово" будет 2 грамма и т.д.

Ответ 2

Вероятно, они используют вариацию веса tf-idf, обнаруживая фразы, которые встречаются много раз в конкретной книге, но мало раз во всем корпусе за вычетом конкретной книги. Повторите для каждой книги.

Таким образом, "невероятность" относится ко всему корпусу и может пониматься как "уникальность" или "что делает книгу уникальной по сравнению с остальной библиотекой".

Конечно, я просто догадываюсь.

Ответ 3

В качестве отправной точки я бы посмотрел Марковские цепочки.

Один вариант:

построить текстовый корпус из полного индекса.
построить текстовый корпус только из одной книги.
для каждой словной фразы от m до n найдите вероятность того, что каждый корпус сгенерирует ее.
выберите N фраз с наибольшим отношением вероятностей.

Интересным продолжением будет запуск генератора Марковской цепи, где ваша таблица весов является увеличением разницы между глобальным и местным корпусом. Это создаст "карикатуру" (буквально) авторских стилистических особенностей.

Ответ 4

LingPipe имеет tutorial о том, как это сделать, и ссылаются на ссылки. Они не обсуждают математику позади нее, но их исходный код открыт, поэтому вы можете посмотреть исходный код.

Я не могу сказать, что знаю, что делает Amazon, потому что они, вероятно, хранят это в секрете (или, по крайней мере, они просто не удосужились сказать кому-либо).

Ответ 5

Извините за восстановление старого потока, но я приземлился здесь на тот же вопрос и обнаружил, что есть новая работа, которая может добавить к большому потоку.

Я чувствую, что SIP более уникальны для документа, чем просто слова с высоким рейтингом TF-IDF. Например, в документе о Гарри Поттере такие термины, как Гермиона Грейнджер и Хогвартс, как правило, являются лучшими SIP, где такие термины, как магия и Лондон, отсутствуют. TF-IDF не очень хорошо справляется с этим различием.

Я наткнулся на интересное определение SIP здесь. В этой работе фразы моделируются как n-граммы, и их вероятность появления в документе вычисляется для идентификации их уникальности.

Ответ 6

Я уверен, что это сочетание SIP, которые идентифицируют книгу как уникальную. В вашем примере очень редко, почти невозможно, чтобы в другой книге были "негерметичные абстракции" и "собственная собачья еда" в той же книге.

Я, тем не менее, делаю предположение, поскольку я не знаю точно.