Как работает что-то вроде статистически невероятных фраз?
Согласно амазонке:
Amazon.com Статистически невероятный Фразы, или "SIP", являются наиболее отличительные фразы в тексте книг в программе Search Inside! ™. Чтобы определить SIP, наши компьютеры сканируют текст всех книг в Поиске Внутри! программа. Если они найдут фразу что происходит много раз в конкретная книга по всем Поиск внутри! книг, эта фраза SIP в этой книге.
SIP не обязательно невероятны в определенной книге, но они невероятным по отношению ко всем книгам в Поиск внутри!. Например, большинство SIP для книги о налогах относятся налоги. Но поскольку мы отображаем SIP в порядке их оценки невероятности, первые SIP будут посвящены налоговым темам, которые эта книга упоминается чаще, чем другие налоговые книги. Для произведений художественной литературы, SIP имеют тенденцию быть отличительным словом комбинации, которые часто намекают на важные элементы графика.
Например, для первой книги Джоэла SIP являются: пропущенные абстракции, сглаженные тексты, собственные корма для собак, количество ошибок, ежедневные сборки, база данных ошибок, графики программного обеспечения.
Одним из интересных осложнений является то, что это фразы из 2 или 3 слов. Это делает вещи немного более интересными, потому что эти фразы могут пересекаться или содержать друг друга.