Понимание коллокации NLTK для биграмм и триграмм

Фон:

Я пытаюсь сравнить пары слов, чтобы увидеть, какая пара "более вероятна" на английском языке, чем другая пара. Мой план состоял в том, чтобы использовать средства коллокации в NLTK для парных пар слов, причем наиболее вероятная пара с более высокой балльной оценкой.

Подход:

Я закодировал следующее в Python, используя NLTK (несколько шагов и импорт удалены для краткости):

bgm    = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(tokens)
scored = finder.score_ngrams( bgm.likelihood_ratio  )
print scored

Результаты:

Затем я исследовал результаты, используя пары из двух слов, одна из которых должна быть очень вероятной, и одна пара, которая не должна ( "обжаренная кешью" и "кешью из бензина" ). Я был удивлен, увидев одинаковое количество парных слов:

[(('roasted', 'cashews'), 5.545177444479562)]
[(('gasoline', 'cashews'), 5.545177444479562)]

Я бы ожидал, что "жареные кешью" заработают выше, чем "бензиновые кешью" в моем тесте.

Вопросы:

Я не понимаю, как использовать коллокации?
Неверен ли мой код?
Является ли мое предположение, что оценки должны быть разными, и если да, то почему?

Большое спасибо за любую информацию или помощь!

import nltk.collocations import nltk.corpus import collections bgm = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words( nltk.corpus.brown.words()) scored = finder.score_ngrams( bgm.likelihood_ratio ) # Group bigrams by first word in bigram. prefix_keys = collections.defaultdict(list) for key, scores in scored: prefix_keys[key[0]].append((key[1], scores)) # Sort keyed bigrams by strongest association. for key in prefix_keys: prefix_keys[key].sort(key = lambda x: -x[1]) print 'doctor', prefix_keys['doctor'][:5] print 'baseball', prefix_keys['baseball'][:5] print 'happy', prefix_keys['happy'][:5]

doctor [('bills', 35.061321987405748), (',', 22.963930079491501), ('annoys', 19.009636692022365), ('had', 16.730384189212423), ('retorted', 15.190847940499127)] baseball [('game', 32.110754519752291), ('cap', 27.81891372457088), ('park', 23.509042621473505), ('games', 23.105033513054011), ("player's", 16.227872863424668)] happy [("''", 20.296341424483998), ('Spahn', 13.915820697905589), ('family', 13.734352182441569), (',', 13.55077617193821), ('bodybuilder', 13.513265447290536)

Ответ 1