Это на самом деле проблема классификации машинного обучения, но я считаю, что это очень хороший быстрый и грязный способ сделать это. Я хочу нарисовать строку, описывающую команду НФЛ, например "Сан-Франциско" или "49ers" или "Сан-Франциско 49ers" или "SF-сорока", для канонического имени для команды. (Есть 32 команды НФЛ, поэтому на самом деле это означает поиск ближайшего из 32 ящиков, чтобы поместить заданную строку.)
Входящие строки на самом деле не являются полностью произвольными (они из структурированных источников данных вроде этого: http://www.repole.com/sun4cast/stats/nfl2008lines.csv), так что это не так необходимо обрабатывать каждый сумасшедший угловой случай, как в приведенном выше примере 49ers.
Я также должен добавить, что если кто-то знает источник данных, содержащий как шансы на деньги в Vegas, так и реальные результаты игры за последние несколько лет игр NFL, это избавит от необходимости этого. Причина, по которой мне нужна канонизация, состоит в том, чтобы сопоставить эти два несопоставимых набора данных: один с коэффициентами и один с результатами:
Идеи для более качественных, более понятных источников данных очень приветствуются!
Добавлено: для этих данных может быть достаточно подходящая идея подстроки; благодарю! Можно ли сделать его более надежным, выбрав имя команды с ближайшим расстоянием левенштейна?