Недавно я работал над набором данных, в котором используются аббревиатуры для разных слов. Например,
wtrbtl = water bottle
bwlingbl = bowling ball
bsktball = basketball
Кажется, что не было никакой согласованности с точки зрения используемого соглашения, то есть иногда они иногда использовали гласные. Я пытаюсь создать объект сопоставления, подобный приведенному выше, для аббревиатур и их соответствующих слов без полного состава или полного списка терминов (например, аббревиатуры могут быть введены, которые явно не известны). Для простоты говорят, что это ограничено вещами, которые вы найдете в тренажерном зале, но это может быть что угодно.
В принципе, если вы только посмотрите на левую сторону примеров, какая модель может сделать ту же самую обработку, что и наш мозг, с точки зрения привязки каждой аббревиатуры к соответствующей полной текстовой метке.
Мои идеи перестали принимать первое и последнее письмо и находить их в словаре. Затем назначьте априорные вероятности на основе контекста. Но так как существует большое количество морфем без маркера, который указывает конец слова, я не вижу, как его можно разбить.
ОБНОВЛЕНО:
У меня также возникла идея объединить пару строковых метрических алгоритмов, таких как алгоритм сопоставления совпадений, чтобы определить набор связанных терминов, а затем вычислить расстояние Левенштейна между каждым словом в наборе до сокращения цели. Тем не менее, я все еще не в темноте, когда речь идет о сокращениях слов не в главном словаре. В принципе, вызывая конструкцию слов - может ли модель Наив Байеса помочь, но я обеспокоен тем, что любая ошибка в точности, вызванная использованием вышеприведенных алгоритмов, приведет к недопустимости любого учебного процесса модели.
Любая помощь приветствуется, поскольку я действительно застрял на этом.