Обнаружение аббревиатуры

В какой области обучения при обработке естественного языка происходит обнаружение аббревиатуры? Ищите источники, чтобы узнать об аббревиатуре. Я рассматривал семантику, которая в основном обнаруживает синонимы. поэтому я подумал, что могу сделать многословную семантику, которая бы обнаружила, что "nlp" и "обработка естественного языка" похожи. но я нашел решение NO для многословной семантики.

Примечание.. Я знаю, что очень просто проголосовать за этот вопрос, но попытайтесь понять мою проблему. Я много месяцев борется, и любая помощь ВЕЛИКОЕ оценили...

Thankyou

Ответ 1

Спасибо всем, кто помог мне, я думаю, что сам нашел ответ. Я верю, потому что это из исследовательской статьи человека, который изобрел алгоритм расширения аббревиатуры для Yahoo! и он также показывает признаки искусственного интеллекта. Опять же, спасибо всем.

Другим в той же лодке, что и я, здесь решение:

SEO у моря - как поисковые системы могут расширять аббревиатуры в поисковых запросах

Ответ 2

(Автоматическое) Обнаружение сокращений также является основной подзадачей и задачей сегментирования предложения и процессов токенизации в целом, то есть: устранять несогласованность окончаний предложения от пунктуации, связанной с сокращениями. Статистические методы (НЛП) применяются для обнаружения и извлечения их успешно, главным образом в (полу) контролируемом порядке. Например. система PUNKT, которая фактически была разработана для обнаружения границ предложения, способна обнаруживать аббревиатуры с высокой точностью, исходя из предположения о том, что большое количество двусмысленностей при определении границ предложения может быть устранено после того, как были определены сокращения (Kiss et al. 2006. Неконтролируемое многоязычное предложение Обнаружение границ).

Теперь, прежде чем пытаться изменить систему PUNKT или подобное, я просто пытался дать направление. NLP-abbr. обнаружение. Например, система, упомянутая выше, применяет методы измерения коллаборационных сил между парами токенов, которые могут быть двумя словами, а также словом и некоторой пунктуацией, рассматриваемой как токен. Все это основано на частотах и вероятностях, хотя результаты традиционного коллаборационного анализа "позволяют проводить семантические исследования.

Ответ 3

Вы можете начать с простых решений на основе правил, например. искать шаблоны, такие как "обработка естественного языка (NLP)". Я ожидаю, что, учитывая достаточно большой корпус, это может пройти долгий путь. И если вы включите свалку Википедии...