Я смотрел на тег nlp на SO в течение прошлых нескольких часов, и я уверен, что ничего не пропустил, но если бы я это сделал, пожалуйста, укажите мне вопрос.
В то же время я опишу, что я пытаюсь сделать. Общее мнение, которое я наблюдал на многих постах, заключается в том, что смысловое сходство затруднено. Например, из this post, принятое решение предлагает следующее:
First of all, neither from the perspective of computational
linguistics nor of theoretical linguistics is it clear what
the term 'semantic similarity' means exactly. ....
Consider these examples:
Pete and Rob have found a dog near the station.
Pete and Rob have never found a dog near the station.
Pete and Rob both like programming a lot.
Patricia found a dog near the station.
It was a dog who found Pete and Rob under the snow.
Which of the sentences 2-4 are similar to 1? 2 is the exact
opposite of 1, still it is about Pete and Rob (not) finding a
dog.
Моим высоким требованием является использование кластеров k-mean и классификация текста на основе семантического сходства, поэтому все, что мне нужно знать, - это приблизительное совпадение. Например, в приведенном выше примере я в порядке, классифицируя 1,2,4,5 в одну категорию и 3 в другую (конечно, 3 будет скопирован с некоторыми более похожими предложениями). Что-то вроде, найти связанные статьи, но они не должны быть на 100% связаны.
Я думаю, мне нужно в конечном итоге построить векторные представления каждого предложения, вроде своего отпечатка пальца, но именно то, что должен содержать этот вектор, остается открытым вопросом для меня. Это n-граммы или что-то из wordnet или только отдельные слова или что-то еще вообще?
Этот поток проделал фантастическую работу по перечислению всех связанных технологий, но, к сожалению, остановился только тогда, когда сообщение дошло до того, что я хотел. Какие-либо предложения о том, что является последним из самых современных в этой области?