Подтвердить что ты не робот

Лучший алгоритмический подход к анализу настроений

Мое требование - принимать новостные статьи и определять, являются ли они положительными или отрицательными в отношении предмета. Я беру подход, описанный ниже, но я продолжаю читать НЛП, может быть полезен здесь. Все, что я прочитал, указывает на то, что НЛП обнаруживает мнение по факту, что, по-моему, не имеет большого значения в моем случае. Мне интересно две вещи:

1) Почему мой алгоритм не работает и/или как его улучшить? (Я знаю, что сарказм, вероятно, будет ловушкой, но опять же я не вижу, что многое происходит в новостях, которые мы будем получать)

2) Как помочь НЛП, почему я должен ее использовать?

Мой алгоритмический подход (у меня есть словари положительных, отрицательных и отрицательных слов):

1) Подсчитайте количество положительных и отрицательных слов в статье

2) Если слово отрицания найдено с 2 или 3 словами положительного или отрицательного слова (т.е. НЕ лучший), отрицайте результат.

3) Умножьте баллы по весам, которые были вручную назначены каждому слову. (1.0 для запуска)

4) Добавьте итоговые значения для положительных и отрицательных, чтобы получить оценку настроений.

4b9b3361

Ответ 1

Я не думаю, что с вашим алгоритмом что-то особенно неправильно, это довольно простой и практичный способ, но есть много ситуаций, когда он будет совершать ошибки.

  • Неоднозначные слова чувств - "Этот продукт работает ужасно" против "Этот продукт ужасно хорош"

  • Пропущенные отрицания - "Я бы никогда через миллионы лет не говорил, что этот продукт стоит покупать"

  • Цитата/Косвенный текст - "Мой папа говорит, что этот продукт ужасен, но я не согласен"

  • Сравнения - "Этот продукт примерно так же полезен, как отверстие в голове"

  • Что-то тонкое - "Этот продукт уродливый, медленный и скучный, но это единственная вещь на рынке, которая выполняет работу"

Я использую обзоры продуктов для примеров вместо новостей, но вы получаете эту идею. На самом деле, новостные статьи, вероятно, сложнее, потому что они часто пытаются показать обе стороны аргумента и, как правило, используют определенный стиль для передачи точки. Например, последний пример довольно распространен в кусках мнений.

Что касается НЛП, который помогает вам в этом, смысл смысла слова (или даже просто теги с разделением речи) может помочь с (1), синтаксическим разбором может помочь с дальним диапазоном зависимостей в (2), какой-то chunking может помочь (3). Тем не менее, все работает на уровне исследования, и я ничего не знаю о том, что вы можете использовать напрямую. Проблемы (4) и (5) намного сложнее, я поднимаю руки и сдаюсь в этот момент.

Я бы придерживался того подхода, который у вас есть, и внимательно посмотрел на результат, чтобы убедиться, что он делает то, что вы хотите. Конечно, тогда возникает вопрос о том, что вы хотите, чтобы вы поняли, что определение "чувства" должно быть в первую очередь...

Ответ 2

Мой любимый пример - "просто прочитал книгу". он не содержит явно выраженного слова, и он сильно зависит от контекста. Если он появляется в обзоре фильма, это означает, что фильм-отсасывает-это-расточительство вашего времени, но-книги-это-хорошо. Однако, если он находится в обзоре книги, он дает положительные отзывы.

А как насчет "это самый маленький мобильный телефон на рынке". Еще в 90-е годы это была большая похвала. Сегодня это может означать, что это слишком мало.

Я думаю, что это место для начала, чтобы получить сложность анализа чувств: http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html (Лиллиан Ли из Корнелла).

Ответ 3

Методы машинного обучения, вероятно, лучше.

Whitelaw, Garg и Argamon имеют технику, которая достигает 92% точности, используя технику, подобную вашей, для борьбы с отрицанием и поддержки векторных машин для классификации текста.

Ответ 4

Вы можете найти систему OpinionFinder и документы, описывающие ее полезность. Он доступен в http://www.cs.pitt.edu/mpqa/ с другими ресурсами для анализа мнения.

Это выходит за рамки классификации полярности на уровне документа, но попытайтесь найти индивидуальные мнения на уровне предложения.

Ответ 5

Я считаю, что лучшим ответом на все вопросы, которые вы упомянули, является чтение книги под заголовком "Анализ настроений и интеллектуальная оценка" профессора Bing Liu. Эта книга является самой лучшей в области анализа чувств. это потрясающе. Просто взгляните на него, и вы найдете ответ на все ваши вопросы "почему" и "как"!

Ответ 6

Почему бы вам не попробовать что-то похожее на то, как работает спам-фильтр SpamAsassin? Там действительно не так много различий между интенсиональной добычей и разработкой мнений.