Неконтролируемый анализ настроений

Я читал много статей, объясняющих необходимость в исходном наборе текстов, которые классифицируются как "позитивные" или "негативные", прежде чем система анализа чувств действительно будет работать.

Мой вопрос: кто-нибудь пытался сделать рудиментарную проверку "положительных" прилагательных против "негативных" прилагательных, принимая во внимание любые простые отрицатели, чтобы избежать классификации "не счастливы" как положительные? Если да, есть ли какие-либо статьи, которые обсуждают, почему эта стратегия не реалистична?

Ответ 1

A классическая статья Питера Терни (2002) объясняет метод проведения неконтролируемого анализа настроений (положительная/отрицательная классификация), используя только слова отличные и бедных, как набор семян. Turney использует взаимную информацию других слов с этими двумя прилагательными для достижения точности 74%.

Ответ 2

Я не пробовал делать неподготовленный анализ настроений, например, вы описываете, но, с моей головы, я бы сказал, что вы упрощаете проблему. Просто анализировать прилагательные недостаточно, чтобы получить хорошее представление о настроении текста; например, рассмотрим слово "глупо". В одиночку вы классифицируете это как отрицательное, но если в обзоре продукта должен быть "... [x] продукт делает своих конкурентов глупыми, потому что сначала не думает об этой функции...", тогда настроение там обязательно будет положительным, Большой контекст, в котором слова появляются, определенно имеет значение в чем-то подобном. Вот почему один из неподготовленных мешков-слов в одиночку (не говоря уже о еще более ограниченных мешках-прилагательных) недостаточно для адекватного решения этой проблемы.

Предварительно классифицированные данные ( "данные обучения" ) помогают в том, что проблема сдвигается от попытки определить, имеет ли текст положительное или отрицательное чувство с нуля, чтобы попытаться определить, является ли текст более похожим на положительные тексты или отрицательные тексты, и классифицировать его таким образом. Другим важным моментом является то, что текстовые анализы, такие как анализ настроений, часто сильно зависят от различий характеристик текстов в зависимости от домена. Вот почему наличие хорошего набора данных для обучения (то есть точные данные из домена, в котором вы работаете, и, мы надеемся, представляем тексты, которые вам нужно классифицировать) так же важно, как и создание хорошего система для классификации с помощью.

Не совсем статья, но надеюсь, что это поможет.

Ответ 3

Бумага Turney (2002), упомянутая larsmans, является хорошей базовой. В более новых исследованиях Li and He [2009] ввел подход, используя Распределение скрытого распределения дирихле (LDA) для обучения модели, которая может классифицировать общую ситуацию и тему статьи одновременно полностью без присмотра. Точность их достижения составляет 84,6%.

Ответ 4

Я попытался определить ключевые слова, используя словарь влияния, чтобы предсказать метку настроения на уровне предложения. Учитывая общность словаря (не зависящего от домена), результаты составили около 61%. Этот документ доступен на моей домашней странице.

В несколько улучшенной версии рассмотрены отрицательные наречия. Вся система, названная EmoLib, доступна для демонстрации:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

Привет,

Ответ 5

Дэвид,

Я не уверен, помогает ли это, но вы можете захотеть заглянуть в блог-сообщение Джейкоба Перкина , используя NLTK для анализа настроений.

Ответ 6

Я попробовал несколько методов анализа настроений для интеллектуального анализа в обзорах. То, что сработало для меня лучше всего, - это метод, описанный в книге Лю: http://www.cs.uic.edu/~liub/WebMiningBook.html В этой книге Лю и другие сравнили многие стратегии и обсудили различные документы по анализу настроений и составлению мнений.

Хотя моя главная цель заключалась в том, чтобы извлекать функции из мнений, я применил классификатор чувств, чтобы обнаружить положительную и отрицательную классификацию этих функций.

Я использовал NLTK для предварительной обработки (токенизация слова, маркировка POS) и создание триграмм. Затем я также использовал байесовские классификаторы внутри этого места, чтобы сравнить с другими стратегиями, которые Лю был точным.

Один из методов основан на тегировании как pos/neg каждый триграмм, выражающий эту информацию, и использование некоторого классификатора для этих данных. Другой метод, который я пробовал, и работал лучше (около 85% точности в моем наборе данных), вычислял сумму баллов PMI (пунктуальную взаимную информацию) для каждого слова в предложении и слова отличные/бедные как семена класса pos/neg,

Ответ 7

В анализе настроений нет волшебных "ярлыков", как и при любом другом анализе текста, который стремится обнаружить лежащую в основе "бескомпромиссность" фрагмента текста. Попытка провести короткие методы доказанного текстового анализа с помощью упрощенной "прилагательной" проверки или аналогичных подходов приводит к двусмысленности, неправильной классификации и т.д., Которые в конце дня дают вам слабую точность, читаемую по настроениям. Чем более тонкий источник (например, Twitter), тем труднее проблема.