Данные обучения для анализа настроений - программирование
Подтвердить что ты не робот

Данные обучения для анализа настроений

Где я могу получить корпус документов, которые уже были классифицированы как положительные/отрицательные для настроений в корпоративном домене? Мне нужен большой корпус документов, который предоставляет обзоры для компаний, например обзоры компаний, предоставляемых аналитиками и средствами массовой информации.

Я нахожу те корпуса, у которых есть обзоры продуктов и фильмов. Существует ли корпус для бизнес-домена, включая обзоры компаний, которые соответствуют языку бизнеса?

4b9b3361

Ответ 1

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

Вы можете использовать twitter с его смайлами, например: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

Надеюсь, что ты начнёшь. Там больше в литературе, если вас интересуют конкретные подзадачи, такие как отрицание, сфера чувств и т.д.

Чтобы сосредоточиться на компаниях, вы можете связать метод с обнаружением темы, или дешево просто много упоминаний о данной компании. Или вы можете получить ваши данные, аннотированные механическими тюркерами.

Ответ 2

Это список, который я написал несколько недель назад, из моего блога. Некоторые из этих наборов данных были недавно включены в платформу NLTK Python.

словари


Datasets


Литература:

Ответ 4

Если у вас есть ресурсы (медиа-каналы, блоги и т.д.) о домене, который вы хотите изучить, вы можете создать свой собственный корпус. Я делаю это в python:

  • используя Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ для анализа содержимого, которое я хочу классифицировать.
  • отделяют эти предложения от положительных/отрицательных мнений о компаниях.
  • Используйте NLTK для обработки этих предложений, токенизации слов, маркировки POS и т.д.
  • Использовать PMI NLTK для вычисления битрамов или триграмм mos часто в одном классе

Создание corpus - это сложная работа по предварительной обработке, проверке, пометке и т.д., но имеет преимущества при подготовке модели для определенного домена во много раз, повышая точность. Если вы можете получить уже подготовленный корпус, просто продолжайте анализ настроений;)

Ответ 5

Я не знаю, какой такой корпус доступен, но вы можете попробовать неконтролируемый метод для немеченого набора данных.

Ответ 6

Вы можете получить большой выбор онлайн-отзывов от Datafiniti. Большинство обзоров поставляются с данными рейтинга, что обеспечило бы более гранулярность настроений, чем положительные/отрицательные. Здесь список предприятий с отзывами, а здесь список продуктов с отзывами.