Подтвердить что ты не робот

Список инструментов для обработки естественного языка в отношении анализа настроений - какой из них вы рекомендуете

сначала жаль моего не очень совершенного английского... Я из Германии;)

Итак, для исследовательского проекта моей (диплом бакалавра) мне нужно проанализировать настроение твитов об определенных компаниях и брендах. Для этого мне понадобится script моя собственная программа/использовать какой-то модифицированный открытый исходный код (нет API-интерфейсов) - мне нужно понять, что происходит.

Ниже вы найдете список некоторых приложений NLP, которые я нашел. Теперь мой вопрос - какой из них и какой подход вы бы порекомендовали? И какой из них не требует длительных ночей, регулирующих код?

Например: когда я просматриваю твиттер для музыкального проигрывателя > iPod < и кто-то пишет: "Это ужасный день, но по крайней мере мой iPod делает меня счастливым" или даже сложнее: "Это ужасный день, но по крайней мере мой iPod компенсирует это"

Какое программное обеспечение достаточно умное, чтобы понять, что основное внимание уделяется iPod, а не погоде?

Кроме того, какое программное обеспечение является масштабируемым/ресурсоэффективным (я хочу проанализировать несколько твитов и не хочу тратить тысячи долларов)?

Обучение машинам и интеллектуальная обработка данных

Weka - это набор алгоритмов машинного обучения для интеллектуального анализа данных. Это одна из самых популярных структур классификации текста. Он содержит реализации самых разных алгоритмов, включая Наивные байесовские и поддерживающие векторные машины (SVM, перечисленные в SMO) [Примечание. Другие широко используемые реализации Java-SVM-Light, LibSVM и SVMTorch]. Связанный проект - Kea (Алгоритм извлечения ключей) - алгоритм для извлечения ключевых фраз из текстовых документов.

Apache Lucene Mahout - проект инкубатора для создания высокомасштабируемых распределенных реализаций общих алгоритмов машинного обучения на вершине каркаса сокращения карт Hadoop.

Инструменты NLP

LingPipe - (не технически "open-source", см. ниже) Alias-I Lingpipe - это набор Java-инструментов для лингвистической обработки текста, включая извлечение сущностей, речевые метки (pos), кластеризацию, классификацию и т.д. является одним из самых зрелых и широко используемых инструментов NLP с открытым исходным кодом в промышленности. Он известен своей скоростью, стабильностью и масштабируемостью. Одна из его лучших особенностей - обширная коллекция хорошо написанных руководств, которые помогут вам начать работу. У них есть список ссылок на конкурс, как академические, так и промышленные инструменты. Не забудьте проверить свой блог. LingPipe выпускается по бесплатной коммерческой лицензии, включающей исходный код, но не технически "с открытым исходным кодом".

OpenNLP - содержит множество инструментов NLP на основе Java, которые выполняют обнаружение предложений, токенизацию, частичную речевую маркировку, разделение и разборку, определение имени и сущности и совлокальный анализ ссылок с использованием пакета обучения Maxent.

Tagger Parser и Part of of Speech (POS) - Java-пакеты для разбора предложений и часть тегов речевого сигнала из группы Stanford NLP. Он имеет реализации вероятностных парсеров естественного языка, как высоко оптимизированных PCFG, так и лексикализованных парсеров зависимостей, и лексикализованного парсера PCFG. Он имеет полную лицензию GNU GPL.

OpenFST - пакет для управления взвешенными автоматами с конечным состоянием. Они часто используются для представления вероятностной модели. Они используются для моделирования текста для распознавания речи, коррекции ошибок OCR, машинного перевода и множества других задач. Библиотека была разработана вкладчиками Google Research и NYU. Это библиотека С++, которая должна быть быстрой и масштабируемой.

NTLK - инструментарий для естественного языка - это инструмент для обучения и исследования классификации, кластеризации, речевых меток и синтаксического анализа и т.д. Он содержит набор учебников и наборов данных для экспериментов. Это написано Стивеном Бердом из Университета Мельбурна.

Мнение Finder - система, которая выполняет анализ субъективности, автоматически определяя, когда в тексте присутствуют мнения, настроения, спекуляции и другие частные государства. В частности, OpinionFinder стремится идентифицировать субъективные предложения и отмечать различные аспекты субъективности в этих предложениях, включая источник (держатель) субъективности и слова, которые включены в фразы, выражающие положительные или отрицательные чувства.

Tawlk/osae - библиотека питона для классификации настроений по социальному тексту. Конечная цель - иметь простую библиотеку, которая "просто работает". Он должен иметь легкий барьер для входа и тщательно документироваться. Мы добились лучшей точности, используя фильтрацию стоп-логов с помощью твитов, собранных на negwords.txt и poswords.txt

GATE - GATE старше 15 лет и активно используется для всех видов вычислительной задачи, связанных с человеческим языком. GATE выделяется при анализе текста всех форм и размеров. От крупных корпораций до небольших стартапов, от многомиллионных исследовательских консорциумов до магистерских проектов, наше сообщество пользователей является самым большим и самым разнообразным из любой системы этого типа и распространяется по всем, кроме одного из континентов1.

textir - набор инструментов для интеллектуального анализа текста и настроений. Это включает в себя функцию mnlm для разреженной многомерной логистической регрессии, PLS, краткую процедуру частичного наименьшего квадрата и функцию тем, для эффективной оценки и выбора размеров в скрытых моделях темы.

NLP Toolsuite - JULIE Lab предлагает комплексный набор инструментов NLP для целей применения семантического поиска, извлечения информации и интеллектуального анализа текста. Большая часть нашего постоянно расширяющегося набора инструментов основана на методах машинного обучения и, следовательно, независима от домена и языка.

...

На стороне примечания: Вы порекомендовали бы потоковое вещание twitter или API get?

Что касается меня, я являюсь поклонником python и java;)

Большое спасибо за вашу помощь!!!

4b9b3361

Ответ 1

Я не уверен, насколько я могу помочь, но раньше я работал с ручным NLP. На ум приходит пара вопросов - не все продукты являются языковыми (человеческий язык, а не компьютерный язык). Если вы планируете анализировать немецкие твиты, важно, чтобы выбранный вами продукт мог обрабатывать немецкий язык. Очевидно, я знаю, но легко забыть. Тогда существует тот факт, что он щебетает там, где есть сокращения и сокращения, а языковая структура ограничена лимитом символов, что означает, что грамматика не всегда будет соответствовать ожидаемой структуре языка.

По-английски вытягивание существительных из предложения может быть несколько упрощено, если вам когда-либо придется писать собственный код. Собственные существительные имеют начальные капиталы, и строка таких слов (возможно, включая "из" ) является примером именной фразы. Слово, предшествовавшее "a/an/my/his/hers/the/this/these/these", будет либо прилагательным, либо существительным. После этого становится все труднее.

Существуют правила, которые помогают идентифицировать множественные числа, но есть также множество исключений. Я говорю об английском здесь, конечно, мой очень бедный разговорный немецкий язык не помогает мне понять эту грамматику, которую я боюсь.