сначала жаль моего не очень совершенного английского... Я из Германии;)
Итак, для исследовательского проекта моей (диплом бакалавра) мне нужно проанализировать настроение твитов об определенных компаниях и брендах. Для этого мне понадобится script моя собственная программа/использовать какой-то модифицированный открытый исходный код (нет API-интерфейсов) - мне нужно понять, что происходит.
Ниже вы найдете список некоторых приложений NLP, которые я нашел. Теперь мой вопрос - какой из них и какой подход вы бы порекомендовали? И какой из них не требует длительных ночей, регулирующих код?
Например: когда я просматриваю твиттер для музыкального проигрывателя > iPod < и кто-то пишет: "Это ужасный день, но по крайней мере мой iPod делает меня счастливым" или даже сложнее: "Это ужасный день, но по крайней мере мой iPod компенсирует это"
Какое программное обеспечение достаточно умное, чтобы понять, что основное внимание уделяется iPod, а не погоде?
Кроме того, какое программное обеспечение является масштабируемым/ресурсоэффективным (я хочу проанализировать несколько твитов и не хочу тратить тысячи долларов)?
Обучение машинам и интеллектуальная обработка данных
Weka - это набор алгоритмов машинного обучения для интеллектуального анализа данных. Это одна из самых популярных структур классификации текста. Он содержит реализации самых разных алгоритмов, включая Наивные байесовские и поддерживающие векторные машины (SVM, перечисленные в SMO) [Примечание. Другие широко используемые реализации Java-SVM-Light, LibSVM и SVMTorch]. Связанный проект - Kea (Алгоритм извлечения ключей) - алгоритм для извлечения ключевых фраз из текстовых документов.
Apache Lucene Mahout - проект инкубатора для создания высокомасштабируемых распределенных реализаций общих алгоритмов машинного обучения на вершине каркаса сокращения карт Hadoop.
Инструменты NLP
LingPipe - (не технически "open-source", см. ниже) Alias-I Lingpipe - это набор Java-инструментов для лингвистической обработки текста, включая извлечение сущностей, речевые метки (pos), кластеризацию, классификацию и т.д. является одним из самых зрелых и широко используемых инструментов NLP с открытым исходным кодом в промышленности. Он известен своей скоростью, стабильностью и масштабируемостью. Одна из его лучших особенностей - обширная коллекция хорошо написанных руководств, которые помогут вам начать работу. У них есть список ссылок на конкурс, как академические, так и промышленные инструменты. Не забудьте проверить свой блог. LingPipe выпускается по бесплатной коммерческой лицензии, включающей исходный код, но не технически "с открытым исходным кодом".
OpenNLP - содержит множество инструментов NLP на основе Java, которые выполняют обнаружение предложений, токенизацию, частичную речевую маркировку, разделение и разборку, определение имени и сущности и совлокальный анализ ссылок с использованием пакета обучения Maxent.
Tagger Parser и Part of of Speech (POS) - Java-пакеты для разбора предложений и часть тегов речевого сигнала из группы Stanford NLP. Он имеет реализации вероятностных парсеров естественного языка, как высоко оптимизированных PCFG, так и лексикализованных парсеров зависимостей, и лексикализованного парсера PCFG. Он имеет полную лицензию GNU GPL.
OpenFST - пакет для управления взвешенными автоматами с конечным состоянием. Они часто используются для представления вероятностной модели. Они используются для моделирования текста для распознавания речи, коррекции ошибок OCR, машинного перевода и множества других задач. Библиотека была разработана вкладчиками Google Research и NYU. Это библиотека С++, которая должна быть быстрой и масштабируемой.
NTLK - инструментарий для естественного языка - это инструмент для обучения и исследования классификации, кластеризации, речевых меток и синтаксического анализа и т.д. Он содержит набор учебников и наборов данных для экспериментов. Это написано Стивеном Бердом из Университета Мельбурна.
Мнение Finder - система, которая выполняет анализ субъективности, автоматически определяя, когда в тексте присутствуют мнения, настроения, спекуляции и другие частные государства. В частности, OpinionFinder стремится идентифицировать субъективные предложения и отмечать различные аспекты субъективности в этих предложениях, включая источник (держатель) субъективности и слова, которые включены в фразы, выражающие положительные или отрицательные чувства.
Tawlk/osae - библиотека питона для классификации настроений по социальному тексту. Конечная цель - иметь простую библиотеку, которая "просто работает". Он должен иметь легкий барьер для входа и тщательно документироваться. Мы добились лучшей точности, используя фильтрацию стоп-логов с помощью твитов, собранных на negwords.txt и poswords.txt
GATE - GATE старше 15 лет и активно используется для всех видов вычислительной задачи, связанных с человеческим языком. GATE выделяется при анализе текста всех форм и размеров. От крупных корпораций до небольших стартапов, от многомиллионных исследовательских консорциумов до магистерских проектов, наше сообщество пользователей является самым большим и самым разнообразным из любой системы этого типа и распространяется по всем, кроме одного из континентов1.
textir - набор инструментов для интеллектуального анализа текста и настроений. Это включает в себя функцию mnlm для разреженной многомерной логистической регрессии, PLS, краткую процедуру частичного наименьшего квадрата и функцию тем, для эффективной оценки и выбора размеров в скрытых моделях темы.
NLP Toolsuite - JULIE Lab предлагает комплексный набор инструментов NLP для целей применения семантического поиска, извлечения информации и интеллектуального анализа текста. Большая часть нашего постоянно расширяющегося набора инструментов основана на методах машинного обучения и, следовательно, независима от домена и языка.
...
На стороне примечания: Вы порекомендовали бы потоковое вещание twitter или API get?
Что касается меня, я являюсь поклонником python и java;)
Большое спасибо за вашу помощь!!!