Я понимаю, что вход ANN должен быть нормализован, стандартизирован и т.д. Оставив в стороне особенности и модели различных ANN, как я могу препроцитировать кодированный текст UTF-8 в диапазоне {0,1} или, альтернативно, между диапазоном {-1,1}, прежде чем он будет дан в качестве входных данных для нейронных сетей? Я искал это в google, но не могу найти никакой информации (я могу использовать неправильный термин).
- Это имеет смысл?
- Не так ли, как текст предварительно обрабатывается для нейронных сетей?
- Есть ли альтернативы?
EDIT 20-ноябрь-2013:
Я уже давно принял правильный ответ Пита. Тем не менее, у меня есть серьезные сомнения, в основном из-за недавних исследований, которые я делал по символическим знаниям и ANN.
Дарио Флореано и Клаудио Маттиусси в своей книге объясняют, что такая обработка действительно возможна, используя распределенное кодирование > .
Действительно, если вы попробуете поиск ученого в Google, существует множество статей и статей о нейробиологии о том, как гипотетически предполагаемое кодирование используется мозгами для кодирования символического знания.
Teuvo Kohonen, в своей статье "Самоорганизующиеся карты" объясняется:
Можно подумать, что применение законов нейронной адаптации к набор символов (рассматриваемый как набор векторных переменных) может создать топографическую карту, которая отображает "логические расстояния" между символы. Однако возникает проблема, лежащая в разных характер символов по сравнению с непрерывными данными. Для последнего, сходство всегда проявляется естественным образом, поскольку метрические различия между их непрерывными кодировками. Это больше не верно для дискретные, символические элементы, такие как слова, для которых не было метрики определены. В самой природе символа имеет смысл диссоциированных от его кодирования.
Однако Кохонену удалось справиться с символической информацией в ЗВОЛХ!
Кроме того, профессор д-р Альфред Ульч в своей статье "Интеграция нейронных сетей с" Обработка символических знаний" имеет дело с тем, как обрабатывать символические знания (такие как текст) в ANN. Ultsch предлагает следующие методологии для обработки символических знаний: нейронное аппроксимативное рассуждение, нейронное объединение, интроспекция и интеграция Приобретение знаний. Хотя небольшая информация может быть найдена на тех, кто в google ученом или где-либо еще в этом отношении.
Пит в своем ответе прав о семантике. Семантика в ANN обычно отключается. Однако, следуя ссылке, дается представление о том, как исследователи использовали RBM, обученные распознавать сходство в семантике различных вводов слов, поэтому не может быть невозможно иметь семантику, но для этого требуется многоуровневый подход или вторичный ANN, если требуется семантика.
Обработка естественного языка с помощью подсимвольных нейронных сетей, Risto Miikkulainen, 1997 г. Обучение ограниченным машинам Больцмана по наблюдению за словами, Г. Э. Дахл, Райан.П.Адамс, Х.Рарочелле, 2012 г.