Я собираю кучу вопросов из потока Twitter, используя регулярное выражение, чтобы выбрать любой твит, содержащий текст, который начинается с типа вопроса: кто, что, когда, где и т.д. и заканчивается вопросительным знаком.
Таким образом, я получаю несколько полезных вопросов в моей базе данных, например: "кто заботится?", "что это?". и т.д. и некоторые полезные, например: "Как часто бывает баскетбольная битва?", "Сколько весит белый медведь?" и т.д.
Однако меня интересуют только полезные вопросы.
У меня около 3000 вопросов, ~ 2000 из них не полезны, ~ 1000 из них полезны, что я их вручную маркировал. Я пытаюсь использовать наивный байесовский классификатор (который поставляется с NLTK), чтобы попытаться классифицировать вопросы автоматически, так что мне не нужно вручную выбирать полезные вопросы.
В начале я попытался выбрать первые три слова вопроса как функции, но это не очень помогает. Из 100 вопросов классификатор предсказал только около 10% -15% как правильный для полезных вопросов. Он также не смог выбрать полезные вопросы из тех, которые, как он предсказал, не был полезен.
Я пробовал другие функции, такие как: включая все слова, включая длину вопросов, но результаты не сильно изменились.
Любые предложения о том, как я должен выбирать функции или продолжать?
Спасибо.