Подтвердить что ты не робот

Набор доступных фильтров для спам-фильтров

Я новичок в машинном обучении, и для своего первого проекта я бы хотел написать наивный фильтр спама Bayes. Мне было интересно, есть ли общедоступные учебные комплекты помеченных спам-сообщений, а не спам-писем, предпочтительно в виде простого текста, а не в дампе реляционной базы данных (если они не печатают их?).

Я знаю, что такая общедоступная база данных существует для других видов классификации текста, в частности текста новостей. Я просто не мог найти то же самое для электронных писем.

4b9b3361

Ответ 1

Вот что я искал: http://untroubled.org/spam/

В этом архиве имеется около гигабайта сжатых накопленных спам-сообщений, датированных с 1998 по 2011 год. Теперь мне просто нужно получить электронную почту без спама. Поэтому я просто запрошу свой Gmail для этого, используя программу getmail и учебник в mattcutts.com

Ответ 2

Конечно, там Spambase, насколько я знаю, является наиболее широко цитируемым спамом, установленным в литературе машинного обучения.

Я использовал этот набор данных много раз; каждый раз, когда я впечатлен, сколько усилий было внесено в форматирование и документацию этого набора данных.

Несколько характеристик набора Spambase:

  • 4601 точек данных - все завершено

  • каждый из них состоит из 58 функций (Атрибуты)

  • каждая точка данных помечена как "спам" или "нет спама"

  • прибл. 40% помечены как спам

  • функций, все непрерывны (по сравнению с дискретным)

  • Репрезентативная особенность: средняя непрерывная последовательность капитала буквы


Spambase архивируется в UCI Machine Learning Repository; кроме того, он также доступен на веб-сайте за отличный ML/статистический расчетный трактат, Элементы статистического обучения от Hastie и др.

Ответ 3

SpamAssassin имеет публичный корпус как спама, так и сообщений, не связанных со спамом, хотя он не обновлялся через несколько лет. Прочтите файл readme.html, чтобы узнать, что там.

Ответ 4

Вы можете подумать о том, чтобы взглянуть на пакет TREC spam/ham corpus (который, я думаю, представляет собой сборник электронных писем от Enron, который был обнародован из судебного дела). TREC обычно запускает множество задач для обработки текстовых сообщений, поэтому он может дать вам несколько ссылок для сравнения.

Недостатком является то, что они хранятся в формате raw mbox, хотя на многих языках есть парсеры (пример Apache Tika - хороший пример).

Веб-страница не TREC, но это, по-видимому, хороший обзор задачи со ссылками на данные: http://plg.uwaterloo.ca/~gvcormac/spam/

Ответ 5

Более современный набор для подготовки спама можно найти на kaggle. Кроме того, вы можете проверить точность своего классификатора на своем веб-сайте, загрузив свои результаты.

Ответ 6

У меня также есть ответ здесь вы можете найти ежедневную обновленную байесовскую базу данных для начальной подготовки, а также ежедневный архив, содержащий захваченные спам. Вы найдете инструкции по его использованию на сайте.