Подтвердить что ты не робот

Дифференциация между замкнутыми и открытыми алгоритмами рутинга по последовательному шаблону

Я хочу использовать некоторые алгоритмы для моих данных журнала.

Я нашел структуру разработки шаблонов: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

Я пробовал несколько алгоритмов, лучший алгоритм BIDE +.

Алгоритм BIDE + предназначен для поиска частых закрытых последовательных паттернов из базы данных последовательности.

Я не совсем понимаю определение "закрытых" последовательностных паттернов и открытых. Может кто-нибудь, пожалуйста, помогите мне объяснить это? Некоторые примеры были бы очень оценены.

4b9b3361

Ответ 1

Рад, что вы используете мое программное обеспечение SPMF.

Поддержка последовательного шаблона - это количество последовательностей, содержащих последовательный шаблон.

A частый последовательный шаблон - это шаблон, который появляется, по меньшей мере, в последовательностях "minsup" базы данных последовательности, где minsup - это параметр, заданный пользователем. p >

A частый закрытый последовательный шаблон является частым последовательным шаблоном, так что он не включен в другой последовательный шаблон, имеющий точно такую ​​же поддержку.

Алгоритмы, такие как ПрефиксSpan, обнаруживают частые последовательные шаблоны. Алгоритмы, такие как BIDE +, обнаруживают частые закрытые последовательные шаблоны. BIDE + обычно намного быстрее, чем PrefixSpan, потому что он использует методы обрезки, чтобы избежать генерации всех последовательных шаблонов. Более того, набор закрытых шаблонов обычно намного меньше, чем набор последовательных шаблонов, поэтому BIDE + также более эффективен с точки зрения памяти.

Еще одна важная вещь, которую следует знать, состоит в том, что замкнутые последовательные шаблоны представляют собой компактное представление без потерь во всех последовательных шаблонах. Это означает, что набор закрытых последовательных паттернов обычно намного меньше, но без потерь, что означает, что он позволяет восстановить полный набор последовательных паттернов (без информации - потеря), что очень удобно.

Я могу привести простой пример.

Рассмотрим четыре последовательности:

a  b  c  d  e
a  b  d
b  e  a  
b  c  d  e

Скажем, что minsup = 2.

b c является частым последовательным шаблоном, потому что он появляется в двух последовательностях (у него есть поддержка 2). b c не является замкнутым последовательным шаблоном, потому что он содержится в более крупном последовательном шаблоне b c d, имеющем ту же поддержку.

b c d имеет поддержку 2. Он также не является замкнутым последовательным шаблоном, потому что он содержится в более крупном последовательном шаблоне b c d e, имеющем ту же поддержку. b c d e является замкнутым последовательным шаблоном, потому что там он не включен ни в один другой последовательный шаблон, имеющий ту же поддержку.

Кстати, вы также можете проверить мой опрос о последовательном распаке шаблонов. Это дает хорошее представление об этой теме и о разных алгоритмах.

Ответ 3

Google для "закрытых частых наборов предметов". Будет много страниц, объясняющих это, как и любая книга интеллектуального анализа данных (ищите алгоритм APRIORI).

"Закрыто" говорит, что нет большего набора предметов с той же поддержкой. Может быть больше наборов элементов, но они должны иметь меньшую поддержку.

Для большинства случаев использования достаточно либо просмотреть максимальные, либо только закрытые элементы.