Диаграмма Венна из списка кластеров и сопутствующих факторов

У меня есть входной файл со списком кластеров ~ 50000 и наличие в каждом из них нескольких факторов (всего около 10 миллионов записей), см. ниже пример ниже:

set.seed(1)
x = paste("cluster-",sample(c(1:100),500,replace=TRUE),sep="")
y = c(
  paste("factor-",sample(c(letters[1:3]),300, replace=TRUE),sep=""),
  paste("factor-",sample(c(letters[1]),100, replace=TRUE),sep=""),
  paste("factor-",sample(c(letters[2]),50, replace=TRUE),sep=""),
  paste("factor-",sample(c(letters[3]),50, replace=TRUE),sep="")
)
data = data.frame(cluster=x,factor=y)

С небольшим количеством помощи от другого вопроса я получил его для создания piechart для совместного возникновения таких факторов:

counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse='+'))))
pie(counts[counts>1])

Но теперь я хотел бы иметь диаграмму Венна для совместного возникновения факторов. В идеале, также в том виде, в котором может принимать порог для минимального количества для каждого фактора. Например, диаграмма Венна для разных факторов, чтобы каждый из них должен был иметь n > 10 в каждом кластере, который должен быть учтен.

Я попытался найти способ для создания подсчета таблиц с помощью агрегата, но не смог заставить его работать.

library(venneuler) ## Modify the "factor" column, by renaming it and converting ## it to a character vector. levels(data$factor) <- c("a", "b", "c") data$factor <- as.character(data$factor) ## FUN is an anonymous function that determines which letters are present ## 2 or more times in the cluster and then pastes them together into ## strings of a form that venneuler() expects. ## inter <- aggregate(factor ~ cluster, data=data, FUN = function(X) { tab <- table(X) names <- names(tab[tab>=2]) paste(sort(names), collapse="&") }) ## Count how many clusters contain each combination of letters counts <- table(inter$factor) counts <- counts[names(counts)!=""] # To remove groups with <2 of any letter # a a&b a&b&c a&c b b&c c # 19 13 12 14 13 9 12 ## Convert to proportions for venneuler() ps <- counts/sum(counts) ## Calculate the Venn diagram vd <- venneuler(c(a=ps[["a"]], b = ps[["b"]], c = ps[["c"]], "a&b" = ps[["a&b"]], "a&c" = ps[["a&c"]], "b&c" = ps[["b&c"]], "a&b&c" = ps[["a&b&c"]])) ## Plot it! plot(vd)

library(limma) out <- aggregate(factor ~ cluster, data=data, FUN=table) out <- cbind(out[1], data.frame(out[2][[1]])) counts <- vennCounts(out[, -1] >= 2) vennDiagram(counts, names = c("Factor A", "Factor B", "Factor C"), cex = 1, counts.col = "red")

Ответ 1