Я запустил алгоритм коричневой кластеризации из https://github.com/percyliang/brown-cluster, а также реализацию python https://github.com/mheilman/tan-clustering. И оба они дают какое-то двоичное и другое целое для каждого уникального токена. Например:
0 the 6
10 chased 3
110 dog 2
1110 mouse 2
1111 cat 2
Что означает бинарное и целое число?
Из первой ссылки двоичный файл известен как bit-string
, см. http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/
Но как я могу сказать из вывода, что dog and mouse and cat
- это один кластер, а the and chased
находится не в одном кластере?