Это должен быть идеальный случай не изобретать колесо, но до сих пор мой поиск был тщетным.
Вместо того, чтобы писать сам, я хотел бы использовать существующий токенизатор С++. Токены должны использоваться в индексе полнотекстового поиска. Производительность очень важна, я буду разбирать много гигабайт текста.
Изменить: обратите внимание, что маркеры должны использоваться в индексе поиска. Создание таких токенов не является точной наукой (afaik) и требует некоторой эвристики. Это было сделано тысячу раз раньше и, вероятно, тысячами разных способов, но я даже не могу найти их:)
Любые хорошие указатели?
Спасибо!