Нормализация URL (или канонизация URL) - это процесс, посредством которого URL-адреса модифицируются и стандартизируются согласованным образом. Целью процесса нормализации является преобразование URL в нормализованный или канонический URL-адрес, поэтому можно определить, эквивалентны ли два синтаксически разных URL-адреса.
Стратегии включают добавление конечных косых черт, https = > http и т.д. На странице Wikipedia перечислены многие.
Есть ли любимый способ сделать это на Java? Возможно, библиотека (Nutch?), Но я открыт. Меньше и меньше зависимостей лучше.
Сейчас я буду писать код и следить за этим вопросом.
EDIT. Я хочу, чтобы агрессивно нормализовать, чтобы подсчитывать URL-адреса одинаково, если они относятся к одному и тому же контенту. Например, я игнорирую параметры utm_source, utm_medium, utm_campaign. Например, я игнорирую субдомен, если заголовок одинаков.