Сортировать уникальные URL-адреса из журнала

Мне нужно получить уникальные URL-адреса из веб-журнала, а затем отсортировать их. Я думал об использовании команды grep, uniq, sort и выводил ее в другой файл

Я выполнил эту команду:

cat access.log | awk '{print $7}' > url.txt

тогда получите только один и отсортируйте их:

cat url.txt | uniq | sort > urls.txt

Проблема в том, что я вижу дубликаты, даже если файл отсортирован, что означает, что моя команда работала. Почему?

Ответ 1

uniq | sort не работает: uniq удаляет непрерывные дубликаты.

Правильный способ - sort | uniq или лучше sort -u.

Ответ 2

uniq нуждается в сортировке ввода, но вы отсортировали его после uniq. Попробуйте:

$ sort -u < url.txt > urls.txt

Ответ 3

Try

cat url.txt | sort | uniq