У меня есть два файла A
- nodes_to_delete
и B
- nodes_to_keep
. Каждый файл имеет много строк с числовыми идентификаторами.
Я хочу иметь список числовых идентификаторов, которые находятся в nodes_to_delete
но НЕ в nodes_to_keep
, например, .
Делать это в базе данных PostgreSQL неоправданно медленно. Любой аккуратный способ сделать это в Bash с помощью инструментов Linux CLI?
ОБНОВЛЕНИЕ: Это, кажется, работа Pythonic, но файлы действительно, действительно большие. Я решил некоторые подобные проблемы, используя uniq
, sort
и некоторые методы теории множеств. Это было примерно на два-три порядка быстрее, чем эквиваленты базы данных.