Форум сайта python.su
Здравствуйте! Подскажите пожалуйста какой способ будет наиболее рациональным для сравнения 2-х петабайтных файлов?
Офлайн
Сравнить дату изменения :)
Офлайн
Сравнить к примеру на наличие недостающих данных, суть в том, каким образом с такими большими объемами лучше работать?
Офлайн
А что вы понимаете под сравнением? Что будет получаться в результате сравнения? Если они петабайтные, то это уже наверное уже и не файлы. На чем размещено?
Операция достаточно стандартная легко гуглится.
http://stackoverflow.com/questions/29226212/comparing-two-text-files-using-hadoop-map-reduce
Довольно неплохо себя показал на суперЭВМ распределенный hdf5 файл. Для него есть утилиты сравнения файлов.
Офлайн