megoloman
Май 6, 2016 16:31:12
Здравствуйте! Подскажите пожалуйста какой способ будет наиболее рациональным для сравнения 2-х петабайтных файлов?
PooH
Май 6, 2016 18:58:16
Сравнить дату изменения :)
megoloman
Май 6, 2016 19:27:57
Сравнить к примеру на наличие недостающих данных, суть в том, каким образом с такими большими объемами лучше работать?
doza_and
Май 6, 2016 19:56:23
А что вы понимаете под сравнением? Что будет получаться в результате сравнения? Если они петабайтные, то это уже наверное уже и не файлы. На чем размещено?
Операция достаточно стандартная легко гуглится.
http://stackoverflow.com/questions/29226212/comparing-two-text-files-using-hadoop-map-reduceДовольно неплохо себя показал на суперЭВМ распределенный hdf5 файл. Для него есть утилиты сравнения файлов.