Найти - Пользователи
Полная версия: Сравнение 2х файлов очень большого объема
Начало » Python для экспертов » Сравнение 2х файлов очень большого объема
1
megoloman
Здравствуйте! Подскажите пожалуйста какой способ будет наиболее рациональным для сравнения 2-х петабайтных файлов?
PooH
Сравнить дату изменения :)
megoloman
Сравнить к примеру на наличие недостающих данных, суть в том, каким образом с такими большими объемами лучше работать?
doza_and
А что вы понимаете под сравнением? Что будет получаться в результате сравнения? Если они петабайтные, то это уже наверное уже и не файлы. На чем размещено?
Операция достаточно стандартная легко гуглится.

http://stackoverflow.com/questions/29226212/comparing-two-text-files-using-hadoop-map-reduce

Довольно неплохо себя показал на суперЭВМ распределенный hdf5 файл. Для него есть утилиты сравнения файлов.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB