Визуально оценить степень энтропии можно с помощью гистограммы - распределения вероятности повторов одинаковых байтов в файле. По энтропии файла можно предположить, какого типа файл перед нами, видя только его гистограмму.


Для демонстрации возьмём три файла разных типов и сравним их гистограммы. Первый пусть будет текстовый файл (*.TXT). Его гистограмма показана на рисунке:




Текстовый файл содержит только текст. Каждый символ текста кодируется определёнными байтами в соответствии с таблицей кодировки. Хотя видов кодировок достаточно большое количество, очевидно, что буквенно-цифровых символов ограниченное число, которое обычно меньше, чем 255. Поэтому на первой гистограмме заняты лишь некоторые области, а некоторых байтов нет вовсе.


Следующий файл будет формата PDF:



Этот файл содержит все возможные байты, так как формат PDF кодируется не так, как текстовые файлы. Он хранит много служебной информации: форматирование, шрифты, изображения и т.д. Но по его гистограмме видно, что некоторые из байтов встречаются с примерно равной вероятностью, в то время как другие - намного чаще остальных. Отсюда и множественные острые всплески на гистограмме, и в целом она имеет довольно "рваный" вид, хотя и занимает всю доступную ширину. 


И последний файл - заархивированный в формат 7Z:




Эта гистограмма имеет две основные особенности: во-первых, все байты встречаются в заархивированном файле с более-менее равной вероятностью (достаточно ровный верхний край), а во-вторых, на практически отсутствует свободное пространство над гистограммой, что говорит о почти полном отсутствии избыточности такого файла. Отсюда можно сделать вывод, что алгоритм архиватора каким-то особым образом "перемешивает" байты файла, чтобы добиться их максимально равномерного распределения. 


Таким образом, энтропия в информатике, как и в физике - это мера неупорядоченности системы, в данном случае - неупорядоченности распределения байтов в файле. Энтропия позволяет судить о степени сжатия файла и - косвенно - о его типе.