Interested Article - Дифференциальная энтропия

Дифференциальная энтропия функционал , заданный на множестве абсолютно непрерывных распределений вероятностей , формальный аналог понятия информационной энтропии Шеннона для случая непрерывной случайной величины . В теории информации функционал был эвристически введён К. Шенноном , однако он не является автором термина «дифференциальная энтропия». Сам термин был введён А. Н. Колмогоровым совместно с И. М. Гельфандом и А. М. Ягломом и подчёркивает то, что данное понятие имеет иной смысл, нежели энтропия дискретных распределений. Ими же получен строгий вывод дифференциальной энтропии как первого члена асимптотического разложения энтропии , в котором проявляется зависимость от распределения случайной величины . Для непрерывной случайной величины ξ {\displaystyle \xi } , распределённой на X R n {\displaystyle X\subseteq R^{n}} ( n < {\displaystyle n<\infty } ), дифференциальная энтропия определяется как

H ( ξ ) = X f ( x ) log f ( x ) d x {\displaystyle H(\xi)=-\int _{X}{f\left(x\right)\log f\left(x\right)\,}dx} ,

где f ( x ) {\displaystyle f\left(x\right)} плотность распределения случайной величины (или сигнала непрерывного источника как случайной величины). Выбор основания логарифма в этой формуле (оно должно быть больше 1) определяет единицу измерения соответствующего количества информации. Так, в теории информации часто используют двоичный логарифм , что соответствует единице количества информации бит , а функционал интерпретируется как средняя информация непрерывного источника. В математической статистике в определении дифференциальной энтропии по соображениям удобства обычно используют натуральный логарифм (соответствующая единица нат ), функционал интерпретируется как мера неопределённости непрерывного распределения.

Дифференциальная энтропия неинвариантна по отношению к преобразованиям координат случайной величины и не имеет самостоятельного смысла (имеет неинтерпретируемое числовое значение). Более того, если случайная величина имеет размерность, то функционал дифференциальной энтропии будет некорректен с точки зрения размерности, поскольку под знаком логарифма оказывается размерная величина. Однако разность дифференциальных энтропий двух случайных величин, распределённых на одном множестве, является корректной, причём безразмерной величиной и совпадает с разностью их энтропий. Поскольку энтропия любой непрерывной случайной величины бесконечна, при взятии разности энтропий нужно раскрыть неопределённость , используя асимптотическое разложение .

Таким образом, возможность выражать дифференциальную энтропию в битах (или других единицах) довольно условна: ситуация здесь подобна измерению температуры в градусах Цельсия , которые, хотя и совпадают по величине с кельвинами , не являются абсолютной шкалой температуры , а имеют относительно неё некоторый сдвиг (по этой причине дифференциальная энтропия, как и температура по шкале Цельсия , может быть отрицательной). Отличие состоит в том, что в случае с дифференциальной энтропией этот сдвиг является бесконечным по отношению к абсолютной шкале, определяемой значениями энтропии . Т.е. абсолютную шкалу для энтропии непрерывных распределений нельзя выбрать, но с помощью дифференциальной энтропии можно сравнивать энтропии различных распределений.

В некоторых источниках дифференциальную энтропию распределения интерпретируют как его энтропию относительно энтропии равномерного распределения на промежутке единичной длины, поскольку последнее имеет равную нулю дифференциальную энтропию. Нужно заметить, что такой подход не вполне корректен, так как энтропия в непрерывном случае зависит от того, каким образом шаг дискретизации при разбиении промежутка стремится к нулю. Лишь в случае, когда рассматривается один и тот же промежуток, можно считать, что при вычислении энтропии используется одинаковая его дискретизация для каждого из распределений, тогда разность энтропий стремится к конечному пределу. В общем случае (при произвольной дискретизации) разность энтропий непрерывных случайных величин не стремится ни к какому пределу.

Условная дифференциальная энтропия

Условная дифференциальная энтропия для величины X {\displaystyle X} при заданной величине Y {\displaystyle Y} определяется следующей формулой:

H ( X | Y = y ) = + f X | Y ( x ) log f X | Y ( x ) d x {\displaystyle H\left({X|Y=y}\right)=-\int \limits _{-\infty }^{+\infty }{f_{X|Y}\left(x\right)\log f_{X|Y}\left(x\right)\,dx}} .

Безусловная и условная дифференциальные энтропии могут быть как положительными, так и отрицательными величинами, а также могут быть равны бесконечности . Данное обстоятельство также указывает на то, что дифференциальная энтропия (условная и безусловная) имеет несколько иной смысл, нежели энтропия , которая всегда неотрицательна.

Для дифференциальной энтропии справедливы равенства, аналогичные для энтропии дискретного источника :

H ( X ) H ( X | Y ) {\displaystyle H\left(X\right)\geq H\left({X|Y}\right)} (для независимых источников — равенство)
H ( X , Y ) = H ( X ) + H ( Y | X ) = H ( Y ) + H ( X | Y ) {\displaystyle H\left({X,Y}\right)=H\left(X\right)+H\left({Y|X}\right)=H\left(Y\right)+H\left({X|Y}\right)}

Примеры

В приведённых ниже примерах в определении дифференциальной энтропии используется натуральный логарифм, σ 2 {\displaystyle \sigma ^{2}} — дисперсия распределения.

H = 1 2 ln ( 2 π σ 2 e ) {\displaystyle H={\frac {1}{2}}\ln \left({2\pi \sigma ^{2}e}\right)} .
  • Среди распределений, заданных на ограниченном промежутке, максимум дифференциальной энтропии достигается для равномерного распределения и равен
H = ln ( 2 3 σ ) {\displaystyle H=\ln \left({2{\sqrt {3}}\sigma }\right)} .
H = ln ( 2 σ e ) {\displaystyle H=\ln \left({{\sqrt {2}}\sigma e}\right)} .

Примеры с конкретными единицами измерения

Возьмем для определенности биты . Следовательно основанием логарифма будет 2.

  • Для равномерного распределения от 0 {\displaystyle 0} до 1 {\displaystyle 1} :
f ( x ) = 1 {\displaystyle f(x)=1}
H ( f ) = 0 1 d x 1 log 2 1 = 0 b i t {\displaystyle H(f)=-\int _{0}^{1}dx1\log _{2}1=0\;{\rm {bit}}}
  • Для равномерного распределения от 0 {\displaystyle 0} до 2 {\displaystyle 2} :
f ( x ) = 1 2 {\displaystyle f(x)={\frac {1}{2}}}
H ( f ) = 0 2 d x 1 2 log 2 1 2 = 1 b i t {\displaystyle H(f)=-\int _{0}^{2}dx{\frac {1}{2}}\log _{2}{\frac {1}{2}}=1\;{\rm {bit}}}
  • Для равномерного распределения от 0 {\displaystyle 0} до 4 {\displaystyle 4} :
f ( x ) = 1 4 {\displaystyle f(x)={\frac {1}{4}}}
H ( f ) = 0 4 d x 1 4 log 2 1 4 = 2 b i t {\displaystyle H(f)=-\int _{0}^{4}dx{\frac {1}{4}}\log _{2}{\frac {1}{4}}=2\;{\rm {bit}}}

Примечания

  1. , с. 296-300.
  2. , с. 300-320.
  3. ↑ , с. 39-41.
  4. ↑ , с. 583-585.
  5. ↑ , с. 74-77.

Литература

  • 8.1 Дифференциальная энтропия // Основы кодирования = Information und Codierung / пер. . — ЗАО «РИЦ „ “», 2004. — С. 109—114. — (Мир программирования). — 3000 экз. — ISBN 5-94836-019-9 .
  • Колмогоров А. Н. Теория информации и теория алгоритмов. — М. : Наука, 1987. — 304 с.
  • Тарасенко Ф. П. Введение в курс теории информации. — Томск: Изд-во Томского университета, 1963. — 240 с.
  • Шеннон К. Работы по теории информации и кибернетике. — М. : Издательство иностранной литературы, 1963. — 830 с.
  • Гельфанд И. М., Колмогоров А. Н., Яглом А. М. Количество информации и энтропия для непрерывных распределений. В кн.: Тр. III Всесоюзного математического съезда, т. 3. — М. : АН СССР, 1958.
  • Глушков В.М., Амосов Н.М., Артеменко И.А. Энциклопедия кибернетики. Том 2. — Киев, 1974.

Ссылки

Same as Дифференциальная энтропия