Interested Article - Оценка Чернова
- 2020-08-05
- 1
Оценка Чернова даёт экспоненциально убывающие оценки вероятности больших отклонений сумм независимых случайных величин . Эти оценки являются более точными, чем оценки, полученные с использованием первых или вторых моментов, такие как неравенство Маркова или неравенство Чебышёва , которые дают лишь степенной закон убывания. Вместе с тем оценка Чернова требует, чтобы случайные величины были независимы в совокупности — условие, которое ни неравенство Маркова, ни неравенство Чебышёва не требуют, хотя неравенство Чебышёва требует попарную независимость случайных величин.
Оценка Чернова имеет отношение к и неравенству Хёфдинга , которые ей исторически предшествуют.
Основной случай
Основной случай оценки Чернова для случайной величины достигается применением неравенства Маркова к e tX . Для каждого
Когда X является суммой n случайных величин X 1 , ... , X n , для любого
В частности, оптимизируя по t и предполагая, что X i независимы, мы получаем
- (1)
Аналогично
и, таким образом,
Конкретные значения оценок Чернова получаются вычислением для конкретных величин .
Пример
Пусть X 1 , ..., X n — независимые случайные величины Бернулли , сумма которых X , и каждая равна 1 с вероятностью . Для переменной Бернулли верно:
следовательно,
Для всякого при и получаем
- ,
и общий случай оценки Чернова даёт :64
Вероятность одновременного свершения более чем n /2 событий { X k = 1 } в точности равна:
Нижнюю оценку этой вероятности можно вычислить с помощью неравенства Чернова:
В самом деле, обозначая μ = np , мы получаем мультипликативную форму оценки Чернова (см. ниже или Corollary 13.3 in Sinclair's class notes) :
Этот результат допускает разнообразные обобщения, как отмечено ниже. Можно отметить несколько форм оценок Чернова: исходную аддитивную форму (даёт оценку для абсолютной ошибки ) или более практичную мультипликативную форму (ограничивает ошибку по отношению к среднему).
Аддитивная форма (оценка для абсолютной ошибки)
Следующая Теорема была доказана .
- Теорема Чернова — Хёфдинга . Пусть X 1 , ..., X n — независимые одинаково распределённые случайные величины , принимающие значения {0, 1}.
-
Положим
p
= E[
X
]
и
ε
> 0
. Тогда
-
где
-
Это
расхождение Кульбака — Лейблера
между случайными величинами, имеющими
бернуллиево распределение
с параметрами
x
и
y
соответственно. Если
p
≥
1
/
2
,
то
Более простая оценка получается ослаблением этой теоремы, используя неравенство D ( p + ε || p ) ≥ 2 ε 2 , которое следует из выпуклости D ( p + ε || p ) и того факта, что
Этот результат является частным случаем неравенства Хёфдинга . В некоторых случаях используются оценки
более сильные при p < 1 / 8 .
Мультипликативная форма (оценка для относительной ошибки)
-
Мультипликативная оценка Чернова
. Пусть
X
1
, ...,
X
n
—
независимые
случайные величины, принимающие значения
{0, 1}.
Их сумму обозначим
X
,
математическое ожидание
этой суммы обозначим
μ
. Тогда для всякого
Аналогичным образом можно показать, что для любого
На практике вышеприведённая формула часто оказывается громоздкой , поэтому используются более слабые, но удобные оценки
которые получаются с помощью неравенства из списка логарифмических неравенств . Или ещё более слабое неравенство
Приложения
Оценки Чернова имеют приложения в уравновешивании множеств и маршрутизации пакетов в разреженных сетях.
Проблема уравновешения множества возникает при проектировании статистического эксперимента . Как правило, при проектировании статистического эксперимента с заданными в этом эксперименте свойствами участников нам необходимо разделить участников на две непересекающиеся группы так, чтобы каждое свойство было, насколько это возможно, сбалансировано между двумя группами. См. также информацию в от 16 апреля 2021 на Wayback Machine .
Оценки Чернова также используются для достижения жестких границ в задачах маршрутизации с использованием перестановок. Это уменьшает перегруженность при маршрутизации в разреженных сетях. См. подробнее в от 16 апреля 2021 на Wayback Machine .
Также оценки Чернова находят применение в теории вычислительного обучения для доказательства того, что обучающий алгоритм аппроксимационно по вероятности корректен . То есть с высокой вероятностью этот алгоритм имеет малую ошибку на достаточно большом наборе тренировочных данных .
Оценки Чернова могут быть эффективно использованы для оценки "уровня робастности " приложения/алгоритма посредством исследования его пространства возмущений при помощи рандомизации.
Матричная оценка
и использовали оценки Чернова для случайных величин с матричными значениями. Следующую версию неравенства можно найти в работе Троппа.
Пусть M 1 , ..., M t — случайные величины с матричными значениями такие, что и . Обозначим оператор нормы матрицы . Если неравенство почти наверное выполнено для всех , то для каждого ε > 0
Чтобы заключить, что отклонение от 0 ограничено величиной ε с высокой вероятностью, нам нужно выбрать (количество образцов) пропорциональным логарифму . В общем случае зависимость от неочевидна: например, возьмём диагональную случайную матрицу знаков размерности . Оператор нормы суммы независимых образцов является в точности максимальным отклонением среди независимых случайных блужданий длины . Для того, чтобы достичь фиксированную границу максимального отклонения с постоянной вероятностью, должно логарифмически возрастать вместе с .
Следующая теорема получена в предположении, что имеет низкий ранг, для того, чтобы избежать зависимости от размерности.
Теорема без зависимости от размерности
Пусть 0 < ε < 1 и ─ случайная симметрическая вещественная матрица с и почти наверное. Предположим, что каждый элемент носителя имеет ранг самое большее . Положим
Если почти наверное, то
где M 1 , ..., M t — это независимые одинаково распределенные копии .
Теорема для не полностью случайных матриц
Анкит Гарг, Инь Тат Ли, Чжао Сонг и получили оценки типа Чернова для сумм матричнозначных случайных величин, семплированных с помощью случайного блуждания экспандера .
Расмус Кинг и Чжао Сонг получили оценки типа Чернова для сумм матриц лапласианов случайных деревьев.
Вариант семплинга
Следующий вариант оценки Чернова можно использовать для оценки вероятности того, что большинство популяции станет в выборке меньшинством и наоборот.
Предположим, имеется общая популяция и подпопуляция . Обозначим относительный размер подпопуляции ( ) через .
Допустим, мы выбираем целое кисло и случайную выборку размера . Обозначим относительный размер подпопуляции ( ) через .
Тогда для каждой доли :
В частности, если ─ это большинство в (то есть, ), то мы можем оценить сверху вероятность того, что останется большинством в взяв :
Эта оценка, разумеется, не является точной. Например, если , то мы получаем тривиальную оценку .
Доказательства
Теорема Чернова-Хёфдинга (аддитивная форма)
Пусть q = p + ε . Взяв a = nq в формуле (1) , получаем:
Теперь, зная что Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , имеем
Таким образом, мы можем легко вычислить минимум, используя технику дифференцирования:
Приравнивая полученное выражение к нулю и разрешая уравнение относительно , получаем
так что
Следовательно,
Поскольку q = p + ε > p , то мы видим, что t > 0 , так что наша оценка удовлетворяется по t . Получив t , мы можем вернуться в предыдущие уравнения и найти
Теперь мы имеем желаемый результат, поскольку
Для завершения доказательства в симметрическом случае мы попросту определим случайную величину Y i = 1 − X i , применим к ней точно такое же доказательство и присоединим результат к нашей оценке.
Мультипликативная форма
Положим Pr( X i = 1) = p i . Согласно формуле (1) ,
Третья строчка следует из того, что принимает значение e t с вероятностью p i и значение 1 с вероятностью 1 − p i . Это идентично вычислениям выше в доказательстве аддитивной формы.
Переписав как и вспомнив, что (если x > 0 , то неравенство строгое), мы положим . Тот же результат можно получить, напрямую заменяя a в уравнении для оценки Чернова на (1 + δ ) μ .
Таким образом,
Если мы просто положим t = ln(1 + δ ) , так что t > 0 для δ > 0 , то сможем подставить это в последнее выражение и найти
- ,
что и требовалось доказать.
См. также
Ссылки
- Этот метод был впервые применён Сергеем Бернштейном в доказательствах, связанных с .
- ↑ Mitzenmacher, Michael, & Upfal, Eli. . — Cambridge University Press, 2005. — ISBN 978-0-521-83540-4 . — doi : . от 16 апреля 2021 на Wayback Machine
- Sinclair, Alistair (Fall 2011). Дата обращения: 30 октября 2014. Архивировано из 31 октября 2014 года.
- Hoeffding, W. (1963). (PDF) . Journal of the American Statistical Association . 58 (301): 13—30. doi : . JSTOR .
- . logarithm . Дата обращения: 13 мая 2020. 19 августа 2020 года.
- M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. Chapter 9 (Appendix), pages 190-192. MIT Press, 1994.
- C.Alippi: "Randomized Algorithms" chapter in Intelligence for Embedded Systems. Springer, 2014, 283pp ISBN 978-3-319-05278-6 .
-
Ahlswede, R.; Winter, A. (2003). "Strong Converse for Identification via Quantum Channels".
.
48
(3): 569—579.
arXiv
:
.
doi
:
.
{{ cite journal }}
: Недопустимый|ref=harv
( справка ) -
Tropp, J. (2010). "User-friendly tail bounds for sums of random matrices".
Foundations of Computational Mathematics
.
12
(4): 389—434.
arXiv
:
.
doi
:
.
{{ cite journal }}
: Недопустимый|ref=harv
( справка ) - Magen, A.; Zouzias, A. (2011). "Low Rank Matrix-Valued Chernoff Bounds and Approximate Matrix Multiplication". arXiv : [ ].
- Ankit Garg, Yin Tat Lee, Zhao Song, Nikhil Srivastava. // Association for Computing MachineryNew YorkNYUnited States. — 2018. 14 апреля 2021 года.
- Rasmus Kyng, Zhao Song. // FOCS. — 2018. — 1 октября. 22 апреля 2021 года.
- Goldberg, A. V. Competitive Auctions for Multiple Digital Goods // Algorithms — ESA 2001 / A. V. Goldberg, J. D. Hartline. — 2001. — Vol. 2161. — P. 416. — ISBN 978-3-540-42493-2 . — doi : . ; lemma 6.1
- Посмотреть графики: от 4 января 2015 на Wayback Machine и от 4 января 2015 на Wayback Machine .
- Обратитесь к приведенному выше доказательству.
Дальнейшее чтение
- Chernoff, H. (1952). . . 23 (4): 493—507. doi : . JSTOR . MR . Zbl .
- Chernoff, H. (1981). . . 9 (3): 533—535. doi : . JSTOR . MR . Zbl .
- Hagerup, T.; Rüb, C. (1990). "A guided tour of Chernoff bounds". . 33 (6): 305. doi : .
- Nielsen, F. (2011). "Chernoff information of exponential families". arXiv : [ ].
- 2020-08-05
- 1