4.1 Оценка одномерного положения и масштаба (ESTIMATING UNIVARIATE LOCATION AND SCALE)

В качестве примера, предположим, что у нас есть пять измерений:

(1)

и мы хотим оценить его истинное значение. Для этого, обычно вычисляют среднее , которая в данном случае равна. Предположим теперь, что четвертое измерение было записано неправильно и данные имеют вид:

(2)

В этом случае мы получаем , что далеко от искомой истинной величины. Напротив, мы также вычислим медиану этих данных. Для этого мы сортируем наблюдения (2) от наименьшего до наибольшего:

Медиана представляет то среднее значение, получая 6.28, которая по-прежнему разумна. Будем говорить, что медиана является более устойчива к выбросам.

В более общем плане, модель определения местоположения-масштаба(location-scale) утверждает, что одномерные наблюдения независимы и одинаково распределены (i.i.d.) с функцией распределения где F известно. Как правило, F является стандартной гауссовой функцией распределения . Далее мы хотим найти оценку для центра и масштабный параметр .

Классическая оценка местоположения является среднее. Как мы уже видели выше, средняя очень чувствительна даже к одному аберрантному значению из наблюдений. Будем говорить, что величина пробоя образца (breakdown value) выборочное среднее (sample mean) имеет вид , что 0% для большых . В целом, значение пробоя является наименьшая доля наблюдений в наборе данных, которые нуждается в замене, чтобы нести оценку как угодно далеко.(In general, the breakdown value is the smallest proportion of observations in the data set that need to be replaced to carry the estimate arbitrarily far away). Устойчивость (The robustness) блока оценки также измеряется его функции влияния, которое измеряет эффект одного выброса. Влияние функции средней(mean) не ограничен, которая еще раз показывает, что среднее не является устойчивым.

Для общего определения медианы, мы обозначим через наблюдения n-го порядка при . Тогда, медиана , если нечетное, и , если четное. Его значение пробоя составляет около 50%, а это означает, что средний показатель может противостоять до 50% от выброса, и его воздействие функции ограничены. Оба свойства иллюстрируют устойчивость среднего(the median’s).

Ситуация для масштабного параметра аналогична. Классической оценкой является среднеквадратическое отклонение . Поскольку один выброс может уже имеет сколь угодно большим, его пробой (breakdown) значение 0%. Например, для чистых данных (1) выше, мы имеем s = 0,035, в то время как для данных (2) с выбрасом (the outlier), получим s = 25.41! Устойчивая мера масштаба является медиана всех абсолютных отклонений от медианы (MAD), учитывая медианы все абсолютных отклонений от медианы:

(3)

Константа 1,483 является поправочным коэффициентом которая делает MAD объективной при нормальном распределении. MAD из (2) то же, что из (1), а именно 0,044. Мы можем также использовать оценщик , определяемый как, определяемый как:

где и . В данном, случае округляет до ближайшего целого числа. Данная шкала оценки это первый квартиль всех попарных различий между двумя точками данных. Величина разбивки для обоих MAD и оценки Qn составляет 50%.

Также популярным является вероятное отклонение (IQR) определяемое как разность между третьим и первым квартилем, то есть, (where rounds up to the nearest integer). Его значение разбивки составляет всего 25%, но она имеет простую интерпретацию.

Устойчивость среднего значения и (MAD) представляется из расчета: При нормальной модели они менее эффективны, чем среднее значение. Чтобы найти лучший баланс между надежностью и эффективностью, многие другие надежные профессиональные процедуры были предложены такие как M-оценка. Они определяются неявно как решение уравнения

(4)

как решение уравнения для вещественной функции . Знаменатель является начальным надежным масштабным оценщиком, такой же как MAD. Решение (4) можно найти с помощью алгоритма Ньютона-Рафсона, начиная с начальной оценки местоположения . Популярный выбор для являются функция Huber и Тьюки функция biweight . Эти M-оценки содержат настраиваемый параметр , который должен быть выбран заранее.

Люди часто используют правила для выявления выбросов. Классическое правило основано на -оценка наблюдений определяется

(5)

где стандартное отклонение. А именно, правило признака , как отдаленного, если превышает 2,5, скажем. Но в описанном выше примере (2) с посторонним, Z-оценка

ни один из них не достиг 2.5. Наибольшее значение только 1,79, который очень похож на самый большой Z-оценка для чистых данных (1), что составляет 1,41. Z-оценка "посторонних" мала, поскольку она вычитает без надежной средней (который был разработан к "посторонним") потому что он разбивает недостаточно надежным стандартным отклонением (которую выбросом сделал намного больше, чем в чистых данных). Подставляя надежных оценок положения и масштаба в (5), такие как медиана и MAD, дает надежную оценку

(6)

которые являются более полезными; в загрязненном примере (2), надежных оценки являются

в которых выброс значительно превышает 2,5 отключения.

Также Тьюки часто используется boxplot (ящик с усами), чтобы определить возможные выбросы. На этом графике, коробка берется из первого квартиля до третьего квартиля данных. Точки за пределами интервала [-1.5 IQR, +1.5 IQR], называемый забор, традиционно отмечен как недопустимое. Обратите внимание, что boxplot предполагает симметрию, так как мы добавляем ту же сумму которую мы вычитаем из .