Вы здесь

Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Какая величина варьируется больше — вес котов или вес коров? Допустим, что средний вес кота равен 4 кг и в 95 % случаев он лежит в интервале от 3 до 5 кг. Предположим, что вес коровы в 95 % случаев лежит в интервале от 480 до 500 кг. Если мы изучим вес котов, то увидим, что он варьируется очень сильно (некоторые коты весят почти в два раза больше других), а вес коров различается несущественно.

Среднеквадратическое отклонение веса котов будет находиться в пределах 0,5 кг. В соответствии с закономерностью вариации весов, 95 % выборки отстоит от среднего значения не более чем на два среднеквадратических отклонения. Об этом будет рассказано в следующей главе, посвященной нормальному распределению. Среднеквадратическое отклонение веса коров будет лежать в пределах 5 кг, что в 10 раз больше, однако вес коров варьируется меньше.

Чтобы разрешить этот парадокс, возникающий при сравнении вариаций, вводится коэффициент вариации, который равен частному среднеквадратического отклонения и среднего значения:

В нашем примере коэффициент вариации для веса котов равен 0,125, для веса коров — 0,01. Коэффициент вариации — безразмерная величина.

* * *

ДВЕ КЛАВИШИ ДЛЯ РАСЧЕТА СРЕДНЕКВАДРАТИЧЕСКОГО ОТКЛОНЕНИЯ

Несмотря на то что дисперсия и среднеквадратическое отклонение — важнейшие показатели статистики, их часто пытаются скрыть. При попытке обобщить большую выборку данных мы можем столкнуться с одной из следующих ситуаций.

1. Интерес представляют имеющиеся данные. Мы хотим определить среднее значение или среднеквадратическое отклонение этих данных, составляющих так называемую генеральную совокупность.

2. Имеющиеся данные являются выборкой из изучаемой генеральной совокупности. Иными словами, интерес представляет не столько среднее значение или среднеквадратическое отклонение, сколько оценка (некое представление) значений генеральной совокупности.

Расчет среднего значения в обоих случаях будет одинаков. Формула не изменится, так как наилучшей оценкой среднего значения генеральной совокупности является среднее значение выборки. Если мы хотим сделать какие-то выводы о генеральной совокупности на основании выборки, необходимо, чтобы выборка была репрезентативной.

При расчете дисперсии ситуация выглядит несколько иначе. Если дана генеральная совокупность, то нужно использовать формулу, указанную выше. Если же дана выборка, а мы хотим оценить дисперсию генеральной совокупности, используется следующая формула:

Почему? Дело в том, что при работе с выборками вариация рассчитывается с использованием среднего значения по выборке, а не среднего значения генеральной совокупности, которое мы хотим найти. Можно сказать, что среднее значение выборки подстраивается под данные выборки, что ведет к недооценке вариации генеральной совокупности. При делении на (-1) результат будет чуть больше, и он будет точнее описывать дисперсию генеральной совокупности. При делении на 4 или на 3 разница окажется большой, но при делении на 100 или на 99 разница будет невелика. На практике для больших объемов выборки подобные расхождения не влияют на результат.

Если эта тема кажется вам сложной и вы что-то не понимаете, не волнуйтесь. Если при решении задачи вам придется выбирать между двумя формулами, считайте, что речь идет о выборке. В этом случае нужно делить на (n — 1). Если вы используете статистическую программу, где нет возможности выбора из двух формул, знайте: в программе используется формула для выборки.

х¯ — среднее арифметическое.

σn — среднеквадратическое отклонение в случае, когда расчет выполняется для всей генеральной совокупности и интерес представляет среднеквадратическое отклонение «всех» данных.

σn-1 — среднеквадратическое отклонение в случае, когда расчет выполняется для выборки и стоит задача оценить среднеквадратическое отклонение всей генеральной совокупности, из которой взята выборка.

Статистические функции на калькуляторе: одна клавиша используется для расчета среднего арифметического, две клавиши — для вычисления среднеквадратического отклонения.

* * *

Резюмируем данные (3): квантили

Некоторые показатели используются часто, но они не характеризуют центр распределения и вариацию. С их помощью «проводят границы» на области данных и получают некие эталонные значения, с которыми можно сравнить все остальные.

Квартили

Страницы


В нашей электронной онлайн библиотеке вы можете бесплатно и без регистрации прочитать «Том13. Абсолютная точность и другие иллюзии. Секреты статистики» автора Грима Пере на телефоне, андроиде, айфоне, айпаде. Сейчас вы находитесь в разделе „Глава 1Описательная статистика: как извлечь важную информацию из множества данных“ на странице 4. Приятного чтения.