В научных исследованиях для описания данных или сравнения показателей в выборках нужно привести средний уровень количественных показателей: каков средний рост, возраст, уровень гемоглобина в крови и т.д. в той или иной когорте исследования. Как же это правильно посчитать?
По школьной привычке (или по пожеланию научного руководителя) первое что приходит на ум – сложить показатели по всем объектам наблюдения и разделить на их число — посчитать среднее арифметическое. В этом посте, мы попытаемся убедить вас не то, чтобы не считать среднее арифметическое, но задуматься перед его использованием, и, может, заставить задуматься вашего научрука :)
Пример №1
Дано: список зарплат рядовых медицинских сотрудников больницы (в тыс. руб.): 25, 17, 23, 18, 24, 23, 16, а также зарплата главврача – 85 и его заместителя – 50. Каков средний уровень зарплаты в больнице?
Согласно среднему арифметическому, средняя зарплата по больнице – 31,2 тыс. рублей. Если же мы посчитаем вместо среднего арифметического медиану, то получим 23 тыс. рублей. Что, по-вашему, ближе к правде?
Пример №2
Имеются данные о погрешности в измерении АД в мм.рт.ст. двумя приборами: А и Б.
Сравнение погрешностей приборов критерием Манна-Уитни на сервисе Статзиллы показало, что средний уровень погрешностей двух приборов статистически значимо различается (уровень статистической значимостир=0,02). При этом, среднее арифметическое ошибки прибора А равно 14,6 мм.рт.ст., но и у прибора Б оно также составило 14,6 мм.рт.ст…Какой из приборов статистически лучше?
Ниже приведены результаты расчета значимости различий по Манну-Уитни:
а) с использованием среднего арифметического (полная версия по ссылке)
б) с использованием медианы (полная версия по ссылке)
Как видно, средняя погрешность приборов, оцененная с помощью медианы, отличается не только статистически, но и «на глаз»: 14,5 мм.рт.ст у прибора А и 3,5 мм.рт.ст у прибора Б.
Неужели среднее арифметическое настолько плохо и его никогда нельзя использовать?
Конечно, все не так категорично.
Во-первых, если вы знаете, что ваши данные имеют распределение, близкое к нормальному (вы проверили это с помощью теста Колмогорова-Смирнова, Шапиро-Уилка ну или хотя бы просто посмотрели на гистограмму) – то среднее арифметическое является вполне адекватной оценкой и примерно совпадет с медианой.
Во-вторых, медиана оценивает среднее, нивелировав влияние выбросов. Но именно эта «сдержанность» медианы может скрыть из виду важные моменты, тогда как среднее арифметическое, завысив или занизив среднее, поможет обратить на них внимание. Так, в нашем примере 2 с погрешностью прибора, медиана говорит, что прибор Б измеряет давление в среднем точнее. Но высокое среднее арифметическое и сами данные указывают на внушительные выбросы – 30 и 90 мм.рт.ст. Очень важно разобраться с ними и понять, чем вызваны такие аномально высокие ошибки измерений.
В-третьих, что бы вы ни решили использовать, обязательно укажите, насколько эта оценка среднего уровня устойчива. Для этого можно использовать различные показатели: корень из дисперсии, ошибку среднего, квартили, минимум и максимум, доверительный интервал. Только совокупность описательных статистик даст полную картину о рассматриваемом показателе и позволит избежать нелепых ошибок, неверных выводов, страшных вопросов на защите и насмешек коллег :)
Ну и, наконец, принимая решение, что же лучше использовать, среднее арифметическое или медиану, вспомните эту таблицу: