Базовая оценка минерализации. Ресурсный геолог. Андрей Вяльцев
для оценки дисперсии выборки
То есть выборочная дисперсия – среднее из квадратов отклонения случайной величины от ее среднего значения.
Считается (и доказывается в классических статистических работах), что выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Для оценки дисперсии генеральной совокупности используется чуть более сложная формула:
Формула для оценки дисперсии генеральной совокупности
Выше мы с помощью несложных логических рассуждений вывели формулу дисперсии. Было бы нелишним понимать смысл этой формулы, но строгого запоминания этих формул не требуется, поскольку они заложены во всем ПО, работающем с данными (по крайней мере, авторам не встречалось ПО, где бы эти формулы не были заложены).
Выше приведены две формулы расчета дисперсии. Необходимо обратить внимание на то, что в задачах моделирования практически всегда мы имеем дело не с генеральными совокупностями, а со случайными выборками из генеральной совокупности. Поэтому мы не имеем точного значения дисперсии, а только ее оценку. В учебниках по математической статистике5 указано, что верхняя формула (где выполняется деление на численность выборки) дает смещенную оценку дисперсии, а нижняя (где деление выполняется на численность выборки минус 1) – несмещенную. Вторую формулу используют для оценки дисперсии генеральной совокупности.
Теперь о том, какую дисперсию считает ПО, которым мы имеем счастье пользоваться:
– Первым пунктом идет, естественно, великий и ужасный Excel6. В Excel существует две формулы для расчета дисперсии (на самом деле, больше, но глобально – две, остальные – это вариации на тему «использовать логические значения / не использовать логические значения»): ДИСП. В и ДИСП. Г. Причем вторая, как сказано в ее кратком описании, рассчитывает дисперсию генеральной совокупности. Вот, казалось бы, «щасстье привалило». Однако нет: ручная проверка показывает, что результат работы функции ДИСП. Г совпадает с формулой смещенной оценки. В чем же проблема? А проблема очень простая: функция ДИСП. Г считает, что то, что она получила на вход, это и есть генеральная совокупность. А при генеральной совокупности – таки да, надо делить на численность генеральной совокупности. Но у нас-то не генеральная! Хорошо, если генеральная совокупность выглядит как «непьющие мужчины за 40 деревни Чуево-Кукуево» – там вообще считать нечего. Но в моделировании мы практически всегда имеем дело со случайной выборкой. Поэтому функцию ДИСП. Г мы забываем, как страшный сон.
Вывод: Excel для выборочной дисперсии (ДИСП. В) приводит ее несмещенную оценку.
– Google таблицы7 – аналогично: функция VAR рассчитывает несмещенную оценку, функция VARP совершенно аналогична ДИСП. Г Excel.
– Datamine. Дает смещенную оценку.
– Snowden
5
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.docx
6
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.xlsx
7
https://docs.google.com/spreadsheets/d/1dlF4GKxsQ9DQZoPm1JBFQss3XLXqgl_j3h7qTTrEfJM