Типы переменных

Зависимости между номинальными и порядковыми переменными. Типы переменных:

  1. номинальные используются только для качественной классификации (пол, национальность и т.д.)
  2. порядковые переменные позволяют ранжировать объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженными данной переменной (не согласен…не знаю…согласен).
  3. интервальные переменные позволяют численно выразить и сравнить отличия между ними (шкала температуры)
  4. относительные. Характерная черта – наличие точки абсолютного нуля.

Чтобы анализировать распределение наблюдений по нескольким параметрам одновременно существуют специальные двухвходовые таблицы, которые называются таблицами сопряжённости, или кросстабуляцией. Для описания таких таблиц принято использовать определённые термины. Переменные, табулированные в таблице, называются также факторами. Значения факторов называются уровнями (например, переменная пол имеет 2 уровня).

Для того, чтобы оценить неравномерность распределения оценок (а именно это показывает зависимость переменных), необходимо знать какую долю составляют в каждой категории оценок мужчины и женщины. Для этого нужно посчитать, сколько всего человек – и мужчин, и женщин – получили каждую оценку. Для этого нужно суммировать значения всех столбцов и строк. При равномерном распределении число в каждой ячейке определяется как произведение долей мужчина\женщина и доли конкретной оценки. При отклонении от такого распределения данное произведение будет отличаться от действительного числа наблюдений и называться ожидаемой частотой. В отличие от наблюдаемой частоты оно также определяется как произведение доли данной оценки в общей совокупности оценок на долю данного пола в общей совокупности всех людей или, что тоже самое, как произведение суммы соответствующего столбца на сумму соответствующей строки, делённое на общую сумму по столбцам или строкам (т.е. кол-во всех наблюдений).

Можно ещё модифицировать таблицу сопряжённости для обоснованного выявления существования зависимости между переменными. Для этого можно вычислить остатки, которые показывают, насколько сильно отличаются наблюдаемые и ожидаемые частоты. Остатки представляют собой разность между наблюдаемыми и ожидаемыми частотами в абсолютных значениях (ненормированные остатки) или нормированные остатки, которые получаются делением ненормированных остатков на квадратный корень из ожидаемой частоты. Нормированные остатки полезны при последующем проведении анализа тестов по критерию хи-квадрат. При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обеих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты в ячейках совпадают с ожидаемыми частотами.

Чтобы сравнивать по средним значениям две выборки, распределения значений должны быть близки к нормальному, а дисперсии приблизительно одинаковыми. Такого рода анализ называется дисперсионным стат. анализом. При наличие всего 2 выборок его редуцированная форма называется сравнением средних.

Наиболее часто используемым методом, позволяющим выявить различие между средними двух выборок, является t-критерий. Данный критерий может применяться даже для очень небольших выборок и при условии нормального распределения переменных и незначительного различия дисперсий наблюдений в группах. Предположение о нормальности можно проверить визуально, исследуя распределение с помощью гистограмм или применяя той или иной аналитический критерий нормальности. t-критерий довольно устойчив к небольшим отклонениям от нормальности.

Различают 3 случая применения t-критерия:

  1. для независимых выборок – различаются ли средние некоторой переменной, вчисленные в разных подгруппах наблюдений.
  2. для зависимых (парных) выборок – различаются ли средние двух переменных, т.е. отличается ли среднее их разности от 0.
  3. одновыборочный t-критерий – отличается ли среднее отдельной переменной от некоторого гипотетического значения переменной.

Две выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Аналогично определяется зависимость нескольких выборок. Чаще всего зависимые выборки возникают, когда измерение проводится для нескольких моментов времени. Зависимые выборки образуют значения параметров изучаемого процесса, соответствующим различным моментам времени.

Проверка гипотез

Ещё до получения выборочных данных выдвигается предположение (гипотеза) о точном значении некоторого параметра генеральной совокупности. Затем собираются выборочные данные, образующие случайную выборку. На их основе вычисляется оценочная статистика и проверяется, насколько правдоподобна выдвигаемая гипотеза. Гипотеза о нулевой разновидности между предполагаемым и истинным значением параметра генеральной совокупности называют нулевой гипотезой.

Кор = na – nb / na + nb

Формальная процедура проверки гипотез заключается в установлении критических пределов для оценки значимых отклонений вычисленной статистики от гипотетического значения параметра генеральной совокупности. Если выборочное значение попадает внутрь промежутка, ограниченного критическими пределами, то отклонение считается стат. незначимым и нулевая гипотеза принимается. При этом решение принимается с некоторой вероятностью, т.к. разность между выборочной статистикой и гипотетическим значением параметра является случайной величиной.  Эта величина называется стат. критерием. Таким образом, критерий является разностью между распределением выборочных статистик и константой – гипотетическим значением параметра генеральной совокупности. Отсюда следует, что как случайная величина он будет распределён по тому же закону, что и выборочная статистика.

Соответствующие выборочные распределения могут быть 2 типов: нормальное распределение и t-распределение Стьюдента. Выбор критерия зависит от объёма выборки, а также от того, известно или нет значение генерального стандартного отклонения ?. Если выборка меньше 30, то берётся распределение Стьюдента.

Хорошим визуальным способом сравнения средних являются так называемые диаграммы размаха («ящики я усами»). Можно задать 3 параметра, описывающих каждую выборку:

  1. медиана, квартильный размах, размах
  2. среднее, стандартная ошибка среднего, стандартное отклонение
  3. среднее, стандартное отклонение, стандартное отклонение, умноженное на 1,96
  4. среднее, стандартная ошибка, стандартная ошибка, умноженная на 1,96
Запись опубликована в рубрике Статистика, Точные науки. Добавьте в закладки постоянную ссылку.