Исследование зависимостей между переменными

Типы переменных:

  1. номинальные используются только для качественной классификации (пол, национальность и т.д.);
  2. порядковые переменные позволяют ранжировать объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженными данной переменной (не согласен…не знаю…согласен);
  3. интервальные переменные позволяют численно выразить и сравнить отличия между ними (шкала температуры);
  4. относительные. Характерная черта – наличие точки абсолютного нуля.

Понятие зависимости, используемое в статистике, не тождественно понятию причинности. Зависимость носит вероятностный характер. Существует много способов определения зависимости. Каждый из них лучше подходит для вполне конкретных данных. Но, обобщая, можно сказать, что методы и алгоритмы определения взаимосвязи переменных зависят, прежде всего, от типов переменных. При исследовании зависимости принято делить переменные на зависимые и независимые.

Переменные любых типов связаны (зависимы) между собой, если наблюдаемые значения этих переменных изменяются (распределены) согласованным образом.

Можно отметить 3 характеристики зависимости между переменными: величину зависимости, надёжность зависимости, форму зависимости.

Величина и надёжность зависимости

Надежность показывает, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена (иными словами, подтвердится) на данных другой выборки, извлечённой из той же популяции. Если исследование удовлетворяет некоторым специальным критериям, то надёжность найденных зависимостей между переменными нашей выборки можно количественно оценить и представить с помощью стандартной стат. меры, называемой р-уровень, или стат. уровнем значимости.  Это оценочная мера уверенности в его «истинности». Р-уровень представляет собой вероятность ошибки, связанной с распределением наблюдаемого результата на всю генеральную совокупность.

Выбор определённого уровня значимости, выше которого результаты могут быть отвергнуты как ложные, является достаточно произвольным.

Чем больше величина зависимости между переменными в выборке обычного объёма, тем более она надёжна. Однако точная количественная связь между зависимостью и значимостью имеет место только при фиксированном объёме выборки, поскольку одна и та же зависимость может оказаться как высоко значимой, так и не значимой вовсе.  Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайно обнаружить комбинацию значений, показывающую сильную зависимость, относительно высока.

Если зависимость между переменными «объективно» мала, не существует иного способа проверить такую зависимость, кроме как исследовать выборку большого объёма. Даже если выборка совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Если зависимость между переменными почти отсутствует, объём выборки, необходимый для его значимого обнаружения, почти равен объёму всей популяции, который предполагается бесконечным.

Все зависимости принято делить на линейные и нелинейные. Линейность зависимости означает, что при изменении значения одной переменной, пропорционально изменяется и другая переменная.

Запись опубликована в рубрике Статистика, Точные науки. Добавьте в закладки постоянную ссылку.