Существуют 3 основных источника получения первичных данных: наблюдение, опрос и эксперимент.
Наблюдение – пассивная фиксация (регистрация), измерение различных показателей интересующих нас объектов или явлений. Для того, чтобы превратить разрозненные наблюдения в систему данных, которые можно анализировать, результаты наблюдения записываются в таблицу. При такой форме записи столбцы обычно принято называть переменными, а строки – наблюдениями, или случаями.
Опрос – активное измерение.
Эксперимент – это активное, контролируемое измерение исследуемого процесса или объекта.
Исследуя те или иные явления, мы имеем лишь некоторый ограниченный набор значений показателей, описывающих эти явления. В анализе данных такого рода показатели называются переменными, а каждое значение переменных, полученное в результате наблюдений или эксперимента, называется наблюдением.
Типы переменных:
- номинальные используются только для качественной классификации (пол, национальность и т.д.)
- порядковые переменные позволяют ранжировать объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженными данной переменной (не согласен…не знаю…согласен).
- интервальные переменные позволяют численно выразить и сравнить отличия между ними (шкала температуры)
- относительные. Характерная черта – наличие точки абсолютного нуля.
Иногда необходимо рассмотреть не все имеющиеся наблюдения, а только часть из них – отбор наблюдений (Select cases). Имеющиеся данные являются либо агрегированными, либо мы знаем, что они не совсем точно представляют определенные явления, и нужно внести коррективы, чтобы выводы, полученные на основе их анализа, адекватно отражали общую картину. Для этого используется понятие – вес наблюдений.
Из генеральной совокупности отбирают несколько элементов и их изучают. Эти несколько элементов называют выборкой (должна быть репрезентативной; необходимо придерживаться определённых правил при проведении анализа данных).