Текстовые данные
- 1 year ago
- 0
- 0
Панельные данные , или лонгитюдные данные — используемые в социальных науках и эконометрике многомерные данные, получаемые серией измерений или наблюдений за несколько периодов времени для одних и тех же компаний или людей. Исследование, в котором используются панельные данные, называется панельным исследованием .
Человек | Год | Доход | Возраст | Пол |
---|---|---|---|---|
№ 1 | 2016 | 1300 | 27 | 1 |
№ 1 | 2017 | 1600 | 28 | 1 |
№ 1 | 2018 | 2000 | 29 | 1 |
№ 2 | 2016 | 2000 | 38 | 2 |
№ 2 | 2017 | 2300 | 39 | 2 |
№ 2 | 2018 | 2400 | 40 | 2 |
Человек | Год | Доход | Возраст | Пол |
---|---|---|---|---|
№ 1 | 2016 | 1600 | 23 | 1 |
№ 1 | 2017 | 1500 | 24 | 1 |
№ 2 | 2016 | 1900 | 41 | 2 |
№ 2 | 2017 | 2000 | 42 | 2 |
№ 2 | 2018 | 2100 | 43 | 2 |
№ 3 | 2017 | 3300 | 34 | 1 |
В приведенном примере показаны два набора данных, собранные в панельную структуру. Индивидуальные характеристики (доход, возраст, пол) собираются для разных людей и разных лет. В первом наборе данных два человека (№ 1, № 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (№ 1, № 2, № 3) наблюдаются два раза (человек № 1), три раза (человек № 2) и один раз (человек № 3), соответственно, за три года (2016, 2017, 2018); в частности, для человека № 1 отсутствуют данные по 2018 году, а для человек № 3 — по 2016 и 2018 году.
Сбалансированная панель (первый пример) представляет собой набор данных, в котором каждый член группы (то есть человек) наблюдается каждый год. Следовательно, если сбалансированная панель содержит N единиц наблюдения и Т периодов, число наблюдений (n) в наборе данных обязательно составит п = N × T .
Несбалансированная панель (второй набор данных в примере) представляет собой набор данных, в котором, по меньшей мере, один член группы не имеет данных по всем периодам. Поэтому, если несбалансированная панель содержит N единиц наблюдения и Т периодов, то число наблюдений (n) в наборе данных строго меньше их произведения: п < N × T .
Оба набора данных структурированы в длинном формате, в котором одна строка содержит одно наблюдение за один раз. Другим способом структурирования панельных данных является широкий формат, где одна строка представляет одну единицу наблюдения для всех моментов времени (например, в широком формате будет только две (первый пример) или три (второй пример) строки данных, с дополнительными столбцами для каждой переменной времени (доход, возраст).