Статистический анализ показателей вузовской успеваемости

Еремин Александр

Государственный Университет – Высшая Школа Экономики

(Нижегородский филиал)

г. Нижний Новгород

Статистический анализ показателей вузовской успеваемости.

Вопрос о том, на основании каких показателей оптимально производить отбор абитуриентов, которые способны показать наилучшие результаты в учёбе сохраняет свою актуальность, особенно в свете повсеместного введения единого государственного экзамена (ЕГЭ). С первого января 2009 года вступил в силу федеральный закон, согласно которому ЕГЭ становится единой формой итоговой аттестации всех выпускников школ и приема абитуриентов в ВУЗы, то есть единый государственный экзамен стал обязательным для всех выпускников. Обязательными предметами для школьников являются математика и русский язык, без сдачи которых нельзя получить аттестат. Если школьник желает поступать в ВУЗ, то он обязан также сдавать ЕГЭ по выбору. Министерство образования утвердило перечень обязательных ЕГЭ для каждого направления (специальности). В то же время ряду российских высших учебных заведений дано право проводить дополнительные испытания абитуриентов.

В качестве примера стандартизированного теста для приёма студентов в университеты можно привести SAT (ранее известный как Scholastic Aptitude Test и Scholastic Assessment Test). В отличие от российского ЕГЭ, SAT имеет богатую историю. С момента введения в 1901 году данное тестирование не раз менялось, чтобы обеспечить более эффективным образом набор наиболее достойных студентов в университеты. Ежегодно эти тесты разрабатываются некоммерческой организацией “College Board”.Тесты проверяют грамотность, логическое мышление, способности внятно излагать мысли в письменной форме, проводить анализ и решать проблемы. Если школьник не владеет в достаточной степени всем вышеперечисленным, то его обучение в колледже, скорее всего, не будет успешным. Результаты тестов чаще всего рассматриваются вместе с HSGPA (High School Grade Point Average – средний балл по успеваемости в старших классах).

Некоторые авторы в своих исследованиях подчёркивают, что SAT свойственен фактор дискриминации, потому что студенты из больших городов и благополучных семей имеют более хорошую возможность подготовиться к тестированию за счёт подготовительных курсов и доступа к более совершенным источникам информации. Исследования показывают: чем выше доход семьи, тем лучше пишется SAT.

Возникает закономерный вопрос: достаточно ли совершенно тестирование для того, чтобы определять наиболее достойных людей для обучения в колледже? Обычный подход к ответу на этот вопрос состоит в исследовании корреляционных связей между результатом теста и средним баллом за первый год обучения в колледже (FYGPA – First Year college Grade Point Average). Например, в исследовании 2008 года [Kobrin J.L., Patterson B.F., Shaw E.J., Mattern K.D., Barbuti S.M. Validity of the SAT for Predicting First-Year College Grade Point Average. – New York: The College Board, 2008] приняли участие 151316 учащихся из 726 институтов с четырёхлетним обучением. Основным аналитическим методом было сравнение парных и множественных корреляций разных показателей (HSGPA, SAT и отдельных его составляющих) с FYGPA. В рамках данного исследования использовалась интерпретация коэффициентов корреляции по Коэну: небольшая корреляция – 0,1-0,3, средняя корреляция – 0,3-0,5, большая корреляция – 0,5 и выше (если обратиться к классификации по Чеддоку, то заметная корреляция – 0,5-0,7, высокая – 0,7-0,9, более 0,9 – весьма высокая). Так как значения корреляций получились выше 0,5, то у исследователей появилось полное право говорить о тесных связях между баллами за SAT и FYGPA, из чего делается вывод об эффективности SAT как критерия отбора студентов для обучения в колледже.

В рамках данной работы предпринимается попытка выявить факторы, определяющие рейтинг студентов после первого года обучения на факультете экономики в ГУ-ВШЭ. Для анализа использовались следующие данные: средний балл за первый год обучения (переменная sredball2), оценки за вступительные испытания по иностранному языку (переменная in), математике (переменная mat), обществознанию (переменная ob) и русскому языку (переменная rus), наличие медали (переменная medal), рекомендации (призовое место на различных олимпиадах, внеконкурсное поступление и т.п. – переменная recommend), а также пол абитуриента (переменная sex).

Внимательно проанализировав данные, мы увидели, что по иностранному языку очень мало наблюдений. По разным причинам лишь 51 человек из почти 240 сдавал иностранный язык при поступлении, поэтому исключим иностранный язык из регрессионного анализа, чтобы не терять более 70% наблюдений при построении регрессии. Также следует учесть, что при поступлении учитывались не сколько сами оценки за вступительные испытания, сколько их сумма, поэтому будем использовать при регрессионном анализе переменную, показывающую сумму баллов за вступительные испытания по русскому языку, математике и обществознанию (включение в регрессию данных о результатах вступительных испытаний в рамках отдельных переменных не принесёт удовлетворительных результатов, как будет выявлено на этапе построения регрессий).

Перед построением регрессии посмотрим на корреляционные связи между переменными. Корреляция между средним баллом и наличием медали составляет 44%, в то время как корреляционная связь между средним баллом и суммой баллов за вступительные испытания, средним баллом и наличием рекомендации гораздо слабее (корреляция 18% и 17% соответственно). Корреляция между суммой баллов за вступительные испытания и наличием рекомендации отрицательная, что не противоречит нашим ожиданиям, так как рекомендация даёт льготы при поступлении. Остальные парные корреляции не являются достаточно внушительными, чтобы мы их рассматривали.

Что касается пола, то между медалью и полом положительная корреляция, а между рекомендацией и полом отрицательная. Грубо говоря, медаль чаще получают девушки, а рекомендации - молодые люди. Вероятно, это связано с тем, что девушки более усидчивые в школе, в то время как молодые люди чаще участвуют в олимпиадах и, соответственно, чаще занимают призовые места.

Регрессия (все регрессии строятся с использованием метода наименьших квадратов, что не будет уточняться в дальнейшем), иллюстрирующая зависимость среднего балла за первый курс от суммы баллов, полученных на вступительных испытаниях, наличия медали и рекомендации, а также пола, выглядит следующим образом:

SREDBALL2 = 4.269347946 + 0.08576133665*(MAT+RUS+OB) + 1.24901945*MEDAL + 0.4364341466*RECOMMEND - 0.3600297197*SEX.

Значения t-статистик приведены в таблице:

Переменная

t-статистика

C

7.152134

MAT+RUS+OB

2.780949

MEDAL

6.200274

RECOMMEND

2.157097

SEX

-1.798144

Регрессия построена по 155 наблюдениям. Она значима на 8% уровне значимости, что является неплохим результатом для данной области исследований. Коэффициент при переменной sex меньше 0. Это значит, что, грубо говоря, молодые люди имеют больший средний балл, чем девушки при прочих равных условиях. Остальные коэффициенты при переменных в регрессии не противоречат ожиданиям.

За время обучения в университете люди меняются. Работодателю, разумеется, интересен человек, который сформировался к последнему курсу, а не тот, который только поступал в высшее учебное заведение. В связи с этим приобретает актуальность проведение исследования, которое может ответить на вопросы: меняются ли показатели успеваемости студентов за время учёбы? Какие предметы первого курса (то есть предметы, формирующие базу для всего высшего образования) оказывают наибольшее влияние на последний рейтинг студентов? Зависят ли ответы, полученные на первые два вопроса, от пола студента?

На основе данных Нижегородского Филиала Государственного Университета – Высшая Школа Экономики и эконометрического пакета EViews 3 попытаемся ответить на эти вопросы. Для анализа использовались следующие данные: средние баллы за первый и последний годы обучения (переменные srball1 и srball4 соответственно), а также оценки по английскому языку (переменная eng), информатике (переменная inf), экономической теории (переменная ec), высшей математике (переменная mat), экономической географии (переменная ekgeo), экономической истории (переменная ecist), психологии (переменная psyh) и социологии (переменная soc), а также пол студента (переменная sex).

Все коэффициенты корреляции среднего балла за первый курс и предметов достаточно высокие, что очевидно. Коэффициент корреляции между средним баллом за первый курс и средним баллом за четвёртый курс равен примерно 0,37. Это означает, что положительная связь между данными показателями есть, причём она не обманывает наших ожиданий. Между предметами существуют достаточно сильные корреляционные связи, что опять же соответствует нашим ожиданиям.

Переменная sex не очень сильно коррелирует с другими переменными, но опять же все коэффициенты парных корреляций положительные.

Регрессия, иллюстрирующая зависимость между средним баллом за четвёртый курс от среднего балла на первом курсе и пола, выглядит следующим образом:

SRBALL4 = 3.65685817 + 0.3584151674*SRBALL1 +0.7740967176*SEX.

Значения t-статистик приведены в таблице:

Переменная

t-статистика

C

6.111246

SRBALL1

4.015993

SEX

3.664398

Данная регрессия построена на основании 159 наблюдений и значима на 5% уровне значимости (более того, регрессия значима на 1% уровне значимости).

Мы можем сделать следующие выводы:

  1. Зависимость между средними баллами за первый и последний курсы есть, притом она положительная.
  2. Девушки, в среднем, имеют более высокий средний балл за последний курс, чем молодые люди.

Регрессии, иллюстрирующие зависимости между средним баллом на четвёртом курсе и теми предметами, которые были на вступительных испытаниях (то есть высшей математикой, английским языком и экономической теорией), а также полом:

SRBALL4 = 4.86247115 + 0.1902863198*MAT + 0.8439404449*SEX,

SRBALL4 = 4.339964929 + 0.2558767548*ENG + 0.7742157489*SEX,

SRBALL4 = 4.636373207 + 0.2304595513*EC + 0.8888479882*SEX.

Переменная

t-статистика

C

11.58998

MAT

2.878529

SEX

3.920512

Переменная

t-статистика

C

8.377486

ENG

3.318546

SEX

3.559927

Переменная

t-статистика

C

11.50755

EC

3.636970

SEX

4.278076

Все три регрессии значимы на 5% уровне значимости, то есть оценки по основным предметам первого курса оказывают влияние на средний балл на последнем курсе. Что касается пола, то результат совпадает с регрессией, в которой анализировалась зависимость между средними баллами за первый и последний годы обучения.

Наиболее удачная регрессия, иллюстрирующая зависимость среднего балла на четвёртом курсе от различных предметов на первом курсе и пола приведена ниже:

SRBALL4 = 3.238403643 + 0.2788954801*EKGEO - 0.1342257073*EKIST + +0.1466658082*ENG + 0.1291827932*INF + 0.5570756172*SEX.

Переменная

t-статистика

C

5.318975

EKGEO

3.507049

EKIST

-1.885027

ENG

1.601435

INF

1.817022

SEX

2.579701

Регрессия получена на основании 157 наблюдений и значима на 12% уровне значимости (данный уровень значимости является приемлемым для сферы настоящего исследования). В целом, мы не получили никаких неожиданных результатов, за исключением коэффициента при переменной ekist.

Коэффициент при переменной sex положительный. Получается, что девушки, в среднем, имеют более высокий средний балл на последнем курсе, чем юноши, что подтверждают все построенные нами в данном разделе регрессии. При анализе зависимости рейтинга после первого курса от факторов, связанных с поступлением, мы получили диаметрально противоположный результат. Вероятно, это связано с психофизическими особенностями. Молодые люди лучше мобилизуют свои силы, но периоды такой мобилизации сменяются периодами лени. У девушек таких скачков не происходит. Напрягаясь во время первого семестра после вступительных и выпускных экзаменов, молодые люди привыкают к новым условиям и расслабляются в то время, как девушки занимаются ровно. Среди медалистов больше девушек, и средний балл на четвёртом курсе у них тоже больше.

PAGE \* MERGEFORMAT 5

Статистический анализ показателей вузовской успеваемости