Основные понятия статистики
подтверждаем экспериментально мнение специалистов, что проблема наркомании имеет комплексный характер.Контрольные вопросы:
Дайте определение точечной и интервальной оценке.
Сформулируйте основные требования к точечным оценкам и раскройте их смысл
Дайте определения уровню значимости, ошибки первого и второго рода.
4. Для вариационного ряда Темы 2.1. найти точечные оценки параметров нормального закона распределения, записать соответствующую формулу для плотности вероятностей f(x) и рассчитать теоретические относительные частоты. Построить график плотности распределения на гистограмме относительных частот, а теоретические относительные частоты показать на полигоне относительных частот.
5. Найти интервальные оценки параметров нормального закона распределения, приняв доверительную вероятность = 0,95 и 0,99.
6. Проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности с эмпирическим распределением выборки, используя критерий Пирсона при уровнях значимости 0,01; 0,05.
Тема 2.3. Статистические методы обработки экспериментальных данных
1. Метод наименьших квадратов (МНК).
2. Регрессионный анализ
3. Корреляционный анализ
Конспект лекции
Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:
у = а + bх, (1)
где у - среднее значение результативного признака при определенном значении факторного признака х;
а - свободный член уравнения;
b - коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения - вариация у, приходящаяся на единицу вариации х.
Уравнение (1) определяется по данным о значениях признаков х и у в изучаемой совокупности, состоящей из п единиц. Параметры уравнения а и b находятся методом наименьших квадратов (МНК).
Исходное условие МНК для линейной связи имеет вид:
Для отыскания значений параметров а и b, при которых f(a,b) принимает минимальное значение, частные производные функции приравниваем нулю и преобразуем получаемые уравнения, которые называются нормальными уравнениями МНК для линейной формы уравнения регрессии:
Отсюда система нормальных уравнений имеет вид:
Нормальные уравнения МНК для прямой линии регрессии являются системой двух уравнений с двумя неизвестными а и b. Все остальные величины, входящие в систему, определяются по исходной информации. Таким образом, однозначно вычисляются при решении этой системы уравнений оба параметра уравнения линейной регрессии.
Если первое нормальное уравнение разделить на п, получим:
(2)
По уравнению (2) обычно на практике вычисляется свободный член уравнения регрессии а. Параметр b вычисляется по преобразованной формуле, которую можно вывести, решая систему нормальных уравнений относительно b:
. (3)
Так как знаменатель этого выражения есть не что иное, как дисперсия признака х, т. е. σ2, то можно записать формулу коэффициента регрессии в виде:
(4)
Подставив в (3) выражение для s2x, получим:
. (5)
Параметры уравнения регрессии можно вычислить через определители:
(6)
где D - определитель системы;
Da - частный определитель, получаемый в результате замены коэффициентов при а свободными членами из правой части системы уравнений;
Db - частный определитель, получаемый в результате замены коэффициентов при b свободными членами из правой части системы уравнений.
Коэффициент парной линейной регрессии, обозначенный , имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Он измеряет среднее по совокупности отклонение у от его средней величины при отклонении признака х от своей средней величины на принятую единицу измерения.
Теснота парной линейной корреляционной связи, как и любой другой показатель, может быть измерена корреляционным отношением h. Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи - коэффициент корреляции rxy. Этот показатель представляет собой стандартизованный коэффициент регрессии, т. е. коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака:
. (7)
Коэффициент корреляции был предложен английским статистиком и философом Карлом Пирсоном (1857 - 1936). Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на rxy его среднего квадратического отклонения.
В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков.
Обычно считают связь сильной, если r і. 0,7; средней тесноты, при 0,5 Ј r Ј 0,7; слабой при r < 0,5. Квадрат коэффициента корреляции называется коэффициентом детерминации:
Эта формула используется при. анализе множественной корреляции. Умножив числитель и знаменатель последнего выражения на получим:
и окончательно, коэффициент корреляции принимает вид:
. (8)
Эта формула соответствует формуле (7) для коэффициента регрессии.
Средние квадратическое отклонение можно выразить через средние величины признака:
.
Подставив эти выражения в (8), получим:
. (9)
Эта формула (9) удобнее для расчетов, если средние величины признаков и средние квадраты индивидуальных величин вычислены ранее.
Рассмотрим фактический пример анализа корреляционной парной линии связи по данным 16 сельхозпредприятий о затратах на 10 гектар пашни и о урожайности с 1 гектара. (табл.1).
Средние значения признаков: x̅ = 1605 руб.; у̅ = 35,2 ц/голов.
Сопоставляя знаки отклонений признаков x и у от средних величин, видим явное преобладание совпадающих по знакам пар отклонений: их 14 и только 2 пары несовпадающих знаков.
Таблица 1.
Корреляция между затратами и урожайностью
Номера единиц сово-куп-ности | Затраты на 10 гектар руб хi |
Урожайность с гектара, ц, yi |
xi - x̅ |
yi - y̅ |
(xi - x̅) ґ ґ (yi - y̅) |
(xi - x̅)2 |
(yi - y̅)2 |
Расчетные значения урожайности , ц |
1 | 1602 | 34,2 | -3 | -1,0 | +3,0 | 9 | 1,00 | 35,1 |
2 | 1199 | 19,6 | -406 | -15,6 | +6333,6 | 164836 | 243,36 | 21,1 |
3 | 1321 | 27,3 | -283 | -7,9 | +2235,7 | 80089 | 62,41 | 25,3 |
4 | 1678 | 32,5 | +73 | -2,7 | -197,1 | 5329 | 7,29 | 37,7 |
5 | 1600 | 33,2 | -5 | -2,0 | +10,0 | 25 | 4,00 | 35,0 |
6 | 1355 | 31,8 | -250 | -3,4 | +850,0 | 62500 | 11,56 | 26,5 |
7 | 1413 | 30,7 | -192 | ^,5 | +864,0 | 36864 | 20,25 | 28,5 |
8 | 1490 | 32,6 | -115 | -2,6 | +299,0 | 13225 | 6,76 | 31,2 |
9 | 1616 | 26,7 | +11 | -8,5 | -93,5 | 121 | 72,25 | 35,6 |
10 | 1693 | 42,4 | +88 | +7,2 | +633,6 | 7744 | 51,84 | 38,2 |
11 | 1665 | 37,9 | +60 | +2,7 | +162,0 | 3600 | 7,29 | 37,3 |
12 | 1666 | 36,6 | +61 | +1,4 | +85,4 | 3721 | 1,96 | 37,3 |
13 | 1628 | 38,0 | +23 | +2,8 | +64,4 | 529 | 7,84 | 36,0 |
14 | 1604 | 32,7 | -1 | -2,5 | +2,5 | 1 | 6,25 | 35,2 |
15 | 2077 | 51,7 | +472 | +16,5 | +7788 | 222784 | 272,25 | 51,6 |
16 | 2071 | 55,3 | +466 | +20,1 | +9366,6 | 217156 | 404,01 | 51,4 |
S 25678 | 563,2 | - | - | +28473,7 | 818533 | 1180,32 | 563,0 |
Вычислим на основе итоговой строки табл1. параметр парной линейной корреляции:
Он означает, что в среднем по изучаемой совокупности отклонение затрат от средней величины на 1 руб. приводило к отклонению с тем же знаком средней урожайности на 0,0347 ц, т. е. на 3,47 кг на 1га. При нестрогой интерпретации говорят: «С увеличением затрат на 1 руб. в среднем урожайность возрасла на 3,47 кг». Свободный член уравнения регрессии : а = 35,2 - 0,0347 • 1605 = - 20,49.
Уравнение регрессии в целом имеет вид:
Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признакам и близких значений. Если же область существования результативного признака включает нулевое значение признака-фактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например среднюю урожайность картофеля при отсутствии органических удобрений.
Графическое изображение корреляционной связи по данным табл.1. приведено на рис. 1.
Коэффициент корреляции, рассчитанный на основе табл. 8.1,
Рис. 1. Корреляция затрат с урожайностью
Контрольные вопросы:
1. Сформулируйте суть метода наименьших квадратов и условия его применимости.
2. Что означает несмещенность, состоятельность и эффективность оценок МНК?
3. Дайте определение регрессионной форме связи.
4. Что такое теснота корреляционной зависимости?
5. Найти выборочное уравнение линейной регрессии признака Y на признаке X и коэффициент их корреляции по экспериментальным данным из таблицы
nij | X | ||||||
10 | 15 | 20 | 25 | 30 | 35 | ||
Y | 30 | 2 | 6 | ||||
40 | 4 | 4 | |||||
50 | 7 | 35 | 8 | ||||
60 | 2 | 10 | 8 | ||||
70 | 5 | 6 | 3 |
Размещено на