Связь, которая существует между случайными величинами разной природы, например, между величиной Х и величиной Y, не обязательно является следствием прямой зависимости одной величины от другой (так называемая функциональная связь). В некоторых случаях обе величины зависят от целой совокупности разных факторов, общих для обеих величин, в результате чего и формируется связанные друг с другом закономерности. Когда связь между случайными величинами обнаружена с помощью статистики, мы не можем утверждать, что обнаружили причину происходящего изменения параметров, скорее мы лишь увидели два взаимосвязанных следствия.

Например, дети, которые чаще смотрят по телевизору американские боевики, меньше читают. Дети, которые больше читают, лучше учатся. Не так-то просто решить, где тут причины, а где следствия, но это и не является задачей статистики. Статистика может лишь, выдвинув гипотезу о наличии связи, подкрепить ее цифрами. Если связь действительно имеется, говорят, что между двумя случайными величинами есть корреляция. Если увеличение одной случайной величины связано с увеличением второй случайной величины, корреляция называется прямой. Например, количество прочитанных страниц за год и средний балл (успеваемость). Если, напротив рост одной величины связано с уменьшением другой, говорят об обратной корреляции. Например, количество боевиков и количество прочитанных страниц.

Взаимная связь двух случайных величин называется корреляцией, корреляционный анализ позволяет определить наличие такой связи, оценить, насколько тесна и существенна эта связь. Все это выражается количественно.

Как определить, есть ли корреляция между величинами? В большинстве случаев, это можно увидеть на обычном графике. Например, по каждому ребенку из нашей выборки можно определить величину Х i (число страниц) и Y i (средний балл годовой оценки), и записать эти данные в виде таблицы. Построить оси Х и Y, а затем нанести на график весь ряд точек таким образом, чтобы каждая из них имела определенную пару координат (Х i , Y i) из нашей таблицы. Поскольку мы в данном случае затрудняемся определить, что можно считать причиной, а что следствием, не важно, какая ось будет вертикальной, а какая горизонтальной.


Если график имеет вид а), то это говорит о наличии прямой корреляции, в случае, если он имеет вид б) - корреляция обратная. Отсутствие корреляции
С помощью коэффициента корреляции можно посчитать насколько тесная связь существует между величинами.

Пусть, существует корреляция между ценой и спросом на товар. Количество купленных единиц товара в зависимости от цены у разных продавцов показано в таблице:

Видно, что мы имеем дело с обратной корреляцией. Для количественной оценки тесноты связи используют коэффициент корреляции:

Коэффициент r мы считаем в Excel, с помощью функции f x , далее статистические функции, функция КОРРЕЛ. По подсказке программы вводим мышью в два соответствующих поля два разных массива (Х и Y). В нашем случае коэффициент корреляции получился r= - 0,988. Надо отметить, что чем ближе к 0 коэффициент корреляции, тем слабее связь между величинами. Наиболее тесная связь при прямой корреляции соответствует коэффициенту r, близкому к +1. В нашем случае, корреляция обратная, но тоже очень тесная, и коэффициент близок к -1.

Что можно сказать о случайных величинах, у которых коэффициент имеет промежуточное значение? Например, если бы мы получили r=0,65. В этом случае, статистика позволяет сказать, что две случайные величины частично связаны друг с другом. Скажем на 65% влияние на количество покупок оказывала цена, а на 35% - другие обстоятельства.

И еще одно важное обстоятельство надо упомянуть. Поскольку мы говорим о случайных величинах, всегда существует вероятность, что замеченная нами связь - случайное обстоятельство. Причем вероятность найти связь там, где ее нет, особенно велика тогда, когда точек в выборке мало, а при оценке Вы не построили график, а просто посчитали значение коэффициента корреляции на компьютере. Так, если мы оставим всего две разные точки в любой произвольной выборке, коэффициент корреляции будет равен или +1 или -1. Из школьного курса геометрии мы знаем, что через две точки можно всегда провести прямую линию. Для оценки статистической достоверности факта обнаруженной Вами связи полезно использовать так называемую корреляционную поправку:

В то время как задача корреляционного анализа - установить, являются ли данные случайные величины взаимосвязанными, цель регрессионного анализа - описать эту связь аналитической зависимостью, т.е. с помощью уравнения. Мы рассмотрим самый несложный случай, когда связь между точками на графике может быть представлена прямой линией. Уравнение этой прямой линии Y=аХ+b, где a=Yср.-bХср.,

Зная , мы можем находить значение функции по значению аргумента в тех точках, где значение Х известно, а Y - нет. Эти оценки бывают очень нужны, но они должны использоваться осторожно, особенно, если связь между величинами не слишком тесная.

Отметим также, что из сопоставления формул для b и r видно, что коэффициент не дает значение наклона прямой, а лишь показывает сам факт наличия связи.

В компании работают 10 человек. В табл.2 приведены данные по стажу их работы и

месячному окладу.

Рассчитайте по этим данным

  • - величину оценки выборочной ковариации;
  • - значение выборочного коэффициента корреляции Пирсона;
  • - оцените по полученным значениям направление и силу связи;
  • - определите, насколько правомерно утверждение о том, что данная компания использует японскую модель управления, заключающуюся в предположении, что чем больше времени сотрудник проводит в данной компании, тем выше должен быть у него оклад.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Для расчета параметров регрессии построим расчетную таблицу.

Выборочные средние.

Выборочные дисперсии:

Оценочное уравнение регрессии будет иметь вид

y = bx + a + е,

где ei - наблюдаемые значения (оценки) ошибок еi, а и b соответственно оценки параметров б и в регрессионной модели, которые следует найти.

Для оценки параметров б и в - используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

a?x + b?x2 = ?y*x

Для наших данных система уравнений имеет вид

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Домножим уравнение (1) системы на (-30.7), получим систему, которую решим методом алгебраического сложения.

  • -307a -9424.9 b = -1022310
  • 307 a + 10857 b = 1127700

Получаем:

1432.1 b = 105390

Откуда b = 73.5912

Теперь найдем коэффициент «a» из уравнения (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73.5912 = 33300
  • 10a = 10707.49

Получаем эмпирические коэффициенты регрессии: b = 73.5912, a = 1070.7492

Уравнение регрессии (эмпирическое уравнение регрессии):

y = 73.5912 x + 1070.7492

Ковариация.

В нашем примере связь между признаком Y фактором X высокая и прямая.

Следовательно, можно смело утверждать, что чем больше времени сотрудник работает в данной компании, тем выше у него оклад.

4. Проверка статистических гипотез. При решении этой задачи первым шагом необходимо сформулировать проверяемую гипотезу и альтернативную ей

Проверка равенства генеральных долей.

Проведено исследование по вопросам успеваемости студентов на двух факультетах. Результаты по вариантам приведены в табл.3. Можно ли утверждать, что на обоих факультетах одинаковый процент отличников?

Простая средняя арифметическая

Проводим проверку гипотезы о равенстве генеральных долей:

Найдём экспериментальное значение критерия Стьюдента:

Число степеней свободы

f = nх + nу - 2 = 2 + 2 - 2 = 2

Определяем значение tkp по таблице распределения Стьюдента

По таблице Стьюдента находим:

Tтабл(f;б/2) = Tтабл(2;0.025) = 4.303

По таблице критических точек распределения Стьюдента при уровне значимости б = 0.05 и данному числу степеней свободы находим tкр = 4.303

Т.к. tнабл > tкр, то нулевая гипотеза отвергается, генеральные доли двух выборок не равны.

Проверка равномерности генерального распределения.

Руководство университета хочет выяснить, как со временем менялась популярность гуманитарного факультета. Анализировалось количество абитуриентов, подавших заявление на этот факультет, по отношению к общему количеству абитуриентов в соответствующем году. (Данные приведены в табл.4). Если считать число абитуриентов репрезентативной выборкой из общего количества выпускников школ года, можно ли утверждать, что интерес школьников к специальностям данного факультета не изменяется с течением времени?

Вариант 4

Решение: Таблица для расчета показателей.

Середина интервала, xi

Накопленная частота, S

Частота, fi/n

Для оценки ряда распределения найдем следующие показатели:

Средняя взвешенная

Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.

R = 2008 - 1988 = 20 Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 2002.66 в среднем на 6.32

Проверка гипотезы о равномерном распределении генеральной совокупности.

Для того чтобы проверить гипотезу о равномерном распределении X,т.е. по закону: f(x) = 1/(b-a) в интервале (a,b) надо:

Оценить параметры a и b - концы интервала, в котором наблюдались возможные значения X, по формулам (через знак * обозначены оценки параметров):

Найти плотность вероятности предполагаемого распределения f(x) = 1/(b* - a*)

Найти теоретические частоты:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Сравнить эмпирические и теоретические частоты с помощью критерия Пирсона, приняв число степеней свободы k = s-3, где s - число первоначальных интервалов выборки; если же было произведено объединение малочисленных частот, следовательно, и самих интервалов, то s - число интервалов, оставшихся после объединения. Найдем оценки параметров a* и b* равномерного распределения по формулам:

Найдем плотность предполагаемого равномерного распределения:

f(x) = 1/(b* - a*) = 1/(2013.62 - 1991.71) = 0.0456

Найдем теоретические частоты:

n1 = n*f(x)(x1 - a*) = 0.77 * 0.0456(1992-1991.71) = 0.0102

n5 = n*f(x)(b* - x4) = 0.77 * 0.0456(2013.62-2008) = 0.2

ns = n*f(x)(xi - xi-1)

Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.

Поэтому критическая область для этой статистики всегда правосторонняя: ) могут существенно отличаться от соответствующих характеристик исходной (неискаженной) схемы (, л)- Так, например, ниже (см. п. 1.1.4) показано, что наложение случайных нормальных ошибок на исходную двумерную нормальную схему (, т) всегда уменьшает абсолютную величину коэффициента регрессии Ql в соотношении (В. 15), а также ослабляет степень тесноты связи между ит (т. е. уменьшает абсолютную величину коэффициента корреляции г).  

Влияние ошибок измерения на величину коэффициента корреляции. Пусть мы хотим оценить степень тесноты корреляционной связи между компонентами двумерной нормальной случайной величины (, TJ), однако наблюдать мы их можем лишь с некоторыми случайными ошибками измерения соответственно es и е (см. схему зависимости D2 во введении). Поэтому экспериментальные данные (xit i/i), i = 1, 2,. .., л, - это практически выборочные значения искаженной двумерной случайной величины (, г)), где =  

Метод Р.а. состоит в выводе уравнения регрессии (включая оценку его параметров), с помощью которого находится средняя величина случайной переменной , если величина другой (или других в случае множественной или многофакторной регрессии) известна. (В отличие от этого корреляционный анализ применяется для нахождения и выражения тесноты связи между случайными величинами71.)  

В изучении корреляции признаков, не связанных согласованным изменением во времени, каждый признак изменяется под влиянием многих причин, принимаемых за случайные. В рядах динамики к ним прибавляется изменение во времпш каждого ряда. Это изменение приводит к так называемой автокорреляции - влиянию изменений уровней предыдущих рядов на последующие. Поэтому корреляция между уровнями динамических рядов правильно показывает тесноту связи между явлениями, отражаемыми в рядах динамики , лишь в том случае, если в каждом из них отсутствует автокорреляция. Кроме того, автокорреляция приводит к искажению величины среднеквадратических ошибок коэффициентов регрессии , что затрудняет построение доверительных интервалов для коэффициентов регрессии , а также проверки их значимости.  

Определенные соотношениями (1.8) и (1.8) соответственно теоретический и выборочный коэффициенты корреляции могут быть формально вычислены для любой двумерной системы наблюдений они являются измерителями степени тесно- ты линейной статистической связи между анализируемыми признаками. Однако только в случае совместной нормальной рас-пределенности исследуемых случайных величин и ц коэффициент корреляции г имеет четкий смысл как характеристика степени тесноты связи между ними. В частности, в этом, случае соотношение г - 1 подтверждает чисто функциональную линейную зависимость между исследуемыми величинами, а уравнение г = 0 свидетельствует об их полной взаимной независимости. Кроме того, коэффициент корреляции вместе со средними и дисперсиями случайных величин и TJ составляет те пять параметров, которые дают исчерпывающие сведения о

Регрессионного анализа

Обработка результатов эксперимента методом

При изучении процессов функционирования сложных систем приходится иметь дело с целым рядом одновременно действующих случайных величин. Для уяснения механизма явлений, причинно-следственных связей между элементами системы и т.д., по полученным наблюдениям мы пытаемся установить взаимоотношения этих величин.

В математическом анализе зависимость, например, между двумя величинами выражается понятием функции

где каждому значению одной переменной соответствует только одно значение другой. Такая зависимость носит название функциональной .

Гораздо сложнее обстоит дело с понятием зависимости случайных величин. Как правило, между случайными величинами (случайными факторами), определяющими процесс функционирования сложных систем, обычно существует такая связь, при которой с изменением одной величины меняется распределение другой. Такая связь называется стохастической , или вероятностной . При этом величину изменения случайного фактора Y , соответствующую изменению величины Х , можно разбить на два компонента. Первый связан с зависимостью Y от X , а второй с влиянием "собственных" случайных составляющих величин Y и X . Если первый компонент отсутствует, то случайные величины Y и X являются независимыми. Если отсутствует второй компонент, то Y и X зависят функционально. При наличии обоих компонент соотношение между ними определяет силу или тесноту связи между случайными величинами Y и X .

Существуют различные показатели, которые характеризуют те или иные стороны стохастической связи. Так, линейную зависимость между случайными величинами X и Y определяет коэффициент корреляции.

где – математические ожидания случайных величин X и Y .

– средние квадратические отклонения случайных величин X и Y .


Линейная вероятностная зависимость случайных величин заключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или убывать) по линейному закону. Если случайные величины X и Y связаны строгой линейной функциональной зависимостью, например,

y=b 0 +b 1 x 1 ,

то коэффициент корреляции будет равен ; причем знак соответствует знаку коэффициента b 1 .Если величины X и Y связаны произвольной стохастической зависимостью, то коэффициент корреляции будет изменяться в пределах

Следует подчеркнуть, что для независимых случайных величин коэффициент корреляции равен нулю. Однако коэффициент корреляции как показатель зависимости между случайными величинами обладает серьезными недостатками. Во-первых, из равенства r = 0 не следует независимость случайных величин X и Y (за исключением случайных величин, подчиненных нормальному закону распределения, для которых r = 0 означает одновременно и отсутствие всякой зависимости). Во- вторых, крайние значения также не очень полезны, так как соответствуют не всякой функциональной зависимости, а только строго линейной.



Полное описание зависимости Y от X , и притом выраженное в точных функциональных соотношениях, можно получить, зная условную функцию распределения .

Следует отметить, что при этом одна из наблюдаемых переменных величин считается неслучайной. Фиксируя одновременно значения двух случайных величин X и Y , мы при сопоставлении их значений можем отнести все ошибки лишь к величине Y . Таким образом, ошибка наблюдения будет складываться из собственной случайной ошибки величины Y и из ошибки сопоставления, возникающей из-за того, что с величиной Y сопоставляется не совсем то значение X , которое имело место на самом деле.

Однако отыскание условной функции распределения, как правило, оказывается весьма сложной задачей. Наиболее просто исследовать зависимость между Х и Y при нормальном распределении Y , так как оно полностью определяется математическим ожиданием и дисперсией. В этом случае для описания зависимости Y от X не нужно строить условную функцию распределения, а достаточно лишь указать, как при изменении параметра X изменяются математическое ожидание и дисперсия величины Y .

Таким образом, мы приходим к необходимости отыскания только двух функций:

Зависимость условной дисперсии D от параметра Х носит название сходастической зависимости. Она характеризует изменение точности методики наблюдений при изменении параметра и используется достаточно редко.

Зависимость условного математического ожидания M от X носит название регрессии , она дает истинную зависимость величин Х и У , лишенную всех случайных наслоений. Поэтому идеальной целью всяких исследований зависимых величин является отыскание уравнения регрессии, а дисперсия используется лишь для оценки точности полученного результата.

Прямое токование термина корреляция - стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.

Выше говорилось о том, что если для двух СВ (X иY ) имеет место равенство P(XY) =P(X) P(Y) , то величины X и Y считаются независимыми. Ну, а если это не так!?

Ведь всегда важен вопрос - а как сильно зависит одна СВ от другой? И дело в не присущем людям стремлении анализировать что-либо обязательно в числовом измерении. Уже понятно, что системный анализ означает непрерывные вычисления, что использование компьютера вынуждает нас работать с числами , а не понятиями.

Для числовой оценки возможной связи между двумя случайными величинами: Y (со средним M y S y ) и - X (со средним M x и среднеквадратичным отклонением S x ) принято использовать так называемый коэффициент корреляции

R xy = . {2 - 11}

Этот коэффициент может принимать значения от -1 до +1 - в зависимости от тесноты связи между данными случайными величинами.

Если коэффициент корреляции равен нулю, то X и Y называют некоррелированными . Считать их независимыми обычно нет оснований - оказывается, что существуют такие, как правило - нелинейные связи величин, при которых R xy = 0 , хотя величины зависят друг от друга. Обратное всегда верно - если величины независимы , то R xy = 0 . Но, если модуль R xy = 1, то есть все основания предполагать наличие линейной связи между Y и X . Именно поэтому часто говорят о линейной корреляции при использовании такого способа оценки связи между СВ.

Отметим еще один способ оценки корреляционной связи двух случайных величин - если просуммировать произведения отклонений каждой из них от своего среднего значения, то полученную величину -

С xy = S (X - M x) ·(Y - M y)

или ковариацию величин X и Y отличает от коэффициента корреляции два показателя: во-первых, усреднение (деление на число наблюдений или пар X , Y ) и, во-вторых, нормирование путем деления на соответствующие среднеквадратичные отклонения.

Такая оценка связей между случайными величинами в сложной системе является одним из начальных этапов системного анализа, поэтому уже здесь во всей остроте встает вопрос о доверии к выводу о наличии или отсутствии связей между двумя СВ.

В современных методах системного анализа обычно поступают так. По найденному значению R вычисляют вспомогательную величину:

W = 0.5 Ln[(1 + R)/(1-R)] {2 - 12}

и вопрос о доверии к коэффициенту корреляции сводят к доверительным интервалам для случайной величины W, которые определяются стандартными таблицами или формулами.

В отдельных случаях системного анализа приходится решать вопрос о связях нескольких (более 2) случайных величин или вопрос о множественной корреляции .

Пусть X , Y и Z - случайные величины, по наблюдениям над которыми мы установили их средние M x , M y ,Mz и среднеквадратичные отклонения S x , S y , S z .

Тогда можно найти парные коэффициенты корреляции R xy , R xz , R yz по приведенной выше формуле. Но этого явно недостаточно - ведь мы на каждом из трех этапов попросту забывали о наличии третьей случайной величины! Поэтому в случаях множественного корреляционного анализа иногда требуется отыскивать т. н. частные коэффициенты корреляции - например, оценка виляния Z на связь между X и Y производится с помощью коэффициента

R xy.z = {2 - 13}

И, наконец, можно поставить вопрос - а какова связь между данной СВ и совокупностью остальных? Ответ на такие вопросы дают коэффициенты множественной корреляции R x.yz , R y.zx , R z.xy , формулы для вычисления которых построены по тем же принципам - учету связи одной из величин со всеми остальными в совокупности.

На сложности вычислений всех описанных показателей корреляционных связей можно не обращать особого внимания - программы для их расчета достаточно просты и имеются в готовом виде во многих ППП современных компьютеров.

Достаточно понять главное - если при формальном описании элемента сложной системы, совокупности таких элементов в виде подсистемы или, наконец, системы в целом, мы рассматриваем связи между отдельными ее частями, - то степень тесноты этой связи в виде влияния одной СВ на другую можно и нужно оценивать на уровне корреляции.

В заключение заметим еще одно - во всех случаях системного анализа на корреляционном уровне обе случайные величины при парной корреляции или все при множественной считаются "равноправными" - т. е. речь идет о взаимном влиянии СВ друг на друга.

Так бывает далеко не всегда - очень часто вопрос о связях Y и X ставится в иной плоскости - одна из величин является зависимой (функцией) от другой (аргумента).