La relación que existe entre variables aleatorias de diferente naturaleza, por ejemplo, entre el valor X y el valor Y, no es necesariamente consecuencia de la dependencia directa de una cantidad sobre otra (la llamada relación funcional). En algunos casos, ambas cantidades dependen de un conjunto de factores diferentes comunes a ambas cantidades, como resultado de lo cual se forman patrones relacionados entre sí. Cuando la relación entre variables aleatorias se encuentra utilizando estadísticas, no podemos afirmar haber encontrado la causa del cambio continuo en los parámetros, sino que solo vimos dos consecuencias interrelacionadas.

Por ejemplo, los niños que ven películas de acción estadounidenses con mayor frecuencia leen menos. Los niños que leen más aprenden mejor. No es tan fácil decidir dónde están las causas y dónde están los efectos, pero esa no es la tarea de las estadísticas. La estadística sólo puede, al plantear una hipótesis sobre la existencia de una conexión, respaldarla con cifras. Si existe una conexión, se dice que existe una correlación entre dos variables aleatorias. Si un aumento en una variable aleatoria está asociado con un aumento en una segunda variable aleatoria, la correlación se llama directa. Por ejemplo, el número de páginas leídas por año y la nota media (rendimiento académico). Si, por el contrario, un aumento de una cantidad se asocia con una disminución de otra, se habla de correlación inversa. Por ejemplo, el número de películas de acción y el número de páginas leídas.

La interconexión de dos variables aleatorias se llama correlación, el análisis de correlación le permite determinar la presencia de dicha relación, para evaluar qué tan cercana y significativa es esta relación. Todo esto se expresa cuantitativamente.

¿Cómo determinar si existe una correlación entre los valores? En la mayoría de los casos, esto se puede ver en un gráfico regular. Por ejemplo, para cada niño de nuestra muestra, puede determinar el valor de X i (número de páginas) e Y i (calificación promedio de la calificación anual) y registrar estos datos en forma de tabla. Trace los ejes X e Y, y luego trace la fila completa de puntos en el gráfico para que cada uno de ellos tenga un par específico de coordenadas (X i, Y i) de nuestra tabla. Dado que en este caso nos resulta difícil determinar qué se puede considerar una causa y qué una consecuencia, no importa qué eje es vertical y cuál es horizontal.


Si el gráfico tiene la forma a), esto indica la presencia de una correlación directa, si tiene la forma b), la correlación es inversa. Falta de correlación
Con el coeficiente de correlación, puede calcular qué tan cercana existe la relación entre los valores.

Suponga que existe una correlación entre el precio y la demanda de un producto. El número de unidades compradas de bienes, según el precio de diferentes vendedores, se muestra en la tabla:

Puede verse que estamos ante una correlación inversa. Para cuantificar la rigidez de la comunicación, se utiliza el coeficiente de correlación:

Calculamos el coeficiente r en Excel, usando la función f x, luego las funciones estadísticas, la función CORREL. En el indicador del programa, ingresamos con el mouse en dos campos correspondientes dos matrices diferentes (X e Y). En nuestro caso, el coeficiente de correlación resultó ser r = - 0,988. Cabe señalar que cuanto más cerca de 0 es el coeficiente de correlación, más débil es la relación entre los valores. La relación más cercana con correlación directa corresponde al coeficiente r cercano a +1. En nuestro caso, la correlación es inversa, pero también muy cercana, y el coeficiente se acerca a -1.

¿Qué se puede decir acerca de las variables aleatorias para las que el coeficiente tiene un valor intermedio? Por ejemplo, si obtenemos r = 0,65. En este caso, la estadística nos permite decir que dos variables aleatorias están parcialmente relacionadas entre sí. Digamos que el 65% de la influencia en el número de compras fue realizada por precio, y 35% - otras circunstancias.

Y conviene mencionar una circunstancia más importante. Dado que estamos hablando de variables aleatorias, siempre existe la posibilidad de que la conexión que hemos notado sea una circunstancia aleatoria. Además, la probabilidad de encontrar una relación donde no la hay es especialmente grande cuando hay pocos puntos en la muestra y al evaluar no trazó un gráfico, sino que simplemente calculó el valor del coeficiente de correlación en una computadora. Entonces, si dejamos solo dos puntos diferentes en cualquier muestra arbitraria, el coeficiente de correlación será igual a +1 o -1. Desde el curso de geometría de la escuela, sabemos que siempre se puede trazar una línea recta a través de dos puntos. Para evaluar la confiabilidad estadística del hecho de la conexión que descubrió, es útil utilizar la llamada corrección de correlación:

Si bien la tarea del análisis de correlación es establecer si las variables aleatorias dadas están interrelacionadas, el propósito del análisis de regresión es describir esta relación como una dependencia analítica, es decir, usando la ecuación. Consideraremos el caso más simple cuando la conexión entre puntos en el gráfico se puede representar mediante una línea recta. La ecuación de esta línea recta es Y = aX + b, donde a = Yav.-bXav.,

Sabiendo, podemos encontrar el valor de la función por el valor del argumento en aquellos puntos donde se conoce el valor de X, pero Y no. Estas estimaciones son muy útiles, pero deben usarse con precaución, especialmente si la relación entre los valores no es demasiado estrecha.

Tenga en cuenta también que una comparación de las fórmulas para byr muestra que el coeficiente no da el valor de la pendiente de la línea recta, sino que solo muestra el hecho mismo de la presencia de una conexión.

La empresa emplea a 10 personas. La Tabla 2 muestra datos sobre la duración del servicio y

salario mensual.

Calcular a partir de estos datos

  • - el valor de la estimación de la covarianza muestral;
  • - valor del coeficiente de correlación de Pearson muestreado;
  • - evaluar la dirección y la fuerza de la unión por los valores obtenidos;
  • - Determinar qué tan legítima es la afirmación de que esta empresa utiliza el modelo de gestión japonés, que es el supuesto de que cuanto más tiempo pasa un empleado en esta empresa, mayor debe ser su salario.

Basado en el campo de correlación, se puede hipotetizar (para la población general) que la relación entre todos los valores posibles de X e Y es lineal.

Para calcular los parámetros de regresión, construyamos una tabla de cálculo.

Promedios seleccionados.

Variaciones de la muestra:

La ecuación de regresión estimada será

y = bx + a + e,

donde ei son los valores observados (estimaciones) de los errores ei, ayb, respectivamente, las estimaciones de los parámetros by en el modelo de regresión que deben encontrarse.

Para estimar los parámetros byc, utilice el método de mínimos cuadrados (método de mínimos cuadrados).

Sistema de ecuaciones normales.

a? x + b? x2 =? y * x

Para nuestros datos, el sistema de ecuaciones tiene la forma

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Multiplicamos la ecuación (1) del sistema por (-30,7), obtenemos el sistema, que resolvemos por el método de la suma algebraica.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Obtenemos:

1432.1 b = 105390

De donde b = 73.5912

Ahora encontramos el coeficiente "a" de la ecuación (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73.5912 = 33300
  • 10a = 10707,49

Obtenemos los coeficientes de regresión empírica: b = 73.5912, a = 1070.7492

Ecuación de regresión (ecuación de regresión empírica):

y = 73,5912 x + 1070,7492

Covarianza.

En nuestro ejemplo, la relación entre el factor X del factor Y es alta y directa.

Por lo tanto, podemos decir con seguridad que cuanto más tiempo trabaja un empleado en una empresa determinada, mayor es su salario.

4. Prueba de hipótesis estadísticas. Al resolver este problema, el primer paso es formular una hipótesis comprobable y una alternativa a ella.

Comprobación de la igualdad de las acciones generales.

Se realizó un estudio sobre los temas de progreso de los estudiantes en dos facultades. Los resultados de las opciones se muestran en la Tabla 3. ¿Podemos decir que ambas facultades tienen el mismo porcentaje de estudiantes excelentes?

Media aritmética simple

Probamos la hipótesis sobre la igualdad de las acciones generales:

Encontremos el valor experimental del criterio de Student:

Numero de grados de libertad

f = nх + nу - 2 = 2 + 2 - 2 = 2

Determine el valor de tkp de acuerdo con la tabla de distribución de Student.

Según la tabla de Student, encontramos:

Ttabla (f; b / 2) = Ttabla (2; 0.025) = 4.303

De acuerdo con la tabla de puntos críticos de la distribución de Student a un nivel de significancia de b = 0.05 y un número dado de grados de libertad, encontramos tcr = 4.303

Porque tobl> tcr, entonces se rechaza la hipótesis nula, las proporciones generales de las dos muestras no son iguales.

Comprobación de la uniformidad de la distribución general.

La administración de la universidad quiere saber cómo ha cambiado la popularidad de la facultad de humanidades a lo largo del tiempo. Se analizó el número de postulantes que postularon a esta facultad en relación al número total de postulantes en el año correspondiente. (Los datos se muestran en la Tabla 4). Si consideramos que el número de postulantes es una muestra representativa del total de egresados ​​escolares del año, ¿se puede argumentar que el interés de los escolares por las especialidades de esta facultad no cambia con el tiempo?

Opción 4

Solución: Tabla para el cálculo de indicadores.

Punto medio del intervalo, xi

Frecuencia acumulada, S

Frecuencia, fi / n

Para estimar la serie de distribución, encontramos los siguientes indicadores:

Peso promedio

El rango de variación es la diferencia entre los valores máximo y mínimo de la característica de la serie primaria.

R = 2008 - 1988 = 20 Dispersión: caracteriza la medida de dispersión alrededor de su valor medio (la medida de dispersión, es decir, la desviación de la media).

Desviación estándar (error muestral medio).

Cada valor de la serie difiere del valor promedio de 2002.66 en un promedio de 6.32

Probar la hipótesis sobre la distribución uniforme de la población general.

Para probar la hipótesis sobre la distribución uniforme de X, es decir, según la ley: f (x) = 1 / (b-a) en el intervalo (a, b) es necesario:

Estime los parámetros ayb - los extremos del intervalo en el que se observaron los posibles valores de X, según las fórmulas (las estimaciones de los parámetros se denotan mediante el signo *):

Encuentre la densidad de probabilidad de la distribución inferida f (x) = 1 / (b * - a *)

Encuentra frecuencias teóricas:

n1 = nP1 = n = n * 1 / (b * - a *) * (x1 - a *)

n2 = n3 = ... = ns-1 = n * 1 / (b * - a *) * (xi - xi-1)

ns = n * 1 / (segundo * - a *) * (segundo * - xs-1)

Compare las frecuencias empíricas y teóricas utilizando la prueba de Pearson, tomando el número de grados de libertad k = s-3, donde s es el número de intervalos de muestreo iniciales; si se hizo la combinación de pocas frecuencias y, por lo tanto, los intervalos mismos, entonces s es el número de intervalos que quedan después de la combinación. Encontremos las estimaciones de los parámetros a * yb * de la distribución uniforme mediante las fórmulas:

Encuentre la densidad de la distribución uniforme asumida:

f (x) = 1 / (b * - a *) = 1 / (2013.62 - 1991.71) = 0.0456

Encontremos las frecuencias teóricas:

n1 = n * f (x) (x1 - a *) = 0,77 * 0,0456 (1992-1991,71) = 0,0102

n5 = n * f (x) (b * - x4) = 0,77 * 0,0456 (2013,62-2008) = 0,2

ns = n * f (x) (xi - xi-1)

Dado que las estadísticas de Pearson miden la diferencia entre distribuciones empíricas y teóricas, cuanto mayor sea el valor Kobl observado, más fuerte será el argumento en contra de la hipótesis principal.

Por lo tanto, la región crítica para esta estadística es siempre diestra :) puede diferir significativamente de las características correspondientes del esquema original (no distorsionado) el esquema normal (, t) siempre reduce el valor absoluto del coeficiente de regresión Ql en relación (B . 15), y también debilita el grado de rigidez de la relación entre um (es decir, reduce el valor absoluto del coeficiente de correlación r).

La influencia de los errores de medición en el valor del coeficiente de correlación. Supongamos que queremos estimar el grado de cercanía de la correlación entre los componentes de una variable aleatoria normal bidimensional (, TJ), pero podemos observarlos solo con algunos errores de medición aleatorios, es y e, respectivamente (ver la dependencia D2 diagrama en la introducción). Por tanto, los datos experimentales (xit i / i), i = 1, 2,. .., l, son prácticamente valores de muestra de una variable aleatoria bidimensional distorsionada (, z)), donde =

El método de R. consiste en derivar una ecuación de regresión (incluyendo una estimación de sus parámetros), con la ayuda de la cual se encuentra el valor promedio de una variable aleatoria, si se conoce el valor de otra (u otras en el caso de regresión múltiple o multivariante). (Por el contrario, el análisis de correlación se utiliza para encontrar y expresar la cercanía de la relación entre variables aleatorias71.)

En el estudio de la correlación de características que no están asociadas con un cambio constante en el tiempo, cada característica cambia bajo la influencia de muchas razones, consideradas al azar. En las filas de dinámica, se les agrega un cambio durante el tiempo de cada fila. Este cambio conduce a la llamada autocorrelación: la influencia de los cambios en los niveles de la serie anterior sobre las siguientes. Por tanto, la correlación entre los niveles de las series temporales muestra correctamente la estrechez de la conexión entre los fenómenos reflejados en la serie de dinámicas solo si no existe autocorrelación en cada uno de ellos. Además, la autocorrelación conduce a una distorsión del valor de la raíz del error cuadrático medio de los coeficientes de regresión, lo que dificulta la construcción de intervalos de confianza para los coeficientes de regresión, así como la verificación de su significancia.

Los coeficientes de correlación teóricos y muestrales determinados por las relaciones (1.8) y (1.8), respectivamente, pueden calcularse formalmente para cualquier sistema de observación bidimensional; son medidas del grado de cercanía de la relación estadística lineal entre las características analizadas. Sin embargo, solo en el caso de la distribución normal conjunta de las variables aleatorias investigadas yq, el coeficiente de correlación r tiene un significado claro como característica del grado de estrechez de la relación entre ellas. En particular, en este caso, la relación r - 1 confirma una relación lineal puramente funcional entre las cantidades investigadas, y la ecuación r = 0 indica su completa independencia mutua. Además, el coeficiente de correlación, junto con las medias y varianzas de las variables aleatorias y TJ, conforman esos cinco parámetros que brindan información completa sobre

Análisis de regresión

Procesando los resultados del experimento por el método

Cuando se estudian los procesos de funcionamiento de sistemas complejos, uno tiene que lidiar con una serie de variables aleatorias que actúan simultáneamente. Para comprender el mecanismo de los fenómenos, las relaciones de causa y efecto entre los elementos del sistema, etc., a partir de las observaciones obtenidas, estamos tratando de establecer la relación de estas cantidades.

En el análisis matemático, la relación, por ejemplo, entre dos cantidades se expresa mediante el concepto de función.

donde cada valor de una variable corresponde solo a un valor de otra. Esta dependencia se llama funcional.

La situación con el concepto de dependencia de variables aleatorias es mucho más complicada. Por regla general, entre las variables aleatorias (factores aleatorios) que determinan el proceso de funcionamiento de sistemas complejos, suele existir una relación en la que, con un cambio en una cantidad, cambia la distribución de la otra. Esta conexión se llama estocástico, o probabilístico... En este caso, la magnitud del cambio en el factor aleatorio Y correspondiente a un cambio en la cantidad NS se puede dividir en dos componentes. El primero está relacionado con la adicción. Y de X, y el segundo con la influencia de componentes aleatorios "propios" de cantidades Y y X... Si el primer componente está ausente, entonces las variables aleatorias Y y X son independientes. Si el segundo componente está ausente, entonces Y y X Dependen funcionalmente. En presencia de ambos componentes, la relación entre ellos determina la fuerza o rigidez de la relación entre variables aleatorias. Y y X.

Existen varios indicadores que caracterizan ciertos aspectos de la relación estocástica. Entonces, la relación lineal entre variables aleatorias X y Y determina el coeficiente de correlación.

¿Dónde están las expectativas matemáticas de las variables aleatorias X y Y.

- desviaciones cuadradas medias de variables aleatorias X y Y.


La dependencia probabilística lineal de las variables aleatorias radica en el hecho de que a medida que una variable aleatoria aumenta, la otra tiende a aumentar (o disminuir) linealmente. Si las variables aleatorias X y Y están conectados por una dependencia funcional lineal estricta, por ejemplo,

y = b 0 + b 1 x 1,

entonces el coeficiente de correlación será; y el signo corresponde al signo del coeficiente b 1.Si las cantidades X y Y están conectados por una dependencia estocástica arbitraria, entonces el coeficiente de correlación variará dentro de

Cabe destacar que el coeficiente de correlación para variables aleatorias independientes es cero. Sin embargo, el coeficiente de correlación como indicador de la relación entre variables aleatorias tiene serios inconvenientes. Primero, desde la igualdad r= 0 no implica independencia de variables aleatorias X y Y(con la excepción de las variables aleatorias sujetas a la ley de distribución normal, para las cuales r= 0 significa la ausencia de cualquier dependencia al mismo tiempo). En segundo lugar, los valores extremos tampoco son muy útiles, ya que no corresponden a ninguna dependencia funcional, sino solo estrictamente lineales.



Descripción completa de la dependencia Y de X y, además, expresado en relaciones funcionales exactas, se puede obtener conociendo la función de distribución condicional.

Cabe señalar que en este caso una de las variables observadas se considera no aleatoria. Fijar simultáneamente los valores de dos variables aleatorias X y Y, al comparar sus valores, podemos atribuir todos los errores solo al valor Y... Por tanto, el error de observación será la suma del error aleatorio intrínseco del valor Y y del error de comparación que surge del hecho de que con el valor Y se está haciendo coincidir el valor incorrecto X que realmente tuvo lugar.

Sin embargo, encontrar la función de distribución condicional, como regla, resulta ser una tarea muy difícil. Es más fácil investigar la relación entre NS y Y con distribución normal Y, ya que está completamente determinado por la expectativa matemática y la varianza. En este caso, para describir la dependencia Y de X no es necesario construir una función de distribución condicional, pero basta con indicar cómo al cambiar el parámetro X la expectativa matemática y la varianza del cambio de cantidad Y.

Así, llegamos a la necesidad de encontrar solo dos funciones:

Varianza condicional de dependencia D desde el parámetro NS lleva el nombre semejanza dependencias. Caracteriza el cambio en la precisión de la técnica de observación cuando el parámetro cambia y se usa con bastante poca frecuencia.

Dependencia de la expectativa matemática condicional METRO de X lleva el nombre regresiones, da la verdadera dependencia de las cantidades NS y Tengo desprovisto de todas las capas aleatorias. Por lo tanto, el objetivo ideal de cualquier estudio de cantidades dependientes es encontrar una ecuación de regresión, y la varianza se usa solo para evaluar la precisión del resultado.

Adelante plazo actual correlación - estocástico, probable, posible conexión entre dos (pares) o varias (múltiples) variables aleatorias.

Se dijo anteriormente que si por dos SV ( X y Y) la igualdad P (XY) = P (X) P (Y), luego las cantidades X y Y se consideran independientes. Bueno, ¿y si no es así?

Después de todo, la pregunta siempre es importante: una Que tan fuerte¿Depende un SV de otro? Y el punto está en el deseo no inherente a las personas de analizar algo necesariamente en una dimensión numérica. Ya está claro que el análisis de sistemas significa cálculos continuos, que usar una computadora nos obliga a trabajar con números, no conceptos.

Para estimar numéricamente la posible relación entre dos variables aleatorias: Y(con medio MiS y) y - X(con medio M x y desviación estándar S x) es habitual utilizar el llamado coeficiente de correlación

R xy = . {2 - 11}

Este coeficiente puede tomar valores de -1 a +1, dependiendo de la cercanía de la relación entre estas variables aleatorias.

Si el coeficiente de correlación es cero, entonces X y Y son llamados no correlacionado ... Por lo general, no hay razón para considerarlos independientes; resulta que, por regla general, existen relaciones no lineales de cantidades en las que R xy = 0, aunque las cantidades dependen unas de otras. Lo contrario es siempre cierto, si las cantidades independiente , luego R xy = 0 ... Pero, si el módulo R xy= 1, es decir, hay muchas razones para asumir la presencia lineal Comunicación entre Y y X... Por eso suelen hablar de correlación lineal al utilizar este método para evaluar la relación entre SV.

Observemos otra forma de evaluar la correlación entre dos variables aleatorias: si sumamos los productos de las desviaciones de cada una de ellas de su valor medio, entonces el valor obtenido es

C xy = S (X - M x)· (Y - M y)

o covarianza cantidades X y Y distingue dos indicadores del coeficiente de correlación : En primer lugar, promediando(dividido por el número de observaciones o pares X, Y) y en segundo lugar, racionamiento dividiendo por las desviaciones estándar correspondientes.

Tal evaluación de las conexiones entre variables aleatorias en un sistema complejo es una de las etapas iniciales del análisis de sistemas, por lo tanto, ya aquí en toda su agudeza surge la cuestión de la confianza en la conclusión sobre la presencia o ausencia de conexiones entre dos SV.

En los métodos modernos de análisis de sistemas, este suele ser el caso. Por valor encontrado R calcular el valor auxiliar:

W = 0.5 Ln [(1 + R) / (1-R)]{2 - 12}

y la cuestión de la confianza en el coeficiente de correlación se reduce a intervalos de confianza para una variable aleatoria W, que se determinan mediante tablas o fórmulas estándar.

En algunos casos de análisis de sistemas, es necesario resolver el problema de las relaciones entre varias (más de 2) variables aleatorias o la cuestión de correlación múltiple.

Permitir X, Y y Z- Variables aleatorias, según observaciones sobre las que hemos establecido su promedio. M x, Mi,Mz y desviaciones estándar S x, S y, S z.

Entonces uno puede encontrar emparejado Coeficientes de correlación R xy, R xz, R yz por la fórmula anterior. Pero esto claramente no es suficiente; después de todo, en cada una de las tres etapas, ¡simplemente nos olvidamos de la presencia de una tercera variable aleatoria! Por lo tanto, en los casos de análisis de correlación múltiple, a veces es necesario encontrar el llamado. privado coeficientes de correlación, por ejemplo, puntuación de oscilación Z para la comunicación entre X y Y se produce utilizando el coeficiente

R xy.z = {2 - 13}

Y, finalmente, se puede plantear la pregunta: ¿cuál es la conexión entre este SV y la totalidad del resto? La respuesta a tales preguntas viene dada por los coeficientes múltiple correlaciones R x.yz, R y.zx, R z.xy, fórmulas para el cálculo de las cuales se basan en los mismos principios, teniendo en cuenta la relación de una de las cantidades con todas las demás en el agregado.

Es posible no prestar especial atención a la complejidad de calcular todos los indicadores de correlación descritos: los programas para su cálculo son bastante simples y están listos para usar en muchas PPP de computadoras modernas.

Es suficiente comprender lo principal: si en la descripción formal de un elemento de un sistema complejo, un conjunto de tales elementos en forma de un subsistema o, finalmente, un sistema en su conjunto, consideramos conexiones entre sus partes individuales, entonces el grado de cercanía de esta conexión en la forma de la influencia de un SV sobre otro puede y debe evaluarse a nivel de correlación.

En conclusión, observamos una cosa más - en todos los casos de análisis del sistema a nivel de correlación, ambas variables aleatorias en caso de correlación de pares o todas ellas en caso de correlación múltiple se consideran "iguales" - es decir, estamos hablando de la influencia mutua de SV entre sí.

Este no es siempre el caso, muy a menudo la cuestión de las conexiones Y y X se pone en un plano diferente - una de las cantidades depende (función) de la otra (argumento).