Cómo calcular la correlación. La importancia del coeficiente de correlación. Sesgo de los medios

El coeficiente de correlación refleja el grado de relación entre dos indicadores. Siempre toma un valor de -1 a 1. Si el coeficiente se ubica cerca de 0, entonces dicen que no hay conexión entre las variables.

Si el valor es cercano a uno (de 0.9, por ejemplo), entonces existe una fuerte relación directa entre los objetos observados. Si el coeficiente está cerca del otro punto extremo del rango (-1), entonces existe una fuerte relación inversa entre las variables. Cuando el valor está en algún lugar en el medio de 0 a 1 o de 0 a -1, entonces estamos hablando de una relación débil (hacia adelante o hacia atrás). Esta relación no se suele tener en cuenta: se cree que no existe.

Cálculo del coeficiente de correlación en Excel

Consideremos a modo de ejemplo los métodos de cálculo del coeficiente de correlación, las características de la relación directa e inversa entre las variables.

Valores de los indicadores xey:

Y es la variable independiente, x es la dependiente. Es necesario encontrar la fuerza (fuerte / débil) y la dirección (adelante / atrás) de la conexión entre ellos. La fórmula para el coeficiente de correlación se ve así:

Para que sea más fácil de entender, dividámoslo en varios elementos simples.

Se define una fuerte relación directa entre las variables.

La función CORREL incorporada evita cálculos complejos. Calculemos el coeficiente de correlación de pares en Excel usándolo. Lo llamamos maestro de funciones. Encontramos el correcto. Los argumentos de la función son una matriz de valores y y una matriz de valores x:

Muestremos los valores de las variables en el gráfico:

Existe una fuerte conexión entre y y x, ya que las líneas corren casi paralelas entre sí. La relación es directa: aumentar y - aumentar x, disminuir y - disminuir x.

Matriz de coeficientes de correlación por pares en Excel

La matriz de correlación es una tabla, en la intersección de las filas y columnas de las cuales se encuentran los coeficientes de correlación entre los valores correspondientes. Tiene sentido construirlo para varias variables.

La matriz de coeficientes de correlación en Excel se construye utilizando la herramienta de correlación del paquete de análisis de datos.

Se encontró una fuerte relación directa entre los valores de y y x1. Entre x1 y x2 hay una fuerte Realimentación... Prácticamente no hay conexión con los valores de la columna x3.

En estadística matemática, la correlación es una dependencia estadística y probabilística que no tiene un carácter funcional estricto. Aparece una dependencia de correlación cuando una de las características depende tanto del segundo dado como de otros factores aleatorios. El coeficiente de correlación sirve como medida matemática de la dependencia de dos variables aleatorias.

Los tipos de coeficientes de correlación pueden ser negativos y positivos. Los cálculos realizados mediante correlación no son muy difíciles, pero requieren un cuidado especial por parte del ejecutante al calcular. Con estos cálculos, definitivamente necesitará una calculadora de ingeniería. Antes de averiguar cómo encontrar el coeficiente de correlación, debe comprender el significado de los valores del coeficiente:

En el caso de que el valor del módulo esté más cerca de 1, este es un indicador directo de la presencia de un enlace fuerte.
Si el valor está más cerca de 0, entonces esto ya significa una conexión débil o ninguna conexión en absoluto.
Cuando el coeficiente de correlación es igual a 1, entonces estamos hablando de una relación funcional, lo que indica la posibilidad de describir el cambio de dos cantidades usando una función matemática.

Procedimiento y método para calcular el coeficiente de correlación

Puede encontrar el coeficiente de correlación de la muestra de dos formas:

método de rango, o método de Spearman,
el método de los cuadrados, o el método de Pearson.

Método clasificado

El método clasificado consta del siguiente algoritmo de acciones:

Es necesario componer dos filas que constan de características comparables emparejadas. En este caso, introducimos las siguientes designaciones: la primera fila - xy la segunda fila - y. La primera fila de la función debe presentarse en orden ascendente o descendente. Los valores numéricos de la segunda fila se colocan frente a los valores de la primera fila.
Luego, en cada una de las filas de comparación, reemplazamos el valor del atributo con el número ordinal (rango). Los números (rangos) indican los lugares de los indicadores, o valores, de la primera y segunda filas. Y los valores numéricos de la segunda característica deben asignarse rangos exactamente en el mismo orden que cuando se distribuye la primera característica a sus valores. Debe tenerse en cuenta que si una característica en una fila tiene los mismos valores, entonces los rangos deben determinarse como un promedio a partir de la suma de los números ordinales de estos valores.
A continuación, determinamos la diferencia de rangos entre los indicadores: (d) = x-y.
Después de eso, cuadramos la diferencia de rangos resultante (d 2).
Y en conclusión, obtenemos la suma de los cuadrados de la diferencia, después de lo cual sustituimos todos los valores obtenidos en la siguiente fórmula: Pxy = 1- (6 Ʃd 2) / n (n 2 -1).

Método cuadrado

El método de cuadrados incluye el siguiente algoritmo:

Para encontrar el coeficiente de correlación, primero es necesario construir una serie de variación para cada una de las características comparadas. Designamos la primera fila como x y la segunda fila como y. Ahora determinamos los valores promedio (M 1 y M 2) para cada serie de variación.
A continuación, encontramos las desviaciones de cada valor numérico(d x y d y) de la media de la serie.
Multiplicamos las desviaciones resultantes y cuadramos cada desviación, después de lo cual sumamos para cada fila.
Entonces es necesario sustituir todos los valores obtenidos previamente en la fórmula y así encontrar el coeficiente de correlación: r xy = Ʃ (dx * dy) / (sqrt (Ʃ d2x) * Ʃ d2y).
Si hay tecnología informática, entonces el cálculo se puede hacer de acuerdo con la siguiente fórmula, y esta forma de cálculo también se puede usar en programas escritos en Pascal: r xy = (nƩxy- / Ʃx * Ʃy) / (sqrt (-) ).

En la investigación científica, a menudo es necesario encontrar una relación entre las variables efectivas y factoriales (el rendimiento de un cultivo y la cantidad de precipitación, la altura y el peso de una persona en grupos homogéneos por sexo y edad, frecuencia cardíaca y temperatura corporal , etc.).

Los segundos son signos que contribuyen al cambio de sus asociados (los primeros).

Análisis de correlación

Hay muchas Con base en lo anterior, podemos decir que el análisis de correlación es un método utilizado para probar la hipótesis de que dos o más variables son estadísticamente significativas si el investigador puede medirlas pero no cambiarlas.

Hay otras definiciones del concepto en cuestión. El análisis de correlación es una técnica de procesamiento que examina los coeficientes de correlación entre variables. En este caso, los coeficientes de correlación se comparan entre un par o una pluralidad de pares de características para establecer relaciones estadísticas entre ellos. El análisis de correlación es un método para estudiar la dependencia estadística entre variables aleatorias con la presencia opcional de una estricta naturaleza funcional, en el que la dinámica de una variable aleatoria conduce a la dinámica de la expectativa matemática de otra.

Comprender la falsedad de la correlación

A la hora de realizar un análisis de correlación, es necesario tener en cuenta que se puede realizar en relación con cualquier conjunto de características, que muchas veces resultan absurdas entre sí. A veces, no tienen ninguna conexión causal entre sí.

En este caso, se habla de una falsa correlación.

Tareas de análisis de correlación

Con base en las definiciones anteriores, se pueden formular las siguientes tareas del método descrito: obtener información sobre una de las variables buscadas utilizando la otra; determinar la cercanía de la relación entre las variables estudiadas.

El análisis de correlación implica la determinación de la relación entre las características estudiadas, en relación con lo cual las tareas de análisis de correlación se pueden complementar con lo siguiente:

identificación de los factores que tienen el mayor impacto en el signo resultante;
identificación de razones previamente inexploradas para conexiones;
construir un modelo de correlación con su análisis paramétrico;
estudio de la importancia de los parámetros de comunicación y su estimación de intervalos.

Relación entre análisis de correlación y análisis de regresión

El método de análisis de correlación a menudo no se limita a encontrar la rigidez de la relación entre los valores estudiados. En ocasiones se complementa con la elaboración de ecuaciones de regresión, que se obtienen mediante el análisis del mismo nombre, y que representan una descripción de la dependencia de correlación entre el atributo (atributos) resultante y el factorial (factor). Este método, junto con el análisis en consideración, constituye el método

Condiciones para usar el método

Los factores efectivos dependen de uno a varios factores. El método de análisis de correlación se puede utilizar si hay un gran número de observaciones sobre el valor de los indicadores efectivos y factoriales (factores), mientras que los factores investigados deben ser cuantitativos y reflejados en fuentes específicas. La primera puede ser determinada por la ley normal; en este caso, los coeficientes de correlación de Pearson son el resultado del análisis de correlación o, si las características no obedecen esta ley, se utiliza el coeficiente de correlación de rango de Spearman.

Reglas de selección para factores de análisis de correlación

Al aplicar este método es necesario determinar los factores que influyen en los indicadores de desempeño. Se seleccionan teniendo en cuenta el hecho de que debe haber relaciones causales entre los indicadores. En el caso de crear un modelo de correlación multivariante, se seleccionan aquellos de ellos que tienen un impacto significativo en el indicador resultante, mientras que los factores interdependientes con un coeficiente de correlación par superior a 0,85 preferiblemente no deben incluirse en el modelo de correlación, así como aquellos en los que la relación con el parámetro efectivo es de naturaleza no rectilínea o funcional.

Visualización de resultados

Los resultados del análisis de correlación se pueden presentar en forma textual y gráfica. En el primer caso, se presentan como un coeficiente de correlación, en el segundo, en forma de diagrama de dispersión.

En ausencia de correlación entre los parámetros, los puntos en el diagrama se ubican caóticamente, el grado promedio de conexión se caracteriza por un mayor grado de orden y se caracteriza por una distancia más o menos uniforme de las marcas marcadas desde la mediana. Un vínculo fuerte tiende a una línea recta y para r = 1 el diagrama de puntos es una línea recta. La correlación inversa difiere en la dirección del gráfico desde la esquina superior izquierda a la inferior derecha, la línea recta, desde la esquina inferior izquierda a la esquina superior derecha.

Representación 3D de un diagrama de dispersión

Además del gráfico de dispersión 2D tradicional, ahora se utiliza una representación gráfica en 3D del análisis de correlación.

También se utiliza una matriz de diagramas de dispersión, que muestra todos los diagramas emparejados en una figura en un formato de matriz. Para n variables, la matriz contiene n filas yn columnas. El diagrama ubicado en la intersección de la i-ésima fila y la j-ésima columna es un gráfico de las variables Xi versus Xj. Por lo tanto, cada fila y columna es una dimensión, una sola celda muestra un diagrama de dispersión de dos dimensiones.

Evaluación de la rigidez de la comunicación.

La rigidez de la correlación está determinada por el coeficiente de correlación (r): fuerte - r = ± 0,7 a ± 1, medio - r = ± 0,3 a ± 0,699, débil - r = 0 a ± 0,299. Esta clasificación no es estricta. La figura muestra un esquema ligeramente diferente.

Un ejemplo de la aplicación del método de análisis de correlación.

Se ha realizado un interesante estudio en el Reino Unido. Está dedicado a la relación entre el tabaquismo y el cáncer de pulmón y se realizó mediante análisis de correlación. Esta observación se presenta a continuación.

Datos iniciales para análisis de correlación

Grupo profesional		mortalidad
Agricultores, silvicultores y pescadores
Mineros y canteros
Productores de gas, coque y productos químicos
Fabricantes de vidrio y cerámica
Trabajadores de hornos, forjas, fundiciones y laminadores
Trabajadores eléctricos y electrónicos
Ingeniería y profesiones afines
Producción de carpintería
Curtidores
Trabajadores textiles
Fabricantes de ropa de trabajo
Trabajadores de las industrias de alimentos, bebidas y tabaco
Fabricantes de papel e imprenta
Fabricantes de otros productos
Constructores
Pintores y decoradores
Conductores de motores estacionarios, conductores de grúas, etc.
Trabajadores no incluidos en otra parte
Trabajadores del transporte y las comunicaciones
Trabajadores de almacén, tenderos, envasadores y trabajadores de máquinas llenadoras
Trabajadores administrativos
Vendedores
Trabajadores de servicios deportivos y recreativos
Administradores y gerentes
Profesionales técnicos y artistas

Comencemos el análisis de correlación. Es mejor comenzar la solución para mayor claridad con el método gráfico, para lo cual construiremos un diagrama de dispersión (scatter).

Demuestra una conexión directa. Sin embargo, es difícil sacar una conclusión inequívoca basada únicamente en el método gráfico. Por tanto, continuaremos realizando el análisis de correlación. A continuación se presenta un ejemplo de cálculo del coeficiente de correlación.

Usando software (usando MS Excel como ejemplo, se describirá a continuación), determinamos el coeficiente de correlación, que es 0.716, lo que significa una fuerte relación entre los parámetros estudiados. Determinemos la confiabilidad estadística del valor obtenido de acuerdo con la tabla correspondiente, para lo cual necesitamos restar 2 de 25 pares de valores, como resultado de lo cual obtenemos 23 y de esta fila en la tabla encontramos r crítico para p = 0.01 (al tratarse de datos médicos, una dependencia más estricta, en otros casos p = 0.05 es suficiente), que es 0.51 para este análisis de correlación. El ejemplo demostró que la r calculada es mayor que la r crítica, el valor del coeficiente de correlación se considera estadísticamente significativo.

Uso de software para análisis de correlación

El tipo descrito de procesamiento de datos estadísticos se puede realizar utilizando software en particular MS Excel. La correlación implica calcular los siguientes parámetros mediante funciones:

1. El coeficiente de correlación se determina mediante la función CORREL (matriz1; matriz2). Array1,2 - celda del rango de valores de las variables resultante y factorial.

El coeficiente de correlación lineal también se denomina coeficiente de correlación de Pearson, por lo tanto, a partir de Excel 2007, puede usar la función con las mismas matrices.

La visualización gráfica del análisis de correlación en Excel se realiza utilizando el panel "Gráficos" con la selección "Gráfico de dispersión".

Después de especificar los datos iniciales, obtenemos un gráfico.

2. Evaluación de la significancia del coeficiente de correlación de pares mediante la prueba t de Student. El valor calculado del criterio t se compara con el valor tabular (crítico) de este indicador de la tabla correspondiente de los valores del parámetro en consideración, teniendo en cuenta el nivel de significancia dado y el número de grados de libertad. . Esta estimación se realiza mediante la función TDRESTR (probabilidad; grados_libertad).

3. Matriz de coeficientes de correlación de pares. El análisis se realiza mediante la herramienta Análisis de datos, en la que se selecciona Correlación. La evaluación estadística de los coeficientes de correlación de pares se realiza comparando su valor absoluto con el valor tabular (crítico). Si se supera el coeficiente de correlación de pares calculado sobre el crítico, podemos decir, teniendo en cuenta un grado de probabilidad dado, que no se rechaza la hipótesis nula sobre la significancia de la relación lineal.

Finalmente

El uso del método de análisis de correlación en la investigación científica permite determinar la relación entre varios factores e indicadores de desempeño. Debe tenerse en cuenta que también se puede obtener un coeficiente de correlación alto a partir de un par o conjunto de datos absurdos y, por lo tanto, este tipo de análisis debe realizarse sobre un conjunto de datos suficientemente grande.

Después de obtener el valor calculado de r, es deseable compararlo con r crítico para confirmar la confiabilidad estadística de un cierto valor. El análisis de correlación se puede realizar manualmente mediante fórmulas o herramientas de software, en particular MS Excel. Aquí, puede construir un diagrama de dispersión (dispersión) para visualizar la relación entre los factores estudiados del análisis de correlación y el indicador efectivo.

El coeficiente de correlación (o coeficiente de correlación lineal) se denota como "r" (en casos raros como "ρ") y caracteriza la correlación lineal (es decir, la relación que viene dada por algún valor y dirección) de dos o más variables. El valor del coeficiente se encuentra entre -1 y +1, es decir, la correlación puede ser tanto positiva como negativa. Si el coeficiente de correlación es -1, hay una correlación negativa perfecta; si el coeficiente de correlación es +1, existe una correlación positiva perfecta. De lo contrario, existe una correlación positiva entre las dos variables, una correlación negativa o ninguna correlación. El coeficiente de correlación se puede calcular manualmente, con calculadoras en línea gratuitas o con una buena calculadora gráfica.

Pasos

Calcular el coeficiente de correlación manualmente

Recolectar datos. Antes de comenzar a calcular el coeficiente de correlación, estudie estos pares de números. Es mejor anotarlos en una tabla que se pueda organizar vertical u horizontalmente. Etiqueta cada fila o columna con "x" e "y".

Por ejemplo, dados cuatro pares de valores (números) de las variables "x" e "y". Puede crear la siguiente tabla:
- x || y
- 1 || 1
- 2 || 3
- 4 || 5
- 5 || 7

Calcula la media aritmética "x". Para hacer esto, sume todos los valores de x y luego divida el resultado por el número de valores.

Encuentre la media aritmética "y". Para hacer esto, siga los mismos pasos, es decir, sume todos los valores de y, y luego divida la suma por el número de valores.

Calcule la desviación estándar "x". Después de calcular las medias de "x" e "y", encuentre las desviaciones estándar de estas variables. La desviación estándar se calcula mediante la siguiente fórmula:

Calcule la desviación estándar "y". Siga los pasos descritos en el paso anterior. Usa la misma fórmula, pero introduce los valores de y.

Escriba la fórmula básica para calcular el coeficiente de correlación. Esta fórmula incluye las medias, las desviaciones estándar y el número (n) de pares de números de ambas variables. El coeficiente de correlación se denota como "r" (en casos raros como "ρ"). Este artículo utiliza una fórmula para calcular el coeficiente de correlación de Pearson.

Ha calculado las medias y las desviaciones estándar de ambas variables, por lo que puede usar la fórmula para calcular el coeficiente de correlación. Recuerde que "n" es el número de pares de valores para ambas variables. Otros valores se han calculado anteriormente.
- En nuestro ejemplo, los cálculos se escribirán así:
- ρ = (1 norte - 1) Σ (x - μ x σ x) ∗ (y - μ y σ y) (\ Displaystyle \ rho = \ left ((\ frac (1) (n-1)) \ right) \ Sigma \ left ((\ frac (x- \ mu _ (x)) (\ sigma _ (x))) \ right) * \ left ((\ frac (y- \ mu _ (y)) (\ sigma _ (y))) \ derecha))
- ρ = (1 3) ∗ (\ Displaystyle \ rho = \ left ((\ frac (1) (3)) \ right) *)[ (1-3 1.83) ∗ (1-4 2. 58) + (2-3 1.83) ∗ (3-4 2. 58) (\ Displaystyle \ left ((\ frac (1-3) (1.83)) \ derecha) * \ izquierda ((\ frac (1-4) (2.58)) \ derecha) + \ izquierda ((\ frac (2-3) (1.83)) \ derecha) * \ izquierda ((\ frac (3- 4) (2.58)) \ derecha))
  + (4 - 3 1,83) ∗ (5 - 4 2. 58) + (5 - 3 1,83) ∗ (7 - 4 2. 58) (\ Displaystyle + \ left ((\ frac (4-3) (1,83) ) \ derecha) * \ izquierda ((\ frac (5-4) (2.58)) \ derecha) + \ izquierda ((\ frac (5-3) (1.83)) \ derecha) * \ izquierda ((\ frac ( 7-4) (2.58)) \ derecha))]
- ρ = (1 3) ∗ (6 + 1 + 1 + 6 4.721) (\ Displaystyle \ rho = \ left ((\ frac (1) (3)) \ right) * \ left ((\ frac (6 + 1) + 1 + 6) (4.721)) \ derecha))
- ρ = (1 3) ∗ 2.965 (\ Displaystyle \ rho = \ left ((\ frac (1) (3)) \ right) * 2.965)
- ρ = (2.965 3) (\ Displaystyle \ rho = \ left ((\ frac (2.965) (3)) \ right))
- ρ = 0,988 (\ Displaystyle \ rho = 0,988)
Analiza el resultado. En nuestro ejemplo, el coeficiente de correlación es 0,988. Este valor de alguna manera caracteriza un conjunto dado de pares de números. Preste atención al signo y la magnitud del valor.
- Dado que el valor del coeficiente de correlación es positivo, existe una correlación positiva entre las variables "x" e "y". Es decir, a medida que aumenta el valor de "x", también aumenta el valor de "y".
- Dado que el valor del coeficiente de correlación es muy cercano a +1, los valores de las variables "x" e "y" están altamente correlacionados. Si coloca puntos en el plano de coordenadas, se ubicarán cerca de una línea recta.
Usar calculadoras en línea para calcular el coeficiente de correlación
1. Busque una calculadora en Internet para calcular el coeficiente de correlación. Este coeficiente se calcula a menudo en estadísticas. Si hay muchos pares de números, es casi imposible calcular el coeficiente de correlación manualmente. Por tanto, existen calculadoras online para calcular el coeficiente de correlación. En un motor de búsqueda, ingrese "calculadora de coeficiente de correlación" (sin comillas).
  
  Introducir datos. Consulte las instrucciones en el sitio web para ingresar los datos correctos (pares de números). Es imperativo ingresar los pares de números apropiados; de lo contrario, obtendrá un resultado incorrecto. Recuerde que los diferentes sitios web tienen diferentes formatos de entrada.
  - Por ejemplo, en http://ncalculators.com/statistics/correlation-coefficient-calculator.htm, los valores de las variables xey se ingresan en dos líneas horizontales. Los valores están separados por comas. Es decir, en nuestro ejemplo, los valores "x" se ingresan así: 1,2,4,5, y los valores "y" así: 1,3,5,7.
  - En otro sitio, http://www.alcula.com/calculators/statistics/correlation-coefficient/, los datos se ingresan verticalmente; en este caso, no confunda los pares de números correspondientes.
2. Calcule el coeficiente de correlación. Después de ingresar los datos, simplemente haga clic en el botón "Calcular", "Calcular" o similar para obtener el resultado.
Usando una calculadora gráfica
1. Introducir datos. Tome una calculadora gráfica, vaya al modo de cálculo estadístico y seleccione el comando "Editar".
  - Diferentes calculadoras requieren que se presionen diferentes teclas. Este artículo trata sobre la calculadora TI-86 de Texas Instruments.
  - Para ingresar al modo de cálculo estadístico, presione - Stat (arriba de la tecla "+"). Luego presione F2 - Editar.
2. Elimina los datos guardados previamente. La mayoría de las calculadoras guardan las estadísticas que ingresa hasta que las borra. Para evitar confundir los datos antiguos con los nuevos, primero elimine la información almacenada.
  - Utilice las teclas de flecha para mover el cursor y resaltar el encabezado 'xStat'. Luego presione Borrar e Intro para borrar todos los valores ingresados en la columna xStat.
  - Utilice las teclas de flecha para resaltar el encabezado 'yStat'. Luego presione Borrar e Intro para borrar todos los valores ingresados en la columna yStat.
3. Ingrese los datos iniciales. Utilice las teclas de flecha para mover el cursor a la primera celda bajo el encabezado "xStat". Ingrese el primer valor y presione Enter. En la parte inferior de la pantalla, se mostrará “xStat (1) = __”, con el valor ingresado en lugar de un espacio. Después de presionar Enter, el valor ingresado aparecerá en la tabla y el cursor se moverá a la siguiente línea; esto mostrará "xStat (2) = __" en la parte inferior de la pantalla.
  - Introduzca todos los valores de la variable "x".
  - Después de ingresar todos los valores para x, use las teclas de flecha para navegar a la columna yStat e ingrese los valores para y.
  - Después de ingresar todos los pares de números, presione Salir para borrar la pantalla y salir del modo de agregación.
4. Calcule el coeficiente de correlación. Caracteriza qué tan cerca están los datos de una determinada línea recta. La calculadora gráfica puede determinar rápidamente la línea recta adecuada y calcular el coeficiente de correlación.
  - Haga clic en Estadísticas - Calc. En la TI-86, presione - -.
  - Seleccione la función Regresión lineal. En la TI-86, presione la que está etiquetada como "LinR". La pantalla mostrará la línea "LinR _" con un cursor parpadeante.
  - Ahora ingrese los nombres de dos variables: xStat e yStat.
    - En la TI-86, abra la lista de nombres; para hacer esto, presione - -.
    - Las variables disponibles se muestran en la línea inferior de la pantalla. Seleccione (probablemente necesite presionar F1 o F2 para hacer esto), ingrese una coma y luego seleccione.
    - Presione Enter para procesar los datos ingresados.

Paso 3. Encontrar la relación entre los datos

Correlación lineal

La última etapa de la tarea de estudiar las conexiones entre los fenómenos es la evaluación de la rigidez de la conexión de acuerdo con los indicadores de la conexión de correlación. Esta etapa es muy importante para identificar las dependencias entre signos factoriales y efectivos y, en consecuencia, para la posibilidad de diagnosticar y predecir el fenómeno en estudio.

Diagnóstico(del griego. diagnóstico reconocimiento) - la definición de la esencia y características del estado de un objeto o fenómeno sobre la base de su estudio integral.

Pronóstico(del griego. previsión de pronóstico, predicción) - cualquier predicción específica, juicio sobre el estado de cualquier fenómeno en el futuro (pronóstico del tiempo, resultado de las elecciones, etc.). Un pronóstico es una hipótesis científicamente fundamentada sobre el probable estado futuro del sistema, objeto o fenómeno estudiado y los indicadores que caracterizan este estado. Pronóstico: el desarrollo de un pronóstico, investigación científica especial de perspectivas específicas para el desarrollo de un fenómeno.

Recordemos la definición de correlación:

Correlación- dependencia entre variables aleatorias, expresada en el hecho de que la distribución de una cantidad depende del valor de otra cantidad.

Se observa una correlación no solo entre características cuantitativas sino también cualitativas. Existen varios métodos e indicadores para evaluar la estrechez de los lazos. Solo nos enfocaremos en coeficiente de correlación de par lineal , que se utiliza cuando existe una relación lineal entre variables aleatorias. En la práctica, a menudo es necesario determinar el nivel de conexión entre variables aleatorias de dimensiones desiguales, por lo que es deseable tener alguna característica adimensional de esta conexión. Tal característica (medida de conexión) es el coeficiente de correlación lineal r xy, que está determinada por la fórmula

dónde , .

Al designar y, puede obtener la siguiente expresión para calcular el coeficiente de correlación

Introduciendo el concepto desviación normalizada , que expresa la desviación de los valores correlacionados de la media en fracciones de la desviación estándar:

entonces la expresión para el coeficiente de correlación toma la forma

Si calcula el coeficiente de correlación basándose en los valores totales de las variables aleatorias iniciales de la tabla de cálculo, entonces el coeficiente de correlación se puede calcular usando la fórmula

Propiedades del coeficiente de correlación lineal:

1). El coeficiente de correlación es una cantidad adimensional.

2). |r| £ 1 o.

3). , a, b= constante, - el valor del coeficiente de correlación no cambiará si todos los valores de las variables aleatorias X e Y se multiplican (o dividen) por una constante.

4). , a, b= constante, - el valor del coeficiente de correlación no cambiará si todos los valores de las variables aleatorias X e Y aumentan (o disminuyen) en una constante.

5). Existe una relación entre el coeficiente de correlación y el coeficiente de regresión:

Los valores de los coeficientes de correlación se pueden interpretar de la siguiente manera:

Criterios cuantitativos para evaluar la rigidez de la comunicación:

A efectos de pronóstico, los valores con | r | > 0,7.

El coeficiente de correlación nos permite concluir que existe una relación lineal entre dos variables aleatorias, pero no indica cuál de los valores determina el cambio en la otra. De hecho, la relación entre dos variables aleatorias puede existir sin una relación causal entre las cantidades en sí mismas, ya que un cambio en ambas variables aleatorias puede ser causado por un cambio (influencia) de la tercera.

Coeficiente de correlación r xy es simétrico con respecto a las variables aleatorias consideradas X y Y... Esto significa que para determinar el coeficiente de correlación es completamente indiferente cuál de las cantidades es independiente y cuál es dependiente.

Importancia del coeficiente de correlación

Incluso para las variables independientes, el coeficiente de correlación puede resultar distinto de cero debido a la dispersión aleatoria de las medidas o debido a una pequeña muestra de variables aleatorias. Por tanto, debe comprobarse la importancia del coeficiente de correlación.

La significancia del coeficiente de correlación lineal se verifica con base en Prueba t de Student :

Si t > t cr(P, n-2), entonces el coeficiente de correlación lineal es significativo y, por lo tanto, la relación estadística también es significativa X y Y.

Para facilitar los cálculos, se han creado tablas de valores de los límites de confianza de los coeficientes de correlación para varios números de grados de libertad. f = n–2 (prueba de dos caras) y diferentes niveles de significancia a= 0,1; 0,05; 0,01 y 0,001. Se considera que la correlación es significativa si el coeficiente de correlación calculado excede el valor del límite de confianza del coeficiente de correlación para el F y una.

Para grande norte y a= 0.01 el valor del límite de confianza del coeficiente de correlación se puede calcular usando la fórmula aproximada

Todo sobre tuning de autos