Tau de Kendall cuál es un tamaño de muestra suficiente. Spearman, coeficientes de correlación de rangos de Kendall, coeficiente de Fechner. Resolver estas dos ecuaciones da

Las necesidades de la práctica económica y social requieren el desarrollo de métodos de descripción cuantitativa de procesos que permitan registrar con precisión no solo factores cuantitativos, sino también cualitativos. Siempre que los valores de las características cualitativas se puedan ordenar o clasificar según el grado de disminución (aumento) de la característica, es posible evaluar la cercanía de la relación entre las características cualitativas. Por cualitativa nos referimos a una característica que no se puede medir con precisión, pero que permite comparar objetos entre sí y, por tanto, organizarlos en orden de calidad creciente o decreciente. Y el contenido real de las mediciones en escalas de clasificación es el orden en que se ordenan los objetos según el grado de expresión de la característica que se mide.

Para fines prácticos, utilice correlación de rango muy útil. Por ejemplo, si se establece una correlación de alto rango entre dos características cualitativas de los productos, entonces basta con controlar los productos solo por una de las características, lo que reduce el costo y acelera el control.

Como ejemplo, podemos considerar la existencia de una conexión entre la disponibilidad de productos comerciales de varias empresas y los costos generales de ventas. En el transcurso de 10 observaciones se obtuvo la siguiente tabla:

Ordenemos los valores de X en orden ascendente, y a cada valor se le asignará su número de serie (rango):

De este modo,

Construyamos la siguiente tabla, donde se registran los pares X e Y, obtenidos como resultado de la observación con sus rangos:

Denotando la diferencia de rango como, escribimos la fórmula para calcular el coeficiente de correlación de Spearman muestral:

donde n es el número de observaciones, que también es el número de pares de rangos.

El coeficiente de Spearman tiene las siguientes propiedades:

Si existe una relación directa completa entre las características cualitativas X e Y en el sentido de que los rangos de los objetos coinciden para todos los valores de i, entonces el coeficiente de correlación de Spearman muestral es igual a 1. De hecho, sustituyéndolo en la fórmula, obtenemos 1.

Si existe una relación inversa completa entre las características cualitativas X e Y en el sentido de que el rango corresponde al rango, entonces el coeficiente de correlación de Spearman de la muestra es igual a -1.

De hecho, si

Sustituyendo el valor en la fórmula del coeficiente de correlación de Spearman, obtenemos -1.

Si no hay una línea recta completa ni una línea completa comentario, entonces el coeficiente de correlación de Spearman de la muestra se encuentra entre -1 y 1, y cuanto más cerca esté su valor de 0, menor será la relación entre las características.

Usando los datos del ejemplo anterior encontraremos el valor de P, para ello completaremos la tabla con los valores y:

Ejemplo de coeficiente de correlación de Kendall. Puede evaluar la relación entre dos características cualitativas utilizando el coeficiente de correlación de rango de Kendall.

Sean los rangos de objetos en una muestra de tamaño n iguales a:

por característica X:

por característica Y: . Supongamos que a la derecha hay filas grandes, a la derecha hay filas grandes, a la derecha hay filas grandes. Introduzcamos la notación para la suma de rangos.

De manera similar, introducimos la notación como la suma del número de rangos que se encuentran a la derecha, pero más pequeños.

El coeficiente de correlación de Kendall de muestra se escribe como:

Donde n es el tamaño de la muestra.

El coeficiente de Kendall tiene las mismas propiedades que el coeficiente de Spearman:

Si existe una relación directa completa entre las características cualitativas X e Y en el sentido de que los rangos de los objetos coinciden para todos los valores de i, entonces el coeficiente de correlación de Kendall muestral es igual a 1. De hecho, a la derecha hay n -1 rangos, grandes, por lo tanto, de la misma manera establecemos, Qué. Entonces. Y el coeficiente de Kendall es igual a: .

Si existe una relación inversa completa entre las características cualitativas X e Y en el sentido de que el rango corresponde al rango, entonces el coeficiente de correlación de Kendall de la muestra es igual a -1. No hay rangos superiores a la derecha, por eso. Asimismo. Sustituyendo el valor R+=0 en la fórmula del coeficiente de Kendall, obtenemos -1.

Con un tamaño de muestra suficientemente grande y con valores de coeficientes de correlación de rango no cercanos a 1, existe una igualdad aproximada:

¿Proporciona el coeficiente de Kendall una estimación de correlación más conservadora que el coeficiente de Spearman? (¿valor numérico? siempre menor que). ¿Aunque calculando el coeficiente? requiere menos trabajo que calcular el coeficiente; este último es más fácil de recalcular si se agrega un nuevo término a la serie.

Una ventaja importante del coeficiente es que se puede utilizar para determinar el coeficiente de correlación de rango parcial, lo que permite evaluar el grado de relación "pura" entre dos características de clasificación, eliminando la influencia de la tercera:

Importancia de los coeficientes de correlación de rango. Al determinar la fuerza de la correlación de rango a partir de datos de muestra, se debe considerar la siguiente pregunta: ¿con qué confianza se puede confiar en la conclusión de que existe una correlación en la población si se obtiene un cierto coeficiente de correlación de rango de muestra? En otras palabras, la significancia de las correlaciones de rango observadas debe probarse basándose en la hipótesis de independencia estadística de las dos clasificaciones bajo consideración.

Con un tamaño de muestra n relativamente grande, la verificación de la importancia de los coeficientes de correlación de rango se puede realizar utilizando la tabla de distribución normal (Tabla 1 del Apéndice). ¿Para probar la importancia del coeficiente de Spearman? (para n>20) calcular el valor

¿Y probar la importancia del coeficiente de Kendall? (para n>10) calcular el valor

donde S=R+- R-, n - tamaño de la muestra.

A continuación, establecen el nivel de significancia?, determinan el valor crítico tcr(?,k) a partir de la tabla de puntos críticos de la distribución de Student y comparan el valor calculado con él. Se supone que el número de grados de libertad es k = n-2. Si o > tcr, entonces los valores de o se consideran significativos.

Coeficiente de correlación de Fechner.

Finalmente, cabe mencionar el coeficiente de Fechner, que caracteriza el grado elemental de cercanía de la conexión, que es recomendable utilizar para establecer la existencia de una conexión cuando se dispone de poca información inicial. La base de su cálculo es tener en cuenta la dirección de las desviaciones de la media aritmética de cada serie de variación y determinar la coherencia de los signos de estas desviaciones para las dos series cuya relación se mide.

Este coeficiente está determinado por la fórmula:

donde na es el número de coincidencias de signos de desviaciones de valores individuales de su media aritmética; nb: respectivamente, el número de discrepancias.

El coeficiente de Fechner puede variar dentro de -1,0<= Кф<= +1,0.

Aspectos aplicados de la correlación de rangos. Como ya se señaló, los coeficientes de correlación de rango se pueden utilizar no sólo para el análisis cualitativo de la relación entre dos características de rango, sino también para determinar la fuerza de la relación entre el rango y las características cuantitativas. En este caso, se ordenan los valores de la característica cuantitativa y se les asignan los rangos correspondientes.

Hay una serie de situaciones en las que también es aconsejable calcular los coeficientes de correlación de rango al determinar la fuerza de la conexión entre dos características cuantitativas. Por lo tanto, si la distribución de uno de ellos (o ambos) se desvía significativamente de la distribución normal, la determinación del nivel de significancia del coeficiente de correlación muestral r se vuelve incorrecta, mientras que los coeficientes de rango? ¿Y? no están sujetos a tales restricciones al determinar el nivel de significancia.

Otra situación de este tipo surge cuando la relación entre dos características cuantitativas es de naturaleza no lineal (sino monótona). Si el número de objetos en la muestra es pequeño o si el signo de la conexión es importante para el investigador, ¿utilizar una relación de correlación? puede ser inadecuado aquí. Calcular el coeficiente de correlación de rango permite sortear estas dificultades.

Parte practica

Tarea 1. Análisis de correlación y regresión.

Planteamiento y formalización del problema:

Se proporciona una muestra empírica, compilada sobre la base de una serie de observaciones del estado del equipo (en busca de fallas) y la cantidad de productos fabricados. La muestra caracteriza implícitamente la relación entre el volumen de equipos averiados y el número de productos fabricados. Según el significado de la muestra, queda claro que los productos fabricados se producen sobre los equipos que permanecen en servicio, ya que cuanto mayor es el porcentaje de equipos defectuosos, menos productos fabricados. Se requiere realizar un estudio de la muestra para determinar la dependencia de correlación-regresión, es decir, establecer la forma de la dependencia, evaluar la función de regresión (análisis de regresión) y también identificar la relación entre variables aleatorias y evaluar su rigidez (correlación análisis). Una tarea adicional del análisis de correlación es estimar la ecuación de regresión de una variable sobre otra. Además, es necesario predecir la cantidad de productos producidos con una falla del equipo del 30%.

Formalicemos la muestra dada en la tabla, designando los datos "Fallo del equipo,%" como X, los datos "Número de productos" como Y:

Datos iniciales. Tabla 1

Del significado físico del problema, está claro que la cantidad de productos fabricados Y depende directamente del% de falla del equipo, es decir, existe una dependencia de Y de X. Al realizar un análisis de regresión, es necesario encontrar un relación matemática (regresión) que conecta los valores de X e Y. En este caso, el análisis de regresión, a diferencia de la correlación, supone que el valor X actúa como una variable independiente, o factor, el valor Y - como un variable dependiente o un atributo efectivo. Por tanto, es necesario sintetizar un modelo económico y matemático adecuado, es decir. determine (encuentre, seleccione) la función Y = f(X), que caracteriza la relación entre los valores de X e Y, mediante la cual será posible predecir el valor de Y en X = 30. La solución a este problema se puede realizar mediante análisis de correlación-regresión.

Una breve descripción de los métodos para resolver problemas de correlación-regresión y justificación del método de solución elegido.

Los métodos de análisis de regresión basados ​​​​en el número de factores que influyen en la característica resultante se dividen en unifactoriales y multifactoriales. Un solo factor: número de factores independientes = 1, es decir Y = F(X)

multifactorial: número de factores > 1, es decir

Según la cantidad de variables dependientes (características resultantes) que se estudian, los problemas de regresión también se pueden dividir en problemas con una o muchas características resultantes. En general, se puede escribir un problema con muchas características efectivas:

El método de análisis de correlación-regresión consiste en encontrar los parámetros de la dependencia aproximada (aproximativa) de la forma.

Dado que el problema anterior involucra solo una variable independiente, es decir, se estudia la dependencia de un solo factor que influye en el resultado, se debe utilizar un estudio de dependencia de un factor o regresión pareada.

Si hay un solo factor, la dependencia se define como:

La forma de escribir una ecuación de regresión específica depende de la elección de la función que muestra la relación estadística entre el factor y la característica resultante e incluye lo siguiente:

regresión lineal, ecuación de la forma,

parabólica, ecuación de la forma

cúbica, ecuación de la forma

hiperbólica, ecuación de la forma

semilogarítmica, ecuación de la forma

exponencial, ecuación de la forma

ecuación de potencia de la forma.

Encontrar la función se reduce a determinar los parámetros de la ecuación de regresión y evaluar la confiabilidad de la ecuación misma. Para determinar los parámetros, puede utilizar tanto el método de mínimos cuadrados como el método de mínimo módulo.

El primero de ellos es garantizar que la suma de las desviaciones al cuadrado de los valores empíricos de Yi del Yi promedio calculado sea mínima.

El método de módulos mínimos consiste en minimizar la suma de los módulos de la diferencia entre los valores empíricos de Yi y el Yi promedio calculado.

Para resolver el problema elegiremos el método de mínimos cuadrados, ya que es el más sencillo y proporciona buenas estimaciones en términos de propiedades estadísticas.

Tecnología para resolver el problema del análisis de regresión mediante el método de mínimos cuadrados.

Puede determinar el tipo de relación (lineal, cuadrática, cúbica, etc.) entre variables estimando la desviación del valor real y del calculado:

donde son valores empíricos, son valores calculados utilizando la función de aproximación. Estimando los valores de Si para varias funciones y eligiendo la más pequeña de ellas, seleccionamos una función aproximada.

El tipo de una función particular se determina encontrando los coeficientes que se encuentran para cada función como solución a un determinado sistema de ecuaciones:

regresión lineal, ecuación de la forma, sistema -

parabólico, ecuación de la forma, sistema -

cúbica, ecuación de la forma, sistema -

Habiendo resuelto el sistema, encontramos, con la ayuda de lo cual llegamos a una expresión específica de la función analítica, teniendo la cual encontramos los valores calculados. A continuación, están todos los datos para encontrar una estimación de la magnitud de la desviación S y analizar el mínimo.

Para una relación lineal, estimamos la cercanía de la conexión entre el factor X y la característica resultante Y en forma del coeficiente de correlación r:

Valor medio del indicador;

Valor medio del factor;

y es el valor experimental del indicador;

x es el valor experimental del factor;

Desviación estándar en x;

Desviación estándar en y.

Si el coeficiente de correlación es r = 0, entonces se considera que la conexión entre las características es insignificante o está ausente; si r = 1, entonces existe una conexión funcional muy alta entre las características.

Utilizando la tabla de Chaddock, se puede realizar una evaluación cualitativa de la cercanía de la correlación entre las características:

Mesa Chaddock Tabla 2.

Para una dependencia no lineal, se determinan la relación de correlación (0 1) y el índice de correlación R, que se calculan a partir de las siguientes dependencias.

donde valor es el valor del indicador calculado a partir de la dependencia de la regresión.

Para evaluar la precisión de los cálculos, utilizamos el valor del error relativo promedio de aproximación.

Con alta precisión está en el rango de 0-12%.

Para evaluar la selección de la dependencia funcional, utilizamos el coeficiente de determinación.

El coeficiente de determinación se utiliza como una medida "generalizada" de la calidad del ajuste de un modelo funcional, ya que expresa la relación entre el factor y la varianza total, o más precisamente, la proporción de la varianza del factor en el total.

Para evaluar la importancia del índice de correlación R, se utiliza la prueba F de Fisher. El valor real del criterio está determinado por la fórmula:

donde m es el número de parámetros de la ecuación de regresión, n es el número de observaciones. El valor se compara con el valor crítico, que se determina a partir de la tabla de criterios F, teniendo en cuenta el nivel de significancia aceptado y el número de grados de libertad. Si, entonces el valor del índice de correlación R se considera significativo.

Para la forma de regresión seleccionada, se calculan los coeficientes de la ecuación de regresión. Por comodidad, los resultados del cálculo se incluyen en una tabla con la siguiente estructura (en general, el número de columnas y su tipo varían según el tipo de regresión):

Tabla 3

Resolviendo el problema.

Se hicieron observaciones sobre un fenómeno económico: la dependencia de la producción del producto del porcentaje de fallas del equipo. Se obtiene un conjunto de valores.

Los valores seleccionados se describen en la Tabla 1.

Construimos un gráfico de la dependencia empírica basado en la muestra dada (Fig.1)

Con base en la apariencia del gráfico, determinamos que la dependencia analítica se puede representar como una función lineal:

Calculemos el coeficiente de correlación de pares para evaluar la relación entre X e Y:

Construyamos una mesa auxiliar:

Tabla 4

Resolvemos el sistema de ecuaciones para encontrar los coeficientes y:

de la primera ecuación, sustituyendo el valor

en la segunda ecuación, obtenemos:

encontramos

Obtenemos la forma de la ecuación de regresión:

9. Para evaluar la estanqueidad de la conexión encontrada, utilizamos el coeficiente de correlación r:

Utilizando la tabla de Chaddock establecemos que para r = 0,90 la relación entre X e Y es muy alta, por lo tanto la confiabilidad de la ecuación de regresión también es alta. Para evaluar la precisión de los cálculos, utilizamos el valor del error de aproximación relativo promedio:

Creemos que el valor proporciona un alto grado de confiabilidad de la ecuación de regresión.

Para una relación lineal entre X e Y, el índice de determinación es igual al cuadrado del coeficiente de correlación r: . En consecuencia, el 81% de la variación total se explica por cambios en el factor rasgo X.

Para evaluar la importancia del índice de correlación R, que en el caso de una relación lineal es igual en valor absoluto al coeficiente de correlación r, se utiliza la prueba F de Fisher. Determinamos el valor real usando la fórmula:

donde m es el número de parámetros de la ecuación de regresión, n es el número de observaciones. Es decir, n = 5, m = 2.

Teniendo en cuenta el nivel de significancia aceptado =0,05 y el número de grados de libertad, obtenemos el valor crítico de la tabla. Dado que el valor del índice de correlación R se considera significativo.

Calculemos el valor previsto de Y en X = 30:

Tracemos la función encontrada:

11. Determine el error del coeficiente de correlación por el valor de la desviación estándar.

y luego determinar el valor de la desviación normalizada

A partir de una relación > 2 con una probabilidad del 95% podemos hablar de la importancia del coeficiente de correlación resultante.

Problema 2. Optimización lineal

Opción 1.

El plan de desarrollo regional prevé poner en funcionamiento 3 yacimientos petrolíferos con un volumen total de producción de 9 millones de toneladas. En el primer campo, el volumen de producción es de al menos 1 millón de toneladas, en el segundo, 3 millones de toneladas, en el tercero, 5 millones de toneladas. Para lograr tal productividad, es necesario perforar al menos 125 pozos. Para la ejecución de este plan se han destinado 25 millones de rublos. inversiones de capital (indicador K) y 80 km de tuberías (indicador L).

Es necesario determinar el número óptimo (máximo) de pozos para garantizar la productividad planificada de cada campo. Los datos iniciales para la tarea se dan en la tabla.

Datos iniciales

El planteamiento del problema se da arriba.

Formalicemos las condiciones y restricciones especificadas en el problema. El objetivo de resolver este problema de optimización es encontrar el valor máximo de producción de petróleo con el número óptimo de pozos para cada campo, teniendo en cuenta las restricciones existentes sobre el problema.

La función objetivo, de acuerdo con los requerimientos del problema, tomará la forma:

¿Dónde está el número de pozos para cada campo?

Restricciones de tareas existentes sobre:

longitud de tendido de tuberías:

número de pozos en cada campo:

costo de construir 1 pozo:

Los problemas de optimización lineal se resuelven, por ejemplo, mediante los siguientes métodos:

Gráficamente

método simplex

Uso método gráfico conveniente sólo cuando se resuelven problemas de optimización lineal con dos variables. Con un número mayor de variables es necesario el uso de aparatos algebraicos. Consideremos un método general para resolver problemas de optimización lineal llamado método simplex.

El método Simplex es un ejemplo típico de cálculos iterativos utilizados para resolver la mayoría de los problemas de optimización. Consideramos procedimientos iterativos de este tipo que brindan soluciones a problemas utilizando modelos de investigación operativa.

Para resolver un problema de optimización mediante el método simplex, es necesario que el número de incógnitas Xi sea mayor que el número de ecuaciones, es decir sistema de ecuaciones

satisfecho la relación m

A=era igual a m.

Denotemos la columna de la matriz A como y la columna de términos libres como

La solución básica del sistema (1) es un conjunto de m incógnitas que son una solución del sistema (1).

Brevemente, el algoritmo del método simplex se describe a continuación:

La restricción original, escrita como una desigualdad de tipo.<= (=>) se puede expresar como una igualdad sumando la variable residual al lado izquierdo de la restricción (restando la variable excedente del lado izquierdo).

Por ejemplo, al lado izquierdo de la restricción original.

Se introduce una variable residual, como resultado de lo cual la desigualdad original se convierte en igualdad.

Si la restricción inicial determina el caudal de las tuberías, entonces la variable debe interpretarse como el resto o la porción no utilizada de ese recurso.

Maximizar una función objetivo equivale a minimizar la misma función tomada con el signo opuesto. Es decir, en nuestro caso

equivalente

Se compila una tabla simplex para una solución básica de la siguiente forma:

Esta tabla indica que después de resolver el problema, estas celdas contendrán la solución básica. - cocientes de dividir una columna por una de las columnas; - multiplicadores adicionales para restablecer valores en las celdas de la tabla relacionadas con la columna de resolución. - valor mínimo de la función objetivo -Z, - valores de los coeficientes de la función objetivo para incógnitas.

Cualquier valor positivo se encuentra entre los valores. Si este no es el caso, entonces el problema se considera resuelto. Seleccione cualquier columna de la tabla que contenga, esta columna se llama columna "permisiva". Si no hay números positivos entre los elementos de la columna de resolución, entonces el problema no tiene solución debido a que la función objetivo no está acotada en el conjunto de sus soluciones. Si hay números positivos en la columna de resolución, vaya al paso 5.

La columna está llena de fracciones, cuyo numerador son los elementos de la columna y el denominador son los elementos correspondientes de la columna de resolución. Se selecciona el más pequeño de todos los valores. La línea que produce el valor más pequeño se llama línea de “resolución”. En la intersección de la fila de resolución y la columna de resolución, se encuentra un elemento de resolución, que está resaltado de alguna manera, por ejemplo, por color.

A partir de la primera tabla simplex se compila la siguiente, en la que:

Reemplaza un vector de fila con un vector de columna

la cadena de habilitación se reemplaza por la misma cadena dividida por el elemento de habilitación

cada una de las filas restantes de la tabla se reemplaza por la suma de esta fila con la de resolución, multiplicada por un factor adicional especialmente seleccionado para obtener 0 en la celda de la columna de resolución.

Nos referimos al punto 4 con la nueva tabla.

Resolviendo el problema.

Con base en la formulación del problema, tenemos el siguiente sistema de desigualdades:

y función objetivo

Transformemos el sistema de desigualdades en un sistema de ecuaciones introduciendo variables adicionales:

Reduzcamos la función objetivo a su equivalente:

Construyamos la tabla simplex inicial:

Seleccionemos la columna de resolución. Calculemos la columna:

Ingresamos los valores en la tabla. Usando el menor de ellos = 10, determinamos la cadena de resolución: . En la intersección de la fila de resolución y la columna de resolución, encontramos el elemento de resolución = 1. Llenamos parte de la tabla con factores adicionales, de modo que: la fila de resolución multiplicada por ellos, sumada a las filas restantes de la tabla, forma 0 en los elementos de la columna de resolución.

Creemos la segunda tabla simplex:

En él, tomamos la columna de resolución, calculamos los valores y los ingresamos en la tabla. Como mínimo obtenemos la línea de resolución. El elemento resolutivo será 1. Buscamos factores adicionales y completamos las columnas.

Creamos la siguiente tabla simplex:

De manera similar, encontramos la columna de resolución, la fila de resolución y el elemento de resolución = 2. Construimos la siguiente tabla simplex:

Como no hay valores positivos en la línea -Z, esta tabla es finita. La primera columna proporciona los valores deseados de las incógnitas, es decir solución básica óptima:

En este caso, el valor de la función objetivo es -Z = -8000, lo que equivale a Zmax = 8000. El problema está solucionado.

Tarea 3. Análisis de conglomerados

Declaración del problema:

Divida los objetos según los datos proporcionados en la tabla. Seleccione usted mismo un método de solución y cree un gráfico de dependencia de datos.

Opción 1.

Datos iniciales

Revisión de métodos para la resolución de este tipo de problemas. Justificación del método de solución.

Los problemas de análisis de conglomerados se resuelven utilizando los siguientes métodos:

El método de unión o agrupación de árboles se utiliza en la formación de agrupaciones de "disimilaridad" o "distancia entre objetos". Estas distancias se pueden definir en un espacio unidimensional o multidimensional.

La unión bidireccional se utiliza (relativamente raramente) en circunstancias en las que los datos se interpretan no en términos de "objetos" y "propiedades del objeto", sino en términos de observaciones y variables. Se espera que tanto las observaciones como las variables contribuyan simultáneamente al descubrimiento de grupos significativos.

Método K-medias. Se utiliza cuando ya existe una hipótesis sobre el número de conglomerados. Puede indicarle al sistema que forme exactamente, por ejemplo, tres grupos para que sean lo más diferentes posible. En general, el método K-medias construye exactamente K grupos diferentes ubicados a las mayores distancias posibles entre sí.

Existen los siguientes métodos para medir distancias:

Distancia euclidiana. Este es el tipo de distancia más común. Es simplemente una distancia geométrica en el espacio multidimensional y se calcula de la siguiente manera:

Tenga en cuenta que la distancia euclidiana (y su cuadrado) se calcula a partir de los datos originales, no de los datos estandarizados.

Distancia a una cuadra de la ciudad (distancia de Manhattan). Esta distancia es simplemente el promedio de las diferencias sobre las coordenadas. En la mayoría de los casos, esta medida de distancia produce los mismos resultados que la distancia euclidiana ordinaria. Sin embargo, observamos que para esta medida la influencia de las grandes diferencias individuales (valores atípicos) se reduce (ya que no están al cuadrado). La distancia de Manhattan se calcula mediante la fórmula:

Distancia de Chebyshev. Esta distancia puede resultar útil cuando se desea definir dos objetos como "diferentes" si difieren en alguna coordenada (en cualquier dimensión). La distancia de Chebyshev se calcula mediante la fórmula:

Distancia de poder. A veces se desea aumentar o disminuir progresivamente los pesos relacionados con una dimensión para la cual los objetos correspondientes son muy diferentes. Esto se puede lograr utilizando la distancia de ley de potencia. La distancia de potencia se calcula mediante la fórmula:

donde r y p son parámetros definidos por el usuario. Unos cuantos cálculos de ejemplo pueden mostrar cómo “funciona” esta medida. El parámetro p es responsable de la ponderación gradual de las diferencias a lo largo de coordenadas individuales, el parámetro r es responsable de la ponderación progresiva de grandes distancias entre objetos. Si ambos parámetros r y p son iguales a dos, entonces esta distancia coincide con la distancia euclidiana.

Porcentaje de desacuerdo. Esta medida se utiliza cuando los datos son categóricos. Esta distancia se calcula mediante la fórmula:

Para resolver el problema elegiremos el método de unificación (agrupación de árboles) como el que mejor cumpla con las condiciones y formulación del problema (división de objetos). A su vez, el método de unión puede utilizar varias variantes de reglas de comunicación:

Enlace único (método del vecino más cercano). En este método, la distancia entre dos grupos está determinada por la distancia entre los dos objetos más cercanos (vecinos más cercanos) en diferentes grupos. Es decir, dos objetos cualesquiera en dos grupos están más cerca entre sí que la distancia de comunicación correspondiente. Esta regla debe, en cierto sentido, encadenar objetos para formar grupos, y los grupos resultantes tienden a estar representados por largas "cadenas".

Enlace completo (método de los vecinos más lejanos). En este método, las distancias entre grupos están determinadas por la distancia más grande entre dos objetos cualesquiera en diferentes grupos (es decir, "vecinos más distantes").

También existen muchos otros métodos para unir clústeres como estos (por ejemplo, unión por pares no ponderada, unión por pares ponderada, etc.).

Tecnología del método de solución. Cálculo de indicadores.

En el primer paso, cuando cada objeto es un grupo separado, las distancias entre estos objetos están determinadas por la medida seleccionada.

Dado que el problema no especifica las unidades de medida de las características, se supone que coinciden. En consecuencia, no es necesario normalizar los datos de origen, por lo que inmediatamente procedemos a calcular la matriz de distancias.

Resolviendo el problema.

Construyamos un gráfico de dependencia basado en los datos iniciales (Figura 2)

Tomaremos la distancia euclidiana habitual como distancia entre objetos. Luego según la fórmula:

donde l soy signos; k es el número de características, la distancia entre los objetos 1 y 2 es igual a:

Seguimos calculando las distancias restantes:

Construyamos una tabla a partir de los valores obtenidos:

Distancia más corta. Esto significa que combinamos los elementos 3,6 y 5 en un solo grupo. Obtenemos la siguiente tabla:

Distancia más corta. Los elementos 3,6,5 y 4 se combinan en un grupo. Obtenemos una tabla de dos grupos:

La distancia mínima entre los elementos 3 y 6 es igual. Esto significa que los elementos 3 y 6 se combinan en un solo grupo. Seleccionamos la distancia máxima entre el grupo recién formado y los elementos restantes. Por ejemplo, la distancia entre el grupo 1 y el grupo 3.6 es max(13.34166, 13.60147)= 13.34166. Creemos la siguiente tabla:

En él, la distancia mínima es la distancia entre los grupos 1 y 2. Combinando 1 y 2 en un grupo, obtenemos:

Así, utilizando el método del “vecino distante”, obtuvimos dos conglomerados: 1,2 y 3,4,5,6, cuya distancia es 13,60147.

El problema está resuelto.

Aplicaciones. Resolución de problemas utilizando paquetes de aplicaciones (MS Excel 7.0)

La tarea del análisis de correlación y regresión.

Ingresamos los datos iniciales en la tabla (Fig.1)

Seleccione el menú “Servicio / Análisis de datos”. En la ventana que aparece, seleccione la línea "Regresión" (Fig. 2).

Configuremos los intervalos de entrada en X e Y en la siguiente ventana, dejemos el nivel de confiabilidad en 95% y coloquemos los datos de salida en una hoja separada, "Hoja de informe" (Fig. 3).

Después del cálculo, obtenemos los datos finales del análisis de regresión en la hoja “Hoja de informe”:

Aquí también se muestra un diagrama de dispersión de la función de aproximación, o "Gráfico de ajuste":


Los valores calculados y las desviaciones se muestran en la tabla en las columnas "Y prevista" y "Residuales", respectivamente.

A partir de los datos iniciales y las desviaciones, se construye un gráfico residual:

Problema de optimización


Ingresamos los datos iniciales de la siguiente manera:

Ingresamos las incógnitas requeridas X1, X2, X3 en las celdas C9, D9, E9, respectivamente.

Los coeficientes de la función objetivo para X1, X2, X3 se ingresan en C7, D7, E7, respectivamente.

Ingresamos la función objetivo en la celda B11 como la fórmula: =C7*C9+D7*D9+E7*E9.

Limitaciones de tareas existentes

Para longitud de tendido de tuberías:

ingrese en las celdas C5, D5, E5, F5, G5

Número de pozos en cada campo:

X3 Ø 100; entrar en las celdas C8, D8, E8.

Costo de construcción de 1 pozo:

ingrese en las celdas C6, D6, E6, F6, G6.

La fórmula para calcular la longitud total C5*C9+D5*D9+E5*E9 se coloca en la celda B5, la fórmula para calcular el costo total C6*C9+D6*D9+E6*E9 se coloca en la celda B6.


Seleccione "Servicio/Buscar solución" en el menú, ingrese los parámetros para buscar una solución de acuerdo con los datos iniciales ingresados ​​(Fig. 4):

Usando el botón "Parámetros", configure los siguientes parámetros para buscar una solución (Fig. 5):


Después de buscar una solución, recibimos un informe con los resultados:

Informe de resultados de Microsoft Excel 8.0e

Informe creado: 17/11/2002 1:28:30 a.m.

Celda objetivo (máxima)

Resultado

Producción total

Celdas cambiables

Resultado

Número de pozos

Número de pozos

Número de pozos

Restricciones

Significado

Longitud

Relacionado

Costo del proyecto

no conectado.

Número de pozos

no conectado.

Número de pozos

Relacionado

Número de pozos

Relacionado

La primera tabla muestra el valor inicial y final (óptimo) de la celda objetivo en la que se colocó la función objetivo del problema que se está resolviendo. En la segunda tabla vemos los valores inicial y final de las variables optimizadas, que están contenidas en las celdas modificables. La tercera tabla del informe de resultados contiene información sobre las limitaciones. La columna "Valor" contiene los valores óptimos de los recursos necesarios y las variables optimizadas. La columna "Fórmula" contiene restricciones sobre los recursos consumidos y variables optimizadas, escritas en forma de enlaces a celdas que contienen estos datos. La columna "Estado" determina si determinadas restricciones están consolidadas o no. Aquí, “limitadas” son restricciones implementadas en la solución óptima en forma de igualdades estrictas. La columna "Diferencia" para restricciones de recursos determina el saldo de recursos utilizados, es decir la diferencia entre la cantidad requerida de recursos y su disponibilidad.

De igual forma, al registrar el resultado de la búsqueda de una solución en el formulario “Informe de Estabilidad”, obtenemos las siguientes tablas:

Informe de sostenibilidad de Microsoft Excel 8.0e

Hoja de trabajo: [Resolviendo el problema de optimización.xls]Resolviendo el problema de optimización de la producción

Informe creado: 17/11/2002 1:35:16 a.m.

Celdas cambiables

Aceptable

Aceptable

significado

precio

Coeficiente

Aumentar

Disminuir

Número de pozos

Número de pozos

Número de pozos

Restricciones

Limitación

Aceptable

Aceptable

significado

Lado derecho

Aumentar

Disminuir

Longitud

Costo del proyecto

El informe de sostenibilidad contiene información sobre las variables que se están cambiando (optimizando) y las limitaciones del modelo. La información especificada está relacionada con el método simplex utilizado en la optimización de problemas lineales, descrito anteriormente en la parte de resolución del problema. Le permite evaluar qué tan sensible es la solución óptima resultante a posibles cambios en los parámetros del modelo.

La primera parte del informe contiene información sobre celdas cambiables que contienen valores para la cantidad de pozos en los campos. La columna “Valor resultante” indica los valores óptimos de las variables optimizadas. La columna "Coeficiente objetivo" contiene los datos iniciales para los valores de los coeficientes de la función objetivo. Las siguientes dos columnas ilustran cómo estos factores se pueden aumentar y disminuir sin cambiar la solución óptima encontrada.

La segunda parte del informe de sostenibilidad contiene información sobre las restricciones impuestas a las variables optimizadas. La primera columna indica los requisitos de recursos para la solución óptima. El segundo contiene precios sombra para los tipos de recursos utilizados. Las dos últimas columnas contienen datos sobre un posible aumento o disminución del volumen de recursos disponibles.

Problema de agrupamiento.

Arriba se proporciona un método paso a paso para resolver el problema. Aquí hay tablas de Excel que ilustran el progreso en la resolución del problema:

"método del vecino más cercano"

Resolviendo el problema del análisis de conglomerados: "MÉTODO DEL VECINO MÁS CERCANO"

Datos iniciales

donde x1 es el volumen de producción;

x2 - costo promedio anual de los activos fijos

Activos de producción industrial

"método del vecino lejano"

Resolviendo el problema del análisis de conglomerados: "MÉTODO DEL VECINO LEJOS"

Datos iniciales

donde x1 es el volumen de producción;

x2 - costo promedio anual de los activos fijos

Activos de producción industrial

Se utiliza para identificar la relación entre indicadores cuantitativos o cualitativos, si se pueden clasificar. Los valores del indicador X se muestran en orden ascendente y se les asignan rangos. Se clasifican los valores del indicador Y y se calcula el coeficiente de correlación de Kendall:

Dónde S = PAGq.

PAG grande el valor de los rangos Y.

q- el número total de observaciones posteriores a las observaciones actuales con menor el valor de los rangos Y. (¡Los rangos iguales no se tienen en cuenta!)

Si los datos en estudio se repiten (tienen los mismos rangos), entonces en los cálculos se utiliza el coeficiente de correlación de Kendall ajustado:

t- el número de rangos relacionados en las series X e Y, respectivamente.

19. ¿De qué debemos partir a la hora de determinar el tema, objeto, materia, finalidad, objetivos e hipótesis del estudio?

El programa de investigación, por regla general, tiene dos secciones: metodológica y de procedimiento. El primero incluye justificación de la relevancia del tema, formulación del problema, definición del objeto y sujeto, metas y objetivos del estudio, formulación de conceptos básicos (aparato categórico), análisis sistémico preliminar del objeto de estudio y formulación. de una hipótesis de trabajo. La segunda sección revela el diseño estratégico del estudio, así como el diseño y procedimientos básicos para la recolección y análisis de datos primarios.

En primer lugar, a la hora de elegir un tema de investigación hay que partir de la relevancia. Justificación de relevancia incluye una indicación de la necesidad y oportunidad de estudiar y resolver el problema para un mayor desarrollo de la teoría y la práctica de la enseñanza y la educación. La investigación actual proporciona respuestas a las preguntas más urgentes en este momento, refleja el orden social de la sociedad para la ciencia pedagógica y revela las contradicciones más importantes que ocurren en la práctica. El criterio de relevancia es dinámico, flexible, depende del tiempo, teniendo en cuenta circunstancias concretas y concretas. En su forma más general, la relevancia caracteriza el grado de discrepancia entre la demanda de ideas científicas y recomendaciones prácticas (para satisfacer una necesidad particular) y las propuestas que la ciencia y la práctica pueden proporcionar en el momento actual.

La base más convincente que define el tema de la investigación es el orden social, que refleja los problemas más urgentes y socialmente significativos que requieren soluciones urgentes. El orden social requiere justificación de un tema específico. Generalmente se trata de un análisis del grado en que una cuestión se ha desarrollado en la ciencia.

Si el orden social se deriva del análisis de la práctica pedagógica, entonces el problema científico está en un plano diferente. Expresa la principal contradicción que debe resolverse por medio de la ciencia. La solución al problema suele ser propósito del estudio. El objetivo es un problema reformulado.

La formulación del problema implica selección de objetos investigación. Puede ser un proceso pedagógico, un ámbito de la realidad pedagógica o alguna relación pedagógica que contiene una contradicción. En otras palabras, el objeto puede ser cualquier cosa que explícita o implícitamente contenga una contradicción y dé lugar a una situación problemática. Un objeto es aquello a lo que apunta el proceso de cognición. Tema de investigación - parte, lado de un objeto. Estas son las propiedades, aspectos y características más significativas de un objeto desde un punto de vista práctico o teórico que están sujetos a estudio directo.

De acuerdo con el propósito, objeto y tema del estudio, se determina la investigación. tareas, que normalmente tienen como objetivo comprobar hipótesis. Este último es un conjunto de supuestos con base teórica, cuya verdad está sujeta a verificación.

Criterio novedad científica aplicable para evaluar la calidad de los estudios finalizados. Caracteriza nuevas conclusiones teóricas y prácticas, patrones de educación, su estructura y mecanismos, contenidos, principios y tecnologías, que en ese momento no se conocían ni estaban registrados en la literatura pedagógica. La novedad de la investigación puede tener importancia tanto teórica como práctica. El significado teórico de la investigación radica en crear un concepto, obtener una hipótesis, patrón, método, modelo para identificar un problema, tendencia, dirección. La importancia práctica de la investigación radica en la preparación de propuestas, recomendaciones, etc. Los criterios de novedad, trascendencia teórica y práctica varían según el tipo de investigación y también dependen del momento de obtención de nuevos conocimientos;

Un factor que limita el uso de pruebas basadas en el supuesto de normalidad es el tamaño de la muestra. Siempre que la muestra sea lo suficientemente grande (por ejemplo, 100 o más observaciones), se puede suponer que la distribución muestral es normal, incluso si no se está seguro de que la distribución de la variable en la población sea normal. Sin embargo, si la muestra es pequeña, estas pruebas sólo deben usarse si se está seguro de que la variable realmente tiene distribución normal. Sin embargo, no hay manera de probar esta suposición en una muestra pequeña.

El uso de criterios basados ​​en el supuesto de normalidad también está limitado por la escala de medición (ver el capítulo Conceptos elementales de análisis de datos). Los métodos estadísticos como la prueba t, la regresión, etc. suponen que los datos originales son continuos. Sin embargo, hay situaciones en las que los datos simplemente se clasifican (se miden en una escala ordinal) en lugar de medirse con precisión.

Un ejemplo típico lo dan las calificaciones de los sitios en Internet: la primera posición la ocupa el sitio con el número máximo de visitantes, la segunda posición la ocupa el sitio con el número máximo de visitantes entre los sitios restantes (entre los sitios de los que se eliminó el primer sitio), etc. Conociendo las calificaciones, podemos decir que el número de visitantes de un sitio es mayor que el número de visitantes de otro, pero no se puede decir cuánto más. Imagine que tiene 5 sitios: A, B, C, D, E, que están clasificados en los primeros 5 lugares. Supongamos que en el mes actual tuvimos la siguiente disposición: A, B, C, D, E, y en el mes anterior: D, E, A, B, C. La pregunta es, ¿ha habido cambios significativos en los rankings? de sitios o no? En esta situación, obviamente, no podemos utilizar la prueba t para comparar estos dos grupos de datos, y pasamos al campo de los cálculos probabilísticos específicos (¡y cualquier prueba estadística contiene cálculos probabilísticos!). Razonamos aproximadamente de la siguiente manera: ¿qué probabilidad hay de que la diferencia en la disposición de los dos sitios se deba a razones puramente aleatorias, o si esta diferencia es demasiado grande y no puede explicarse por pura casualidad? En estas discusiones, utilizamos sólo clasificaciones o permutaciones de sitios y de ninguna manera utilizamos un tipo específico de distribución del número de visitantes a ellos.

Los métodos no paramétricos se utilizan para analizar muestras pequeñas y datos medidos en escalas deficientes.

Una breve descripción de los procedimientos no paramétricos

Básicamente, para cada criterio paramétrico existe al menos una alternativa no paramétrica.

En general, estos procedimientos se clasifican en una de las siguientes categorías:

  • pruebas de diferencias para muestras independientes;
  • pruebas de diferencias para muestras dependientes;
  • Evaluación del grado de dependencia entre variables.

En general, el enfoque de los criterios estadísticos en el análisis de datos debe ser pragmático y no estar cargado de consideraciones teóricas innecesarias. Con una computadora que ejecute STATISTICA, puede aplicar fácilmente múltiples criterios a sus datos. Conociendo algunos de los inconvenientes de los métodos, elegirá la solución adecuada mediante la experimentación. El desarrollo de la trama es bastante natural: si desea comparar los valores de dos variables, utilice una prueba t. Sin embargo, cabe recordar que se basa en el supuesto de normalidad e igualdad de varianzas en cada grupo. Eliminar estos supuestos conduce a pruebas no paramétricas, que son especialmente útiles para muestras pequeñas.

El desarrollo de la prueba t conduce al análisis de varianza, que se utiliza cuando el número de grupos que se comparan es superior a dos. El correspondiente desarrollo de procedimientos no paramétricos conduce al análisis de varianza no paramétrico, aunque es significativamente más pobre que el análisis de varianza clásico.

Para evaluar la dependencia o, para decirlo un poco pomposamente, el grado de cercanía de la conexión, se calcula el coeficiente de correlación de Pearson. Estrictamente hablando, su uso tiene limitaciones asociadas, por ejemplo, con el tipo de escala en la que se miden los datos y la no linealidad de la relación, por lo que se utilizan, por ejemplo, coeficientes de correlación no paramétricos, o los llamados de rango. , para datos clasificados, también se utilizan como alternativa. Si los datos se miden en una escala nominal, entonces es natural presentarlos en tablas de contingencia, que utilizan la prueba chi-cuadrado de Pearson con diversas variaciones y ajustes para mayor precisión.

Entonces, esencialmente hay sólo unos pocos tipos de criterios y procedimientos que usted necesita conocer y poder utilizar, dependiendo de las características específicas de los datos. Debe determinar qué criterio se debe aplicar en una situación particular.

Los métodos no paramétricos son más apropiados cuando los tamaños de muestra son pequeños. Si hay muchos datos (por ejemplo, n >100), a menudo no tiene sentido utilizar estadísticas no paramétricas.

Si el tamaño de la muestra es muy pequeño (por ejemplo, n = 10 o menos), entonces los niveles de significancia de aquellas pruebas no paramétricas que utilizan la aproximación normal sólo pueden considerarse estimaciones aproximadas.

Diferencias entre grupos independientes.. Si tiene dos muestras (por ejemplo, hombres y mujeres) que desea comparar con respecto a algún valor medio, como la presión arterial media o el recuento de glóbulos blancos, puede utilizar la prueba t de muestras independientes.

Las alternativas no paramétricas a esta prueba son la prueba de series de Wald-Wolfowitz, Mann-Whitney )/n, donde x i - i-ésimo valor, n - número de observaciones. Si una variable contiene valores negativos o cero (0), no se puede calcular la media geométrica.

media armónica

La media armónica a veces se utiliza para promediar frecuencias. La media armónica se calcula mediante la fórmula: GS = n/S(1/xi) donde GS es la media armónica, n es el número de observaciones, x i es el valor del número de observación i. Si una variable contiene cero (0), no se puede calcular la media armónica.

Varianza y desviación estándar

La varianza muestral y la desviación estándar son las medidas de variabilidad (variación) de los datos más utilizadas. La dispersión se calcula como la suma de las desviaciones al cuadrado de los valores de las variables de la media de la muestra, dividida por n-1 (pero no por n). La desviación estándar se calcula como la raíz cuadrada de la estimación de la varianza.

Alcance

El rango de una variable es un indicador de variabilidad, calculado como el máximo menos el mínimo.

rango cuartil

El rango trimestral, por definición, es el cuartil superior menos el cuartil inferior (percentil 75% menos percentil 25%). Dado que el percentil 75% (cuartil superior) es el valor a la izquierda del cual están el 75% de las observaciones, y el percentil 25% (cuartil inferior) es el valor a la izquierda del cual están el 25% de las observaciones, el cuartil rango es el intervalo alrededor de la mediana que contiene el 50% de las observaciones (valores variables).

Asimetría

La asimetría es una característica de la forma de una distribución. La distribución está sesgada hacia la izquierda si el valor de asimetría es negativo. La distribución está sesgada hacia la derecha si la asimetría es positiva. La asimetría de la distribución normal estándar es 0. La asimetría está asociada con el tercer momento y se define como: asimetría = n × M 3 /[(n-1) × (n-2) × s 3 ], donde M 3 es igual a: (x i -xpromedio x) 3, s 3 - desviación estándar elevada a la tercera potencia, n - número de observaciones.

Exceso

La curtosis es una característica de la forma de una distribución, es decir, una medida de la nitidez de su pico (en relación con una distribución normal, cuya curtosis es 0). Normalmente, las distribuciones con un pico más agudo que el normal tienen curtosis positiva; Las distribuciones cuyo pico es menos agudo que el pico de una distribución normal tienen curtosis negativa. La curtosis está asociada al cuarto momento y está determinada por la fórmula:

curtosis = /[(n-1) × (n-2) × (n-3) × s 4 ], donde M j es igual a: (x-media x, s 4 - desviación estándar a la cuarta potencia, n - número de observaciones .

Presentación y pretramitación de peritajes

En la práctica se utilizan varios tipos de evaluaciones:

- cualitativo (a menudo-rara vez, peor-mejor, sí-no),

- clasificaciones de escala (rango de valores 50-75, 76-90, 91-120, etc.),

Puntos de un intervalo dado (de 2 a 5, 1 -10), mutuamente independientes,

Clasificados (los objetos los coloca un experto en en un cierto orden, y a cada uno se le asigna un número de serie: rango),

Comparativo, obtenido por uno de los métodos de comparación.

método de comparación secuencial

método de comparación de factores por pares.

En el siguiente paso de procesamiento de opiniones de expertos, es necesario evaluar el grado de acuerdo entre estas opiniones.

Las calificaciones recibidas de los expertos pueden considerarse como una variable aleatoria, cuya distribución refleja las opiniones de los expertos sobre la probabilidad de una determinada elección de evento (factor). Por tanto, analizar la difusión y coherencia de las valoraciones periciales, generalizadas características estadísticas– promedios y medidas de dispersión:

Error cuadrático medio,

Rango de variación mín – máx,

- coeficiente de variación V = desviación cuadrática promedio / promedio aritmético (apto para cualquier tipo de evaluación)

V i = σ i / x i promedio

Para evaluación medidas de similitud y opiniones cada par de expertos Se pueden utilizar una variedad de métodos:

coeficientes de asociación, con la ayuda del cual se tiene en cuenta el número de respuestas coincidentes y no coincidentes,

coeficientes de inconsistencia opiniones de expertos,

Todas estas medidas se pueden utilizar para comparar las opiniones de dos expertos o para analizar la relación entre una serie de valoraciones sobre dos características.

Coeficiente de correlación de rangos pareados de Spearman:

donde n es el número de expertos,

c k – la diferencia entre las estimaciones de los expertos i-ésimo y j-ésimo para todos los factores T

El coeficiente de correlación de rangos de Kendall (coeficiente de concordancia) brinda una evaluación general de la coherencia de las opiniones de todos los expertos sobre todos los factores, pero solo para los casos en que se utilizaron estimaciones de rango.

Se ha comprobado que el valor de S, cuando todos los expertos dan las mismas valoraciones de todos los factores, tiene un valor máximo igual a

donde n es el número de factores,

m – número de expertos.

El coeficiente de concordancia es igual a la relación.

Además, si W es cercano a 1, entonces todos los expertos dieron estimaciones bastante consistentes; de lo contrario, sus opiniones no son consistentes.

La fórmula para calcular S se proporciona a continuación:

donde r ij son las estimaciones de clasificación del i-ésimo factor realizadas por el j-ésimo experto,

r avg es la clasificación promedio en toda la matriz de evaluación y es igual a

Y por tanto la fórmula para calcular S puede tomar la forma:

Si las valoraciones individuales de un experto coinciden y se estandarizaron durante el procesamiento, se utiliza otra fórmula para calcular el coeficiente de concordancia:



donde T j se calcula para cada experto (si sus valoraciones se repitieron para diferentes objetos) teniendo en cuenta las repeticiones de acuerdo con las siguientes reglas:

donde t j es el número de grupos de igual rango para el j-ésimo experto, y

h k es el número de rangos iguales en el k-ésimo grupo de rangos relacionados del j-ésimo experto.

EJEMPLO. Dejemos que 5 expertos en seis factores respondan la clasificación como se muestra en la Tabla 3:

Tabla 3 - Respuestas de los expertos

Expertos O1 O2 O3 O4 O5 O6 Suma de rangos por experto
E1
E2
E3
E4
E5

Debido a que no obtuvimos una clasificación estricta (las valoraciones de los expertos se repiten y las sumas de rangos no son iguales), transformaremos las valoraciones y obtendremos los rangos asociados (Tabla 4):

Tabla 4 – Rangos relacionados de evaluaciones de expertos

Expertos O1 O2 O3 O4 O5 O6 Suma de rangos por experto
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Suma de rangos para un objeto 7,5 9,5 23,5 29,5

Ahora determinemos el grado de acuerdo entre las opiniones de los expertos utilizando el coeficiente de concordancia. Como los rangos están relacionados, calcularemos W usando la fórmula (**).

Entonces r av =7*5/2=17.5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Pasemos a los cálculos de W. Para ello, calculamos por separado los valores de T j. En el ejemplo, las calificaciones se seleccionan especialmente de tal manera que cada experto tiene calificaciones repetidas: el primero tiene dos, el segundo tiene tres, el tercero tiene dos grupos de dos calificaciones y el cuarto y quinto tienen dos calificaciones idénticas. Desde aquí:

T 1 = 2 3 – 2 = 6 T 5 = 6

T 2 = 3 3 – 3 = 24

T 3 = 2 3 –2+ 2 3 –2 = 12 T 4 = 12

Vemos que la coherencia de las opiniones de los expertos es bastante alta y podemos pasar a la siguiente etapa del estudio: justificación y adopción de la alternativa de solución recomendada por los expertos.

De lo contrario, deberá volver a los pasos 4-8.

Para calcular el coeficiente de correlación de rango de Kendall rk es necesario clasificar los datos según una de las características en orden ascendente y determinar las clasificaciones correspondientes para la segunda característica. Luego, para cada rango del segundo atributo, se determina el número de rangos posteriores de mayor valor que el rango tomado y se encuentra la suma de estos números.

El coeficiente de correlación de rangos de Kendall viene dado por


Dónde ri– número de rangos de la segunda variable, a partir de i+1, cuyo valor es mayor que el valor i-ésimo rango de esta variable.

Hay tablas de puntos porcentuales de distribución de coeficientes. rk, permitiéndole probar la hipótesis sobre la importancia del coeficiente de correlación.

Para tamaños de muestra grandes, valores críticos rk no están tabulados y deben calcularse utilizando fórmulas aproximadas, que se basan en el hecho de que bajo la hipótesis nula H 0: rk=0 y mayor norte variable aleatoria

distribuidos aproximadamente según la ley normal estándar.

40. Dependencia entre rasgos medidos en una escala nominal u ordinal

A menudo surge la tarea de comprobar la independencia de dos características medidas en una escala nominal u ordinal.

Dejemos que algunos objetos tengan dos características medidas. incógnita Y Y con el número de niveles r Y s respectivamente. Es conveniente presentar los resultados de tales observaciones en forma de una tabla llamada tabla de contingencia de características.

en la mesa tu yo(i = 1, ..., r) Y vj (j= 1, ..., s) – valores aceptados por las características, valor n ij– el número de objetos del número total de objetos que tienen el atributo incógnita aceptó el valor tu yo, y el signo Y- significado vj

Introduzcamos las siguientes variables aleatorias:

tu yo


– el número de objetos que tienen un valor vj


Además, existen igualdades obvias.



Variables aleatorias discretas incógnita Y Y independiente si y solo si

para todas las parejas i, j

Por tanto, la hipótesis sobre la independencia de variables aleatorias discretas. incógnita Y Y se puede escribir así:

Como alternativa, por regla general, se utiliza la hipótesis.

La validez de la hipótesis H 0 debe juzgarse sobre la base de las frecuencias muestrales. n ij tablas de contingencia. Según la ley grandes números en norte→∞ las frecuencias relativas están cercanas a las probabilidades correspondientes:



La estadística se utiliza para probar la hipótesis H 0.

que, si la hipótesis es cierta, tiene una distribución χ 2 segundos rs − (r + s− 1) grados de libertad.

Criterio de independencia χ 2 rechaza la hipótesis H 0 con nivel de significancia α si:


41. Análisis de regresión. Conceptos básicos del análisis de regresión.

Para descripción matemática relaciones estadísticas entre las variables estudiadas, se deben resolver las siguientes tareas:

ü seleccionar una clase de funciones en las que sea aconsejable buscar la mejor (en cierto sentido) aproximación de la dependencia de interés;

ü encontrar estimaciones de los valores desconocidos de los parámetros incluidos en las ecuaciones de la dependencia deseada;

ü establecer la adecuación de la ecuación resultante a la relación deseada;

ü identificar las variables de entrada más informativas.

La totalidad de las tareas enumeradas es objeto de investigación de análisis de regresión.

La función de regresión (o regresión) es la dependencia de la expectativa matemática de una variable aleatoria del valor tomado por otra variable aleatoria, formando con la primera un sistema bidimensional de variables aleatorias.

Sea un sistema de variables aleatorias ( incógnita,Y), entonces la función de regresión Y en incógnita

Y la función de regresión incógnita en Y

Funciones de regresión F(incógnita) Y φ (y), no son mutuamente reversibles, a menos que la relación entre incógnita Y Y no es funcional.

En caso norte-vector dimensional con coordenadas incógnita 1 , incógnita 2 ,…, xn se puede considerar la expectativa matemática condicional para cualquier componente. Por ejemplo, para incógnita 1


llamado regresión incógnita 1 por incógnita 2 ,…, xn.

Para definir completamente la función de regresión, es necesario conocer la distribución condicional de la variable de salida para valores fijos de la variable de entrada.

Como en una situación real no disponen de dicha información, normalmente se limitan a buscar una función de aproximación adecuada. f un(incógnita) Para F(incógnita), basado en datos estadísticos de la forma ( xyo, y yo), i = 1,…, norte. Estos datos son el resultado norte observaciones independientes y 1 ,…, y norte variable aleatoria Y para los valores de la variable de entrada incógnita 1 ,…, xn, mientras que en el análisis de regresión se supone que los valores de la variable de entrada se especifican exactamente.

El problema de elegir la mejor función aproximada. f un(incógnita), siendo el principal en el análisis de regresión, y no cuenta con procedimientos formalizados para su solución. A veces, la elección se determina basándose en el análisis de datos experimentales, más a menudo a partir de consideraciones teóricas.

Si se supone que la función de regresión es suficientemente suave, entonces la función que la aproxima f un(incógnita) se puede representar como una combinación lineal de un cierto conjunto de funciones básicas linealmente independientes ψ k(incógnita), k = 0, 1,…, metro−1, es decir, en la forma


Dónde metro– número de parámetros desconocidos θk(en el caso general, la cantidad es desconocida, refinada durante la construcción del modelo).

Tal función es lineal en sus parámetros, por lo que en el caso considerado hablamos de un modelo de función de regresión que es lineal en sus parámetros.

Entonces la tarea de encontrar la mejor aproximación para la recta de regresión F(incógnita) se reduce a encontrar valores de parámetros en los que f un(incógnita;θ) es el más adecuado a los datos disponibles. Uno de los métodos que te permite resolver este problema es el método de mínimos cuadrados.

42. Método de mínimos cuadrados

Sea el conjunto de puntos ( xyo, y yo), i= 1,…, norte ubicado en un plano a lo largo de una línea recta

Entonces como función f un(incógnita), que se aproxima a la función de regresión F(incógnita) = METRO [Y|incógnita] es natural tomar una función lineal del argumento incógnita:


Es decir, las funciones base elegidas aquí son ψ 0 (incógnita)≡1 y ψ 1 (incógnita)≡incógnita. Este tipo de regresión se llama regresión lineal simple.

Si el conjunto de puntos ( xyo, y yo), i= 1,…, norte ubicado a lo largo de alguna curva, entonces como f un(incógnita) es natural intentar elegir una familia de parábolas

Esta función es no lineal en parámetros. θ 0 y θ 1, sin embargo, mediante una transformación funcional (en este caso logaritmo) se puede reducir a nueva característica f'a(incógnita) lineal en parámetros:


43. Regresión lineal simple

El modelo de regresión más simple es simple (univariable, unifactorial, pareado) modelo lineal, teniendo la siguiente forma:


Dónde ε yo– variables aleatorias (errores) que no están correlacionadas entre sí, tienen expectativas matemáticas cero y varianzas idénticas σ 2 , a Y b– coeficientes (parámetros) constantes que deben estimarse a partir de los valores de respuesta medidos y yo.

Para encontrar estimaciones de parámetros a Y b regresión lineal, determinando la recta que mejor satisface los datos experimentales:


Se utiliza el método de mínimos cuadrados.

De acuerdo a método de mínimos cuadrados estimaciones de parámetros a Y b encontrado a partir de la condición de minimizar la suma de las desviaciones al cuadrado de los valores y yo verticalmente desde la línea de regresión “verdadera”:

Hagamos diez observaciones de una variable aleatoria. Y para valores fijos de la variable incógnita

para minimizar D igualemos a cero las derivadas parciales con respecto a a Y b:



Como resultado, obtenemos el siguiente sistema de ecuaciones para encontrar estimaciones. a Y b:


Resolviendo estas dos ecuaciones se obtiene:



Expresiones para estimaciones de parámetros. a Y b también se puede representar como:

Entonces la ecuación empírica de la recta de regresión Y en incógnita se puede escribir como:


Estimador de varianza insesgado σ 2 desviaciones de valor y yo de la línea de regresión recta ajustada está dada por

Calculemos los parámetros de la ecuación de regresión.


Por tanto, la línea de regresión queda así:


Y la estimación de la varianza de las desviaciones de valores. y yo desde la línea de regresión recta ajustada


44. Comprobando el significado de la línea de regresión.

Estimación encontrada b≠ 0 puede ser la realización de una variable aleatoria cuya expectativa matemática es igual a cero, es decir, puede resultar que en realidad no existe dependencia de regresión.

Para afrontar esta situación, se debe probar la hipótesis H 0: b= 0 con hipótesis en competencia H 1: b ≠ 0.

Se puede probar la importancia de una línea de regresión mediante el análisis de varianza.

Considere la siguiente identidad:

Magnitud y yoyo = ε yo se llama resto y es la diferencia entre dos cantidades:

ü desviación del valor observado (respuesta) de la respuesta promedio general;

ü desviación del valor de respuesta previsto yo del mismo promedio

La identidad escrita se puede escribir en la forma


Al elevar ambos lados al cuadrado y sumar i, obtenemos:


Donde se nombran las cantidades:

la suma completa (total) de cuadrados SC n, que es igual a la suma de las desviaciones al cuadrado de las observaciones con respecto al valor promedio de las observaciones

la suma de cuadrados determinada por la regresión del SC p, que es igual a la suma de las desviaciones al cuadrado de los valores de la línea de regresión con respecto al promedio de las observaciones.

suma residual de cuadrados SC 0 . que es igual a la suma de las desviaciones al cuadrado de las observaciones con respecto a los valores de la línea de regresión

Así, la difusión Y-kov en relación con su media se puede atribuir hasta cierto punto al hecho de que no todas las observaciones se encuentran en la línea de regresión. Si este fuera el caso, entonces la suma de cuadrados relativa a la regresión sería cero. De ello se deduce que la regresión será significativa si la suma de los cuadrados de SC p es mayor que la suma de los cuadrados de SC 0.

Los cálculos para probar la importancia de la regresión se realizan en la siguiente tabla ANOVA

Si hay errores ε yo se distribuyen según la ley normal, entonces si la hipótesis H 0 es cierta: b= 0 estadísticas:


distribuido según la ley de Fisher con el número de grados de libertad 1 y norte−2.

La hipótesis nula será rechazada en el nivel de significancia α si el valor calculado del estadístico F será mayor que el α punto porcentual F 1;norte−2;α Distribuciones de Fisher.

45. Comprobación de la adecuación del modelo de regresión. método residual

La idoneidad del modelo de regresión construido significa que ningún otro modelo proporciona una mejora significativa en la predicción de la respuesta.

Si todos los valores de respuesta se obtienen en valores diferentes incógnita, es decir, no se obtienen varios valores de respuesta al mismo tiempo xyo, entonces sólo se podrán realizar pruebas limitadas de la adecuación del modelo lineal. La base para tal control son los saldos:

Desviaciones del patrón establecido:

Porque incógnita– variable unidimensional, puntos ( xyo, yo) se puede representar en un plano en forma del llamado gráfico residual. Esta representación permite en ocasiones detectar algún tipo de patrón en el comportamiento de los residuos. Además, el análisis residual permite analizar el supuesto relativo a la ley de distribución del error.

En el caso de que los errores se distribuyan según la ley normal y exista una estimación a priori de su varianza σ 2 (evaluación obtenida sobre la base de mediciones realizadas previamente), entonces es posible una evaluación más precisa de la adecuación del modelo.

Al usar F-La prueba de Fisher se puede utilizar para comprobar si la varianza residual es significativa. s 0 2 difiere de la estimación a priori. Si es significativamente mayor, entonces hay insuficiencia y el modelo debe revisarse.

Si la estimación a priori σ 2 no, pero medidas de respuesta Y repetido dos o más veces con los mismos valores incógnita, entonces estas observaciones repetidas se pueden utilizar para obtener otra estimación σ 2 (la primera es la varianza residual). Se dice que tal estimación representa un error “puro”, ya que si incógnita idéntico para dos o más observaciones, entonces sólo los cambios aleatorios pueden afectar los resultados y crear dispersión entre ellos.

La estimación resultante resulta ser una estimación de la varianza más confiable que las estimaciones obtenidas por otros métodos. Por esta razón, al planificar experimentos, tiene sentido realizar experimentos con repeticiones.

Supongamos que hay metro diferentes significados incógnita : incógnita 1 , incógnita 2 , ..., xm. Sea para cada uno de estos valores xyo disponible n yo observaciones de respuesta Y. Las observaciones totales son:

Entonces el modelo de regresión lineal simple se puede escribir como:


Encontremos la varianza de los errores "puros". Esta varianza es la estimación de varianza agrupada. σ 2 si imaginamos los valores de respuesta y ij en incógnita = xyo como volumen de muestra n yo. Como resultado, la varianza de los errores "puros" es igual a:

Esta variación sirve como estimación. σ 2 independientemente de si el modelo ajustado es correcto.

Demostremos que la suma de cuadrados de los “errores puros” es parte de la suma de cuadrados residual (la suma de cuadrados incluida en la expresión de la varianza residual). Quedando para j a observación en xyo se puede escribir como:

Si elevamos al cuadrado ambos lados de esta ecuación y luego los sumamos j y por i, entonces obtenemos:

A la izquierda en esta igualdad está la suma residual de cuadrados. El primer término del lado derecho es la suma de los cuadrados de los errores “puros”, el segundo término puede denominarse suma de los cuadrados de la insuficiencia. La última cantidad tiene metro−2 grados de libertad, de ahí la varianza de la insuficiencia

El estadístico de prueba para probar la hipótesis H 0: el modelo lineal simple es adecuado, frente a la hipótesis H 1: el modelo lineal simple es inadecuado, es una variable aleatoria

Si la hipótesis nula es cierta, el valor F tiene una distribución de Fisher con grados de libertad metro−2 y nortemetro. La hipótesis de linealidad de la línea de regresión debe rechazarse en el nivel de significancia α si el valor estadístico resultante es mayor que el punto porcentual α de la distribución de Fisher con grados de libertad. metro−2 y nortemetro.

46. Comprobación de la adecuación del modelo de regresión (ver 45). Análisis de varianza

47. Comprobación de la adecuación del modelo de regresión (ver 45). Coeficiente de determinación

A veces se utiliza un coeficiente de determinación de muestra para caracterizar la calidad de una línea de regresión. R 2, que muestra qué parte (participación) constituye la suma de cuadrados debida a la regresión, SC p, en la suma total de cuadrados SC p:

Cuanto más cerca R 2 a la unidad, cuanto mejor se aproxima la regresión a los datos experimentales, más cerca están las observaciones de la línea de regresión. Si R 2 = 0, entonces los cambios en la respuesta se deben enteramente a la influencia de factores no contabilizados y la línea de regresión es paralela al eje incógnita-s. En el caso de regresión lineal simple, el coeficiente de determinación R 2 es igual al cuadrado del coeficiente de correlación r 2 .

El valor máximo de R 2 =1 solo se puede lograr en el caso de que las observaciones se realicen con diferentes valores de x-s. Si los datos contienen experimentos repetidos, entonces el valor de R 2 no puede alcanzar la unidad, sin importar cuán bueno sea el modelo.

48. Intervalos de confianza para parámetros de regresión lineal simple

Así como la media muestral es una estimación de la media verdadera (la media poblacional), también lo son los parámetros muestrales de una ecuación de regresión. a Y b- nada más que estimaciones de verdaderos coeficientes de regresión. Diferentes muestras producirán diferentes estimaciones de la media, del mismo modo que diferentes muestras producirán diferentes estimaciones de los coeficientes de regresión.

Suponiendo que la ley de distribución de errores ε yo se describen mediante una ley normal, estimación de parámetros b tendrá una distribución normal con los parámetros:


Desde la estimación del parámetro a es una combinación lineal de cantidades independientes distribuidas normalmente, también tendrá una distribución normal con expectativa y varianza matemática:


En este caso, (1 − α) intervalo de confianza para estimar la dispersión σ 2 teniendo en cuenta que la relación ( norte−2)s 0 2 /σ 2 distribuidos según ley χ 2 con grados de libertad norte−2 estará determinado por la expresión


49. Intervalos de confianza para la recta de regresión. Intervalo de confianza para valores de variables dependientes

Normalmente no conocemos los valores verdaderos de los coeficientes de regresión. A Y b. Sólo conocemos sus estimaciones. En otras palabras, la verdadera línea de regresión puede ser más alta o más baja, más pronunciada o más plana, que la construida a partir de datos de muestra. Calculamos intervalos de confianza para los coeficientes de regresión. También puede calcular la región de confianza de la propia línea de regresión.

Para una regresión lineal simple necesitamos construir (1− α ) intervalo de confianza para la expectativa matemática de la respuesta Y en valor incógnita = incógnita 0. Esta expectativa matemática es igual a a+bx 0 y su puntuación

Porque entonces.

La estimación resultante de la expectativa matemática es una combinación lineal de valores distribuidos normalmente no correlacionados y, por lo tanto, también tiene una distribución normal centrada en el punto del valor verdadero de la expectativa matemática condicional y la varianza.

Por lo tanto, el intervalo de confianza para la recta de regresión en cada valor incógnita 0 se puede representar como


Como puede verse, el intervalo de confianza mínimo se obtiene cuando incógnita 0 es igual al valor promedio y aumenta a medida que incógnita 0 “se aleja” del promedio en cualquier dirección.

Para obtener un conjunto de intervalos de confianza conjuntos adecuados para toda la función de regresión, en toda su longitud, en la expresión anterior Tennesse −2,α /2 debe ser sustituido

Ajustes