4. OBTENCIÓN DE DATOS: POBLACIÓN Y MUESTRA

4.1 Población

El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población es un conjunto finito o infinito de personas u objetos, que presentan alguna característica en común (constante) y de la cual el investigador quisiera conocer otras características que difieren (variables) . Cada uno de los elementos que componen esta población serán las unidades de análisis o de estudio.

La unidad de análisis o estudio se refiere a cuáles o quiénes son los objetos de la investigación:

La unidades de observación, son las personas o elementos que nos van a brindar la información requerida. Ambas pueden coincidir en la misma persona. Por ej: Tengo interés en las personas con sobrepeso y a ellas mismas les realizo las preguntas. Puede ser que sean diferentes personas o elementos, por ejemplo si el tema es hablar sobre la alimentación del niño, la unidad de análisis serán los niños o sea de los cuales se va a hablar, pero puede ser que esa información se obtenga de la madre que será la unidad de observación.

Población Blanco: es la población de la cual el investigador quiere hablar, cuyos elementos comparten una característica en común. En el Censo Nacional, por ejemplo, es el recuento de todos los elementos de la población argentina. La característica en común es pertenecer a esta población argentina.

Población Accesible: muchas veces no se pueden obtener todas las unidades de la población blanco, sobre todo en casos de poblaciones infinitas, como por ejemplo, los diabéticos. Entonces se trabaja con la población accesible, determinada por las coordenadas de tiempo y espacio. Por ej: los pacientes diabéticos que se hayan atendido en el Consultorio de Nutrición del Hospital de Clínicas (coordenada espacial: dónde) durante el año 2018 (c. temporal: cuándo).

Muestra: inclusive esta población puede ser muy grande y sea muy costoso investigarlas a todas. Se selecciona entonces una muestra representativa de la misma. Eligiendo esta muestra a partir de la población accesible se puede tener una idea de lo que ocurre en la misma. La exactitud de la información recolectada depende en gran manera de la forma en que fue seleccionada la muestra. Las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población de referencia de la cual se ha extraído la muestra, o sea se debe diferenciar si se realizó a partir de la población blanco o de la accesible.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra, debe seguir una técnica de muestreo estadístico. En tales casos, se puede obtener una información casi similar al del estudio de toda la población con mayor rapidez y menor costo.

El número de sujetos que componen la muestra es inferior al de la población, pero debe ser suficiente para que la estimación obtenida tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea adecuado es preciso recurrir a su cálculo.

Las razones y ventajas para muestrear una población, en lugar de estudiarla directamente, pueden ser:

· La población es muy grande (infinita o finita pero demasiado grande) y por tanto, imposible de analizar en su totalidad o se perdería mucho tiempo en saber el resultado.

· Variación de la población: Las características de la población varían si el estudio se prolonga demasiado tiempo.

· Reducción de costos: al estudiar una pequeña parte de la población, los gastos de recolección y tratamiento de los datos serán menores que si los obtenemos del total de la población.

· Rapidez: al reducir el tiempo de recolección y tratamiento de los datos, se consigue mayor rapidez.

· Viabilidad: la elección de una muestra permite la realización de estudios que sería imposible hacer sobre el total de la población.

· La población es suficientemente homogénea respecto de la característica medida, con lo cual resultaría inútil malgastar recursos en un análisis exhaustivo

· El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: analizar un lote de medicamentos y abrirlos todos).

4.1.1 Criterios de selección de una muestra

· Criterios de inclusión: especifica las cualidades de las unidades que entrarían. Ej. Adolescentes desnutridas

· Criterios de exclusión: se excluyen del grupo anterior algunos subgrupos, por no ser útiles a los fines de la investigación o a los que sería riesgoso investigarlos. Ej. Embarazadas

· Criterios de eliminación: (en investigaciones longitudinales), son problemas que surgen luego de comenzada la investigación. Ej: embarazo que se inicia a posteriori de la selección inicial, durante el período de estudio.

· Coordenadas témporo-espaciales: definen de esa población blanco, cuál es la población accesible sobre la que se va a muestrear. Se determina tiempo y lugar de esa población accesible. Ej: durante el año 2017 en la Sala de Pediatría del Hospital Argerich.

4.2 Obtención de una muestra

Una muestra debe ser representativa si va a ser usada para estimar las características de la población. Los métodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y habilidad disponibles para tomar una muestra y la naturaleza de los elementos individuales de la población. Por lo tanto, se requiere un gran volumen para incluir todos los tipos de métodos de muestreo. Los elementos pueden ser seleccionados en forma probabilística y no probabilística.

4.2.1 Tipos de muestreo

Muestreo no probabilístico: A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a estos métodos, aún siendo conscientes de que con ellos es difícil realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa.

Muestreo probabilístico: Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra. En una muestra probabilística la selección de las muestras es objetiva basada en el azar y el error muestral cometido puede ser medido e indicado mediante un intervalo hacia arriba o hacia debajo de la medición obtenida.

Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

4.2.1.1 Muestreo aleatorio simple

El procedimiento es el siguiente: se asigna un número a cada individuo de la población y a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca utilidad práctica cuando la población que estamos manejando es muy grande. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son necesarias.

4.2.1.2 Muestreo aleatorio sistemático

Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios, solo se extrae uno.´

Para utilizar este tipo de muestreo:

1) Se calcula el valor de la constante que determinará el intervalo de selección a la cual llamaremos k, de la siguiente forma: k = N/n (donde N es el tamaño de la población y n es el número de elementos de la muestra).

2) Se procede a seleccionar un número aleatorio, al que llamaremos i, que será el primer elemento de la población a extraer para conformar la muestra o sea que será nuestro punto de partida que se obtiene al azar entre los valores 1 y k.

Ejemplo: se procede a elegir los elementos (personas, documentos, historias clínicas, etc) a partir de un número i ( elegido utilizando el azar) cada k elementos.

Es decir que se toman los individuos de k en k, siendo k el resultado en % del tamaño de la población y del tamaño de la muestra.

Se interpreta como si se dividiera a la población en k conjuntos y de cada uno de ellos se extrajera un elemento. Ese elemento se erigirá en base al número i que se emplea como punto de partida y se obtiene al azar entre los valores 1 y k.

Por ejemplo: mi población es de 37 elementos (N) y quiero obtener una muestra de 5 elementos (n). Determino k: 37/ 5 =7 y restan 2. Quedarían conformados 5 grupos de 7 elementos cada uno y sobrarían 2 elementos. Elijo aleatoriamente un número entre 1 y k, o sea en este caso entre 1 y 7, dado que ese número indica cuál de esos 7 elementos de cada grupo voy a elegir. Por ejemplo, saco el número i= 3, y entonces elijo el tercer elemento de cada grupo. La muestra estaría conformada por los 5 elementos: 3, 10, 17, 24 y 31

1 2 3 4 5 6 7 i 3

8 9 10 11 12 13 14 i+k 3+7=10

15 16 17 18 19 20 21 i+2k 3+7+7= 17

22 23 24 25 26 27 28 i+3k 3+7+7+7= 24

29 30 31 32 33 34 35 i+4k 3+7+7+7+7= 31

36 37

4.2.1.3 Muestreo estratificado

Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos, llamados estratos, que son más homogéneos que la población como un todo. Los elementos de la muestra son entonces seleccionados al azar o por un método sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población entera muestreada mediante muestreo aleatorio simple. Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades…).

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos:

Afijación simple: a cada estrato le corresponde igual número de elementos muestrales.

Afijación proporcional: se toma una muestra de acuerdo con el tamaño de la población en cada estrato.

4.2.1.4 Muestreo de conglomerados

En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, localidades, etc., son conglomerados naturales. Para obtener una muestra de conglomerados, primero se divide a la población en grupos que son convenientes para el muestreo. A veces se realiza un sorteo entre ellos y de los que salen sorteados, se selecciona la muestra aleatoriamente.

Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo aleatorio simple. Esta debilidad puede ser reducida cuando se incrementa el tamaño de la muestra de área.

Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la de la población.

4.2.1.5 Muestreo polietápico

Para finalizar con los métodos de muestreo probabilístico a veces, ante lo compleja que puede llegar a ser la situación real de muestreo, es muy común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método de muestreo probabilístico más adecuado. Por ejemplo si se desea tomar una muestra probabilística de la población argentina no parece razonable usar a cada individuo como unidad de muestreo. La unidad de muestreo en la primera etapa podrían ser cada provincia, se hace una lista y se realiza un primer sorteo para la selección. En una segunda etapa se distingue la población rural de la urbana, subdividiendo en fracciones (diferentes superficies con densidad de población semejante). Otra vez se sortea para elegir, y se continúa con otra división en radios dentro de las fracciones, segmentos dentro de radios, y así sucesivamente, hasta quedar delimitadas unidades muy pequeñas

Muchas veces, equivocadamente se cree que es lo mismo elegir “a dedo” a los integrantes de la muestra porque el investigador no tiene preferencias por alguno de ellos, y por lo tanto elegirá a cualquiera. No siempre es así. Por ejemplo, hay que sacar una rata de una jaula que contiene muchas de ellas, abrir la jaula y tomar una sin más. Pero no es verdad que cualquiera tuviera la misma probabilidad de de ser atrapada, en realidad se toma a la que se deja atrapar, quizás por no ser tan veloz para escapar, ya sea por estar enferma, o por estar más pesada como para reaccionar ágilmente. Algo similar podría pasar con otros elementos.

4.2.2 ERROR MUESTRAL

Parámetro: es una medida usada para describir alguna característica de una población, tal como una media poblacional: µ ( se utilizan letras griegas como símbolo representativo)

Estadístico: un estadístico o estimador es una medida usada para describir alguna característica de una muestra, tal como una media muestral: X (se utilizan letras latinas)

La diferencia entre el valor del estimador muestral y el parámetro poblacional de la población

se llama el error muestral o error de muestreo. Muestra con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de una medición poblacional completa.

A mayor tamaño de la muestra menor error muestral

A menor dispersión de los datos de la muestra menor error muestral

El proceso de inferencia estadística puede ser descrito como el proceso de estimar un parámetro a partir del estadístico correspondiente, tal como usar una media que se determinó en una muestra (un estadístico) para estimar la verdadera media de la población (un parámetro). µ=X+ error muestral.

Medida                      Símbolo para el estadístico                        Símbolo para el parámetro
                                           (Muestra)                                                 (Población)
Media                                     X                                                                    µ
Desviación estándar              s                                                                      s
Número de elementos            n                                                                    N
Proporción                             p                                                                     P

5. OBTENCIÓN DE LOS DATOS: VARIABLES Y ESCALAS

Conceptos Nuevos

· VARIABLE DE ESTUDIO

· VARIABLE INDEPENDIENTE-EXPLICATIVA-PREDICTORA

· VARIABLE DEPENDIENTE-EXPLICADA- PREDICHA

· VARIABLE INTERVINIENTE O CONFUSORA

· VARIABLES INDIFERENTES

· VARIABLES SIMPLES

· VARIABLES COMPLEJAS

· ESCALAS DE MEDICIÓN

5.1 Clasificación de las variables

Una variable es cualquier característica o cualidad de la realidad que es susceptible de asumir diferentes valores, ya sea cuantitativa o cualitativamente. Es decir, que puede variar. Por ejemplo: una persona; no puede ser, en sí, una variable. Pero, si nos referimos a la talla o peso, estamos en presencia de una variable. O sea, que esa cualidad de la persona, la puede asumir diferentes valores, en caso contrario sería una constante.

Se pueden clasificar teniendo en cuenta:

El nivel y escala de medición

· Variables cualitativas o no numéricas o categóricas

· Variables cuantitativas o numéricas

Su función en el problema de investigación

· Variables de estudio: dependiente e independiente

· Variables intervinientes o confusoras

· Variables indiferentes

Según su nivel de abstracción

· Variables simples

· Variables complejas

5.1.1 Según la Escala de Medición

La humanidad, históricamente, ha acompañado la necesidad de cuantificación de lo continuo a través de ir estableciendo unidades de medida. Un instrumento de medición puede ser una balanza, un centímetro, etc. pero también puede ser un cuestionario, un test, un examen. Existen conceptos abstractos que son muy difíciles de medir, en ese caso podría decirse que medir es “el proceso de vincular conceptos abstractos con indicadores empíricos”

La idea de medición, de medida, es intrínsecamente comparativa. Medir algo, en el caso más sencillo, es determinar cuántas veces una cierta unidad o patrón de medida cabe en el objeto medido. Para medir la longitud de un objeto físico, desplazamos una regla graduada sobre el mismo, observando cuántas unidades (en este caso, centímetros o metros) abarca ese objeto. Es decir, comparamos el objeto con nuestro patrón de medición, el cual es elegido por consenso, para determinar cuántas unidades y fracciones del mismo incluye.

Se considera un error de medición a la diferencia existente entre el valor obtenido al medir una variable con relación a su valor real y objetivo.

La dificultad en la medición de variables no físicas reside en que las variables de este tipo no pueden medirse con escalas tan sencillas como las lineales y en que, por otra parte, no existen para su comparación patrones de medida universalmente definidos y aceptados. Como vimos, si deseamos medir el peso de un objeto, podremos expresar el valor del mismo en kilogramos o libras. En cambio, para medir el grado de satisfacción de un paciente, no existe ni una unidad ni una escala generalmente reconocidas. Medir un concepto complejo implica realizar una serie de operaciones: será necesario definir las dimensiones que integran las variables, encontrar diversos indicadores que la reflejen y construir luego una escala apropiada para el caso.

Las cualidades que deben tener un patrón o unidad de medida son

1º.- Ser inalterable, no debe cambiar con el tiempo ni en función de quién realice la medida.

2º.- Ser universal, es decir utilizada por todos los países.

3º.- Ha de ser fácilmente reproducible.

El Sistema Internacional de Unidades, vigente en la mayoría de los países, considera sólo siete magnitudes fundamentales, a partir de las cuales se pueden derivar todas las restantes magnitudes. Las magnitudes fundamentales del Sistema Internacional de Unidades son longitud (metro); masa (kilogramo), tiempo (segundo), temperatura (Kelvin), cantidad de sustancia (mol), intensidad de la corriente (ampere) e intensidad de la luz (bujía o candela).

Para medir una variable se establece una escala de medida, que es un patrón convencional de medición, y básicamente consiste en un instrumento capaz de representar con gran fidelidad verbal, gráfica o simbólicamente el estado de una variable.

En el caso de la medición de una variable no física, puede decirse que una escala sería un continuo de valores ordenados correlativamente, que admite un punto inicial y otro final. Si evaluamos el rendimiento académico de estudiantes, podemos asignar el valor cero al mínimo rendimiento imaginable al respecto. Al mayor rendimiento posible podemos atribuirle un valor 100 o 10 puntos, según resulte más práctico. Con estos dos valores tendríamos ya marcados los límites de nuestra escala. Para concluir de confeccionarla, será necesario asignar a los posibles rendimientos intermedios puntajes también intermedios. Con ello obtendremos una escala capaz de medir la variable rendimiento académico a través de los indicadores concretos de los trabajos de los estudiantes.`

5.1.1.1 Cualitativas o Categóricas

Variables nominales

Son aquellas en que sólo se manifiesta una equivalencia de categorías entre los diferentes puntos que asume la variable. Es como una simple lista de los diferentes valores que puede adoptar la variable, pero sin que en ella se defina algún tipo de orden o relación. Entre estos valores, no cabe obviamente ninguna jerarquía, ni ordenamiento. Se dividen en dicotómica cuando solo tienen dos valores antagónicos. La escala dicotómica: tiene 2 valores antagónicos (si\no, vivo\muerto, sano\enfermo). La escala es politómica cuando tienen varios valores: ej: grupo sanguíneo A, B, AB, O.

Variables ordinales

Distinguen los diferentes valores de la variable jerarquizándolos simplemente de acuerdo con un rango. Establecen que existe una gradación entre uno y otro valor de la escala, de tal modo que cualquiera de ellos es mayor que el precedente y menor que el que le sigue a continuación. Sin embargo, la distancia entre un valor y otro no queda definida sino que es indeterminada. En otras palabras, tales escalas nos esclarecen solamente el rango que las distintas posiciones guardan entre sí. Un ejemplo de escala ordinal es el que suele usarse para medir la variable "grado de escolaridad": podemos decir que una persona que ha tenido 2 años de instrucción escolar, ha recibido más instrucción que quien sólo tiene un año, y menos que quien posee 3. Sin embargo, no puede afirmarse válidamente que la diferencia entre quien posee 2 años de instrucción y quien ha recibido 1 año es igual a la diferencia entre quienes han recibido 16 y 17 años de educación formal.

5.1.1.2 Variables Cuantitativas

Las variables cuantitativas se pueden clasificar en dos grupos

Variable discreta

Si la variable medida es susceptible a ser contada, se puede construir una escala discreta, formada por números ENTEROS con incrementos fijos, donde las fracciones no son consideradas: se cuenta en número de casos o elemento. Por ejemplo el número de asistentes, las camas ocupadas, los platos de comidas servidos.

Variable continua

La variable puede tomar todos los valores posibles intermedios de la escala (fraccionados, porcentuales y/o decimales) siendo esta medición siempre aproximada. Por ejemplo: peso, tiempo, etc.

Variables Cuantitativas
Escala Continuas Ej. Presión arterial, peso, talla,	Escala Discretas Ej. Número de hijos, episodios de infección urinaria en el año
Variables Cualitativas
Escala Ordinales Ej. Gravedad de una enfermedad (leve/moderado/grave)	Escala Nominales -Dicotómicas: Ej. vivo/muerto, si/ no -Politómicas: Ej. Grupo sanguíneo, raza

5.1.2 Tipos de variables según su función en la investigación

Si organizamos las variables que vamos a medir y observamos las relaciones entre ellas podemos construir un esquema coherente que exprese el cuadro general del problema. Y dividirla primeramente en dos grandes grupos; las que nos interesa saber qué clase de relación existe entre ellas (variables de estudio) y las que podrían estar involucradas en las variaciones de ellas (variables intervinientes)

· Variables en estudio: dependiente e independiente

· Variables intervinientes o confusoras

Variables en estudio: Son aquellas cuya relación pretendo estudiar, se las puede clasificar de acuerdo a la posición dentro de esa relación en:

· Una variable independiente-explicativa-predictora (x): es aquella que, dentro de la relación establecida, no depende de ninguna otra, aunque pudiera estar dependiente si estudiáramos otro problema. Son las condiciones manipuladas por el investigador a fin de producir ciertos efectos, cuyos atributos se supone que influyen en los que adopta una segunda variable (la dependiente). Figuran en las hipótesis de la investigación e indican posibles causas de la variación de la variable en que se centra el interés de la indagación.

· Una variable dependiente-explicada- predicha (y): variable cuyo atributo depende de los valores que adopte la variable independiente. Por ejemplo, si el investigador sostiene la hipótesis de que si administra una determinada droga a un grupo de niños, el grado de aprendizaje determinará algún cambio biológico. En este caso, la variable independiente estará representada por la droga manipulada por el experimentador, y la variable dependiente será el grado del cambio biológico.

Variable interviniente o confusora: Cuando resulta un factor que interviene entre dos variables modificando o alterando con su propio contenido las relaciones que existen entre esos dos elementos.

Por ejemplo:

· Variable A: alimentación que se recibe en la infancia (variable independiente).

· Variable B: nivel de inteligencia posterior de la persona (variable dependiente).

· Variable C: nivel socio - económico (variable interviniente que influye a A).

Es normal que una variable no sólo afecte a otra más, sino a varias simultáneamente, así como que una variable dependiente sea influida por dos, tres o más variables independientes. Cuando existe una variable independiente no relacionada con el propósito del estudio, pero que puede presentar efectos sobre la variable dependiente, tenemos una variable extraña, confundente, interviniente o a controlar.

Por tal razón, un estudio bien diseñado es aquel que nos asegura que el efecto sobre la variable dependiente sólo puede atribuirse a la variable independiente y no a variables extrañas. La única manera de lograr este fin es conocer las variables intervinientes y controlarlas para demostrar que no afectan a esta relación

5.1.3 Tipos de variables según su nivel de abstracción

Variables simples: representan aspectos específicos de las dimensiones que comprende un concepto abstracto o variable genérica. Se distinguen por ser medibles. Ej. Cantidad de cursos académicos cumplidos como indicador para la dimensión “nivel educativo”

Variables complejas: aquellas que son tan genéricas y abstractas que no pueden ser directamente observadas. Su medición exige que se evalúen las diferentes dimensiones de la misma mediante variables simples. Consiste en un grupo de dimensiones o ítems que están combinados para dar una medida de un constructo multidimensional.

Ejemplos de variables complejas y sus diferentes dimensiones: el estado socioeconómico (p.ej., ocupación, ingresos, educación, barrio), apoyo social (p.ej: estado civil, número de familiares cercanos, número de amigos cercanos), comportamiento de riesgo sexual (número de compañeros, tipo de compañeros, uso de preservativos, etc).; necesidades básicas insatisfechas (NBI, hacinamiento. vivienda, ingreso, educación etc.)

Los ítems pueden tener ponderaciones diferentes, dependiendo de su importancia relativa y la escala en que fueron medidos. Puede ser que la ausencia o presencia de uno o varios ítems ya decidan el resultado como en NBI (necesidades básicas insatisfechas), o surgir de una sumatoria ponderada como Índice de Desarrollo Social, etc.

5.2 Consideraciones generales para la obtención de los datos

Cuando se organiza una escala de medición y se presentan las diferentes opciones debe recordarse que

Sus intervalos deben ser mutuamente excluyentes.

Cada dato recogido sólo puede pertenecer a una y sólo una de las categorías de la escala. Nunca se debe comenzar un intervalo con el mismo valor con que finaliza el anterior, porque aparecerán datos que pueden incluirse en cualquiera de ambos:

Edades:

a) De 5 a 10 años

b) De 10 a 20 años

c) De 20 a 25 años

d) de 25 a 30 años

Del mismo modo, deben evitarse las imprecisiones en la elección de posibilidades que no sean excluyentes. Por ejemplo si le pregunto a un encuestado ¿cuál de las siguiente músicas prefiere?

a) Música bailable

b) Música folclórica

c) Música clásica

d) Música moderna

No tiene categorías mutuamente excluyentes, pues hay música folclórica que es a la vez bailable, música moderna también es bailable, etc. y varias otras posibilidades. Otro ejemplo podría ser qué ejercicio realiza y que la escala incluyera varios deportes, o preguntarle qué fruta consume en su dieta. Una misma persona podría querer elegir más de una opción, tanto en la pregunta de ejercicios como en la de las frutas, y que la pregunta no indique ningún nivel de preferencia o de frecuencia de realización. En ese caso se le debe avisar que puede elegir más de una opción o

que elija la más le gusta o la que consume más frecuentemente.

Las escalas deben ser exhaustivas

Todos los ejemplos anteriores tenían además otro problema: que no presentaban todas las opciones posibles. En el caso de que resulte difícil construir una escala con todas las posibilidades, será preciso agregar la opción "otros" para resumir allí toda la información que no sea correcto ubicar en las restantes posiciones si se miden variables categóricas y la opción “mayor que” en el último valor citado, si se mide una variable continua.

6.- ORGANIZACIÓN DE LOS DATOS: MATRIZ DE DATOS

Conceptos Nuevos

· DATOS DIRECTOS Y ELABORADOS

· DATOS AGRUPADOS Y DERIVADOS

· CODIFICACIÓN

· MISSING O DATOS FALTANTES

· OUTLIERS

· DISTRIBUCIÓN MUESTRAL Y DISTRIBUCIÓN NORMAL

6.1 EXPLORACIÓN DE LOS DATOS

Mediante la operacionalización de la variable se aclara debidamente cómo se va a proceder para obtener los datos. Se indica qué característica va a obtenerse de cada unidad de análisis, cuáles serán los procedimientos y la escala de valores. Ej: variable cualitativa

Por ejemplo: si fuera una variable cuantitativa como peso, un dato podría ser 56 kilos, si fuera una variable ordinal como delgado, normal, sobrepeso, y obeso el dato podría ser obeso; si fuera una variable nominal como sexo, un dato podría ser sexo femenino.

6.2 VOLCADO DE DATOS

Para que los datos puedan ser analizados fácilmente, necesitamos organizarlos, de modo que podamos distinguir patrones y llegar a conclusiones lógicas. El primer paso es el volcado de datos o sea su pasaje a una matriz.

Habitualmente, la información primaria sobre los individuos, es decir, la forma más elemental en la que se expresan los datos es la de una matriz, en la que aparecen en la primera columna los individuos identificados de alguna manera (el nombre, las iniciales, el nº de historia Clínica, el n° de registro, etc.) y en las siguientes columnas las observaciones de los diferentes caracteres en estudio o variables para cada uno de las unidades de estudio tal y como aparecen en la tabla.

Ejemplo	Variables 1	variables 2	. . .	variables p
unidad 1	*	*	. . .	*
unidad 2	*	*	. . .	*
. . .	. . .	. . .	. . .	. . .
unidad n	*	*	. . .	*

Así, los datos correspondientes a una investigación llevada a cabo para el estudio de una posible contaminación radioactiva en un determinado lugar produjeron como resultado la matriz de datos, en donde se recogen las observaciones de los caracteres "edad", "sexo", "cáncer", "caída anormal del cabello" y "profesión" en los 100 individuos seleccionados en la muestra.

	edad	sexo	cáncer	caída cabello	profesión
unidad 1	32	masculino	no	poco	agricultor
unidad 2	29	femenino	no	no	maestra
. . .	. . .	. . .	. . .	. . .	. . .
unidad 100	61	masculino	si	mucho	agricultor

Para los datos cuantitativos simplemente se coloca dentro la matriz el número correspondiente, las unidades serán las mismas para todos los datos de esa variable, por lo cual no hace falta agregársela a cada uno Por ej: edad (años) = 32 o peso (kilos)= 80

Para los datos cualitativos se podría proceder como en la matriz anterior en el caso de sexo y profesión y caída de cabello, colocando simplemente la palabra que indica la información. Esto puede ser muy engorroso para el llenado de la matriz y además es muy común que se cometan errores y no se utilice exactamente el mismo término, con los cual luego serán analizados como si fueran datos diferentes. Estas razones hacen que lo más útil sea la codificación previamente los datos

Por ejemplo: sexo masculino = 1 y sexo femenino = 2

Consejos para el armado de una base de datos

· No deje líneas en blanco, ni líneas donde coloque algún título, los paquetes estadísticos no trabajan así.

· Revise el sistema si utiliza coma o puntos para los decimales, y escriba todos los datos de igual manera. Si luego va a transportar sus datos a un paquete estadístico use en su base la misma manera que el paquete utiliza

· Revise cómo escribe la fecha en el sistema español o americano. Fecha dd/mm/aa 25/05/1810 o mm/dd/aa 05/25/1810 y escriba todas las fechas de igual modo

· Utilice siempre las mismas unidades, todo en cm. o todo en metros, etc., etc.

· No ponga dos datos en la misma celda, cree una celda para cada uno. Sería un error colocar de esta manera la presión sanguínea 150/80. En este caso deberían armarse dos columnas, una que dijera presión diastólica y otra sistólica y en cada uno colocar el dato correspondiente.

Tanto se esté hablando de un dato primario recolectado por el investigador, como de un secundario extraído de otra investigación previa, éstos pueden utilizarse como datos directos o indirectos.

• Datos directos: Se recolectan de una manera simple cumpliendo con lo consignado en la operacionalización, no existen mayores supuestos en el proceso de recolección. Ej: peso

• Datos indirectos: Son obtenidos por medio de operaciones matemáticas a partir de los datos directos. Ej: IMC (se usan los datos simples de peso, talla); descenso de glucosa en sangre (a partir del análisis previo y el posterior); % de descenso de peso (a partir del peso previo y el posterior).

6.3 REVISIÓN DE DATOS

Datos agrupados: En ocasiones, en los datos cuantitativos que pueden tomar muchos valores, con objeto de facilitar la toma de los datos, el investigador podría agruparlos en intervalos. Puede ser que haya tomado los datos en forma precisa debido al proceso de medición. Por ejemplo, coloco marcas en la pared cada 10 cm. y tomo el dato rápidamente a una gran cantidad de alumnos, porque no me interesa mayor precisión. En caso de necesitar expresar todos los datos de un intervalo con un solo número, se utiliza la marca de clase o punto medio sea el valor medio entre los dos extremos del intervalo.

Datos derivados: Suponga que usted quiere obtener diferencia de peso luego de una dieta; para ellos deberá armar dos columnas una que diga peso anterior y otra que diga peso actual. Luego una tercera que llamará diferencia cuya información obtendrá luego de restar los datos de la segunda columna al de la primera. Siempre que esto sea posible no haga usted la cuenta hágala utilizando la misma base, que puede ser un Excel, así no habrá error, pero recuerde que ese será un dato derivado de las otras celdas. Eso tiene algo bueno, no bien cambie usted un dato en las otras columnas se cambiará en la tercera, pero no olvide este detalle, si usted, luego de hacer las cuentas decidiera borrar las columnas anteriores, se borraría también la tercera.

A pesar de los consejos anteriores es muy común cometer errores en el volcado de datos, por eso antes de comenzar a trabajar con los datos, se debe ser muy riguroso en su revisión. Los errores encontrados se pueden deber a un inadecuado registro de los datos en las planillas previas, y otras veces en el pasaje a la base de datos.

Se pueden evitar con acciones previas y / o posteriores

Prevención: Para evitar estos inconvenientes se puede actuar antes poniendo límites en la base, para que no acepte valores mayores que los posibles

Por ejemplo: no permitiendo que se acepten valores que excedan el valor máximo que puede tomar la variable. Por ejemplo, en los datos sobre edad no permitir que se coloque un valor que exceda las dos cifras

Posteriormente: De todas formas siempre se debe proceder a una limpieza de datos corroborando de acuerdo a conceptos lógicos de datos imposibles

Análisis vertical: Puede interesar tener conocimiento del comportamiento de una variable
Análisis horizontal: puede interesar conocer todas las características de un caso o registro. Denominado así al conjunto de mediciones realizadas sobre una unidad de observación.

Datos faltantes: A veces se encuentra que faltan todos los datos de una serie de casos, y en ese caso se podría pasar a la eliminación de todo el caso, mientras sean pocos casos y esto no impida la representatividad de la muestra. A veces se observa que existe muy poca información relevada sobre una variable secundaria en la investigación, lográndose un número muy pequeño de datos y el investigador decide eliminar toda la variable.

Datos outliers: datos muy alejados del resto de los valores

· Verificación visual:

A veces es muy útil simplemente mirar toda la base de datos y rápidamente corregir los errores muy llamativos que se observan, inclusive verificar si las celdas vacías se deben a datos faltantes en los registros o a un déficit en el volcado de datos.

· Verificación de rangos

La verificación de rango compara cada dato con un conjunto de valores permitidos y usuales para esa variable. La verificación de rango se usa para:

Detectar y corregir valores no válidos: por ejemplo si codifiqué sexo en valores 1 y 2 no puede aparecer el valor 11
Identificar e investigar valores inusuales: revisar datos de kilos muy altos o de alturas extremas.
Señalar valores atípicos o extremos (“outliers”) (aún si son correctos, su presencia puede influir sobre los métodos estadísticos a utilizar)
Verificar la lógica de las distribuciones y también apreciar sus formas, dado que esto también afectará la selección de procedimientos estadísticos

· Verificación de la consistencia

La verificación de la consistencia examina cada par (a veces más) de datos relacionados, en relación con el conjunto de valores habituales y permitidos de las variables como par. Por ejemplo, los hombres no pueden tener datos sobre número de abortos. Los estudiantes universitarios habitualmente tienen por lo menos 18 años aunque podría haber alguno menor excepcionalmente. La verificación de la consistencia se usa para:

1. Detectar y corregir las combinaciones no permitidas

2. Señalar e investigar combinaciones inusuales

3. Verificar la consistencia de los denominadores y valores “ausentes” y “no corresponde” (verificar que los patrones de salteado de llenado han sido cumplidos)

4. Verificar la lógica de las distribuciones conjuntas (p.ej., en los gráficos de puntos)

En situaciones en que se encuentran muchas respuestas inconsistentes, el enfoque que se utiliza para manejar la inconsistencia puede tener un impacto notorio sobre las estimaciones y puede alterar comparaciones entre grupos. Los autores deben describir las reglas de decisión utilizadas para manejar la inconsistencia y cómo los procedimientos afectan los resultados

Buscar este blog

Dra. Moratal Ibañez. Estadística. Universidad de Buenos Aires. Nutrición

2º CLASE TEÓRICA VIRTUAL: VARIABLES, POBLACIÓN Y MATRIZ