2º CLASE TEÓRICA VIRTUAL: VARIABLES, POBLACIÓN Y MATRIZ
4. OBTENCIÓN DE DATOS: POBLACIÓN Y MUESTRA
4.1 Población
El
concepto
de población
en estadística va más allá de lo que comúnmente se conoce como tal. Una
población es un conjunto finito o infinito de personas u objetos, que presentan
alguna característica en común (constante) y de la cual el investigador
quisiera conocer otras características
que difieren (variables) . Cada uno de los elementos que componen esta
población serán las unidades de análisis
o de estudio.
La
unidad de análisis o estudio se
refiere a cuáles o quiénes son los objetos de la investigación:
La unidades de observación, son las
personas o elementos que nos van a brindar la información requerida. Ambas
pueden coincidir en la misma persona. Por ej: Tengo interés en las personas con
sobrepeso y a ellas mismas les realizo las preguntas. Puede ser que sean
diferentes personas o elementos, por ejemplo si el tema es hablar sobre la
alimentación del niño, la unidad de
análisis serán los niños o sea de los cuales se va a hablar, pero puede ser
que esa información se obtenga de la madre que será la unidad de observación.
Población Blanco: es la población de la cual el investigador quiere hablar, cuyos
elementos comparten una característica en común. En el Censo Nacional, por
ejemplo, es el recuento de todos los elementos de la población argentina. La
característica en común es pertenecer a esta población argentina.
Población Accesible: muchas veces no se pueden obtener todas las unidades de la población
blanco, sobre todo en casos de poblaciones infinitas, como por ejemplo, los
diabéticos. Entonces se trabaja con la población
accesible, determinada por las
coordenadas de tiempo y espacio. Por ej: los pacientes diabéticos que se
hayan atendido en el Consultorio de Nutrición del Hospital de Clínicas
(coordenada espacial: dónde) durante el año 2018 (c. temporal: cuándo).
Muestra: inclusive esta población puede ser muy grande y sea muy costoso
investigarlas a todas. Se selecciona entonces una muestra representativa de la misma. Eligiendo esta muestra a partir
de la población accesible se puede tener una idea de lo que ocurre en la misma.
La exactitud de la información recolectada depende en gran manera de la forma
en que fue seleccionada la muestra. Las conclusiones que se obtengan de dicha muestra solo
podrán referirse a la población de
referencia de la cual se ha extraído la muestra, o sea se debe diferenciar
si se realizó a partir de la población blanco o de la accesible.
Las muestras se obtienen con la
intención de inferir propiedades de la totalidad de la población, para lo cual
deben ser representativas de la misma.
Para cumplir esta característica la inclusión de sujetos en la muestra, debe
seguir una técnica de muestreo estadístico. En tales
casos, se puede obtener una información casi similar al del estudio de toda la
población con mayor rapidez y menor costo.
El
número de sujetos que componen la muestra es inferior al de la población, pero debe
ser suficiente para que la estimación obtenida tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea adecuado es
preciso recurrir a su cálculo.
Las razones y ventajas para muestrear
una población, en lugar de estudiarla directamente, pueden ser:
· La población es muy grande (infinita o finita pero
demasiado grande) y por tanto, imposible
de analizar en su totalidad o se perdería mucho tiempo en saber el resultado.
·
Variación de la población: Las características de la
población varían si el estudio se prolonga demasiado tiempo.
· Reducción de costos: al estudiar una pequeña
parte de la población, los gastos de recolección y tratamiento de los datos
serán menores que si los obtenemos del total de la población.
· Rapidez: al reducir el tiempo de recolección y tratamiento de los
datos, se consigue mayor rapidez.
·
Viabilidad: la elección de una muestra permite la realización de
estudios que sería imposible hacer sobre el total de la población.
·
La población es suficientemente homogénea respecto de la
característica medida, con lo cual resultaría inútil malgastar recursos en un
análisis exhaustivo
· El proceso de estudio es destructivo o es necesario
consumir un artículo para extraer la muestra (ejemplos: analizar un lote de
medicamentos y abrirlos todos).
4.1.1 Criterios de selección de una muestra
·
Criterios de inclusión: especifica las
cualidades de las unidades que entrarían. Ej. Adolescentes desnutridas
· Criterios de exclusión: se excluyen del grupo anterior algunos subgrupos, por no ser útiles a
los fines de la investigación o a los que sería riesgoso investigarlos. Ej.
Embarazadas
· Criterios de eliminación: (en investigaciones longitudinales), son problemas que surgen luego
de comenzada la investigación. Ej: embarazo que se inicia a posteriori de la
selección inicial, durante el período de estudio.
· Coordenadas témporo-espaciales: definen de esa población blanco, cuál es la población accesible sobre la que se va a muestrear. Se determina
tiempo y lugar de esa población accesible. Ej: durante el año 2017 en la Sala
de Pediatría del Hospital Argerich.
Una muestra debe ser representativa si va a ser usada
para estimar las características de la población. Los métodos para seleccionar
una muestra representativa son numerosos, dependiendo del tiempo, dinero y
habilidad disponibles para tomar una muestra y la naturaleza de los elementos
individuales de la población. Por lo tanto, se requiere un gran volumen para
incluir todos los tipos de métodos de muestreo. Los
elementos pueden ser seleccionados en forma probabilística y no probabilística.
4.2.1 Tipos de muestreo
Muestreo no probabilístico: A
veces, para estudios exploratorios, el muestreo probabilístico resulta
excesivamente costoso y se acude a estos métodos, aún siendo conscientes de que
con ellos es difícil realizar generalizaciones, pues no se tiene certeza de que
la muestra extraída sea representativa.
Muestreo probabilístico: Los
métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir,
aquellos en los que todos los individuos tienen la misma probabilidad de ser
elegidos para formar parte de una muestra. En una muestra probabilística la
selección de las muestras es objetiva basada en el azar y el error muestral cometido puede ser
medido e indicado mediante un intervalo hacia arriba o hacia debajo de la
medición obtenida.
Dentro
de los métodos de muestreo probabilísticos encontramos los siguientes tipos:
4.2.1.1 Muestreo aleatorio
simple
El
procedimiento es el siguiente: se asigna un número a cada individuo de la
población y a través de algún medio
mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números
aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos
sujetos como sea necesario para completar el tamaño de muestra requerido. Este
procedimiento, atractivo por su simpleza, tiene poca utilidad práctica cuando
la población que estamos manejando es muy grande. Cuando
una población es infinita, es obvio que la tarea de numerar cada elemento de la
población es imposible. Por lo tanto, ciertas modificaciones del muestreo
aleatorio simple son necesarias.
4.2.1.2 Muestreo aleatorio
sistemático
Este procedimiento exige, como el
anterior, numerar todos los elementos de la población, pero en lugar de extraer
n números aleatorios, solo se extrae uno.´
Para utilizar este tipo de muestreo:
1)
Se
calcula el valor de la constante que determinará el intervalo de selección a la
cual llamaremos k, de la siguiente
forma: k = N/n (donde N es el tamaño de la población y n es el número
de elementos de la muestra).
2)
Se
procede a seleccionar un número aleatorio, al que llamaremos i, que será el primer elemento de la
población a extraer para conformar la muestra o sea que será nuestro punto de
partida que se obtiene al azar entre los
valores 1 y k.
Ejemplo: se procede a elegir los
elementos (personas, documentos, historias clínicas, etc) a partir de un número
i ( elegido utilizando el azar) cada k
elementos.
Es decir que se toman los individuos de k en k, siendo k el resultado
en % del tamaño de la población y del tamaño de la muestra.
Se interpreta como si se dividiera a la población en k conjuntos y de
cada uno de ellos se extrajera un elemento. Ese elemento se erigirá en base al
número i que se emplea como punto de partida y se obtiene al azar entre los
valores 1 y k.
Por ejemplo: mi población es de 37 elementos
(N) y quiero obtener una muestra de 5 elementos (n). Determino k: 37/ 5 =7 y
restan 2. Quedarían conformados 5 grupos de 7 elementos cada uno y sobrarían 2
elementos. Elijo aleatoriamente un
número entre 1 y k, o sea en este caso entre 1 y 7, dado que ese número
indica cuál de esos 7 elementos de cada grupo voy a elegir. Por ejemplo, saco
el número i= 3, y entonces elijo el tercer elemento de cada grupo. La muestra
estaría conformada por los 5 elementos: 3, 10, 17, 24 y 31
1 2 3 4 5 6 7
i 3
8
9 10 11
12 13 14
i+k 3+7=10
15 16 17
18 19 20
21 i+2k 3+7+7= 17
22 23 24
25 26 27 28
i+3k 3+7+7+7= 24
29 30 31
32 33 34
35 i+4k 3+7+7+7+7= 31
36 37
4.2.1.3 Muestreo estratificado
Para obtener una muestra aleatoria estratificada, primero
se divide la población en grupos, llamados estratos, que son más homogéneos que
la población como un todo. Los elementos de la muestra son entonces
seleccionados al azar o por un método sistemático de cada estrato. Las
estimaciones de la población, basadas en la muestra estratificada, usualmente
tienen mayor precisión (o menor error muestral) que si la población entera
muestreada mediante muestreo aleatorio simple. Lo que se pretende con este tipo de muestreo
es asegurarse de que todos los estratos de interés estarán representados
adecuadamente en la muestra. Exige un conocimiento detallado de la población. (Tamaño geográfico,
sexos, edades…).
La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos:
Afijación
simple: a cada estrato le corresponde igual número de elementos muestrales.
Afijación
proporcional: se toma una muestra de acuerdo con el tamaño de la población en
cada estrato.
4.2.1.4 Muestreo de conglomerados
En
el muestreo por conglomerados la unidad muestral es un grupo de elementos de
la población que forman una unidad, a la que llamamos conglomerado. Las
unidades hospitalarias, los departamentos universitarios, localidades, etc.,
son conglomerados naturales. Para obtener una muestra de conglomerados, primero
se divide a la población en grupos que son convenientes para el muestreo. A
veces se realiza un sorteo entre ellos y de los que salen sorteados, se
selecciona la muestra aleatoriamente.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo aleatorio simple. Esta debilidad puede ser reducida cuando se incrementa el tamaño de la muestra de área.
Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la de la población.
4.2.1.5 Muestreo polietápico
Para finalizar con los métodos de muestreo
probabilístico a veces, ante lo compleja que puede llegar a ser la situación
real de muestreo, es muy común emplear lo que se denomina muestreo
polietápico. Este tipo de muestreo se caracteriza por operar en sucesivas
etapas, empleando en cada una de ellas el método de muestreo probabilístico más
adecuado. Por ejemplo si se desea tomar
una muestra probabilística de la población argentina no parece razonable usar a
cada individuo como unidad de muestreo. La unidad de muestreo en la primera
etapa podrían ser cada provincia, se hace una lista y se realiza un primer
sorteo para la selección. En una segunda etapa se distingue la población rural
de la urbana, subdividiendo en fracciones (diferentes superficies con densidad
de población semejante). Otra vez se sortea para elegir, y se continúa con otra
división en radios dentro de las fracciones, segmentos dentro de radios, y así
sucesivamente, hasta quedar delimitadas unidades muy pequeñas
Muchas veces, equivocadamente se cree que es lo mismo elegir “a dedo” a
los integrantes de la muestra porque el investigador no tiene preferencias por
alguno de ellos, y por lo tanto elegirá a cualquiera. No siempre es así. Por
ejemplo, hay que sacar una rata de una jaula que contiene muchas de ellas, abrir
la jaula y tomar una sin más. Pero no es verdad que cualquiera tuviera la misma
probabilidad de de ser atrapada, en realidad se toma a la que se deja atrapar, quizás
por no ser tan veloz para escapar, ya sea por estar enferma, o por estar más
pesada como para reaccionar ágilmente. Algo similar podría pasar con otros
elementos.
4.2.2 ERROR MUESTRAL
Parámetro: es una medida usada para describir alguna característica de una
población, tal como una media poblacional: µ ( se utilizan letras
griegas como símbolo representativo)
Estadístico: un estadístico o estimador
es una medida usada para describir alguna característica de una muestra, tal
como una media muestral: X (se utilizan letras latinas)
La
diferencia entre el valor del estimador muestral y el parámetro poblacional de
la población
se
llama el error muestral o error de
muestreo. Muestra con qué probabilidad una estimación basada en una muestra se
aleja del valor que se hubiera obtenido por medio de una medición poblacional
completa.
A
mayor tamaño de la muestra menor error muestral
A
menor dispersión de los datos de la muestra menor error muestral
El
proceso de inferencia estadística puede ser
descrito como el proceso de estimar un parámetro a partir del
estadístico correspondiente, tal como usar una media que se determinó en una
muestra (un estadístico) para estimar la verdadera media de la población (un
parámetro). µ=X+ error muestral.
Medida Símbolo
para el estadístico Símbolo para el parámetro
(Muestra) (Población)
Media X µ
Desviación estándar s s
Número de elementos n N
Proporción p P
(Muestra) (Población)
Media X µ
Desviación estándar s s
Número de elementos n N
Proporción p P
5. OBTENCIÓN DE LOS DATOS: VARIABLES Y ESCALAS
Conceptos Nuevos
· VARIABLE DE ESTUDIO
· VARIABLE
INDEPENDIENTE-EXPLICATIVA-PREDICTORA
· VARIABLE
DEPENDIENTE-EXPLICADA- PREDICHA
· VARIABLE
INTERVINIENTE O CONFUSORA
· VARIABLES
INDIFERENTES
· VARIABLES SIMPLES
· VARIABLES COMPLEJAS
· ESCALAS DE MEDICIÓN
5.1 Clasificación de las
variables
Una
variable es cualquier característica o cualidad de la realidad que es
susceptible de asumir diferentes valores, ya sea cuantitativa o
cualitativamente. Es decir, que puede variar. Por ejemplo: una persona; no
puede ser, en sí, una variable. Pero, si nos referimos a la talla o peso,
estamos en presencia de una variable. O sea, que esa cualidad de la persona, la
puede asumir diferentes valores, en caso contrario sería una constante.
Se pueden
clasificar teniendo en cuenta:
El nivel y escala de
medición
·
Variables cualitativas o no numéricas o categóricas
·
Variables cuantitativas o numéricas
Su función
en el problema de investigación
·
Variables de estudio: dependiente e
independiente
·
Variables intervinientes o confusoras
·
Variables indiferentes
Según su nivel de
abstracción
·
Variables
simples
·
Variables
complejas
5.1.1 Según
la Escala de Medición
La humanidad,
históricamente, ha acompañado la necesidad de cuantificación de lo continuo a
través de ir estableciendo unidades de medida. Un instrumento de medición puede
ser una balanza, un centímetro, etc. pero también puede ser un cuestionario, un
test, un examen. Existen conceptos abstractos que son muy difíciles de medir,
en ese caso podría decirse que medir es “el
proceso de vincular conceptos abstractos con indicadores empíricos”
La
idea de medición, de medida, es intrínsecamente comparativa. Medir algo, en el
caso más sencillo, es determinar cuántas veces una cierta unidad o patrón de
medida cabe en el objeto medido. Para medir la longitud de un objeto físico,
desplazamos una regla graduada sobre el mismo, observando cuántas unidades (en
este caso, centímetros o metros) abarca ese objeto. Es decir, comparamos el
objeto con nuestro patrón de medición, el cual es elegido por consenso,
para determinar cuántas unidades y fracciones del mismo incluye.
Se
considera un error de medición a
la diferencia existente entre el valor obtenido al medir una variable con
relación a su valor real y objetivo.
La
dificultad en la medición de variables no físicas reside en que las variables
de este tipo no pueden medirse con escalas tan sencillas como las lineales y en
que, por otra parte, no existen para su comparación patrones de medida
universalmente definidos y aceptados. Como vimos, si deseamos medir el peso de
un objeto, podremos expresar el valor del mismo en kilogramos o libras. En
cambio, para medir el grado de satisfacción de un paciente, no existe ni una
unidad ni una escala generalmente reconocidas. Medir un concepto complejo
implica realizar una serie de operaciones: será necesario definir las
dimensiones que integran las variables, encontrar diversos indicadores que la
reflejen y construir luego una escala apropiada para el caso.
Las cualidades que deben tener un patrón o
unidad de medida son
1º.- Ser
inalterable, no debe cambiar con el tiempo ni en función de quién realice la
medida.
2º.- Ser universal,
es decir utilizada por todos los países.
3º.- Ha de ser
fácilmente reproducible.
El Sistema Internacional de Unidades, vigente en la mayoría de
los países, considera sólo siete magnitudes fundamentales, a partir de las
cuales se pueden derivar todas las restantes magnitudes. Las magnitudes
fundamentales del Sistema Internacional de Unidades son longitud (metro); masa
(kilogramo), tiempo (segundo), temperatura (Kelvin), cantidad de sustancia
(mol), intensidad de la corriente (ampere) e intensidad de la luz (bujía o
candela).
Para medir una
variable se establece una escala de medida, que es un patrón convencional de
medición, y básicamente consiste en un instrumento capaz de representar con
gran fidelidad verbal, gráfica o simbólicamente el estado de una variable.
En el caso de la
medición de una variable no física, puede decirse que una escala sería
un continuo de valores ordenados correlativamente, que admite un punto inicial
y otro final. Si evaluamos el rendimiento académico de estudiantes,
podemos asignar el valor cero al mínimo rendimiento imaginable al respecto. Al
mayor rendimiento posible podemos atribuirle un valor 100 o 10 puntos, según
resulte más práctico. Con estos dos valores tendríamos ya marcados los límites
de nuestra escala. Para concluir de confeccionarla, será necesario asignar a
los posibles rendimientos intermedios puntajes también intermedios. Con ello
obtendremos una escala capaz de medir la variable rendimiento académico a
través de los indicadores concretos de los trabajos de los estudiantes.`
5.1.1.1 Cualitativas o Categóricas
Variables nominales
Son aquellas en que
sólo se manifiesta una equivalencia de categorías entre los diferentes puntos
que asume la variable. Es como una simple lista de los diferentes valores que
puede adoptar la variable, pero sin que en ella se defina algún tipo de orden o
relación. Entre estos valores, no cabe obviamente ninguna jerarquía, ni
ordenamiento. Se dividen en dicotómica cuando solo tienen dos valores
antagónicos. La escala dicotómica:
tiene 2 valores antagónicos (si\no, vivo\muerto, sano\enfermo). La escala es politómica cuando tienen varios
valores: ej: grupo sanguíneo A, B, AB, O.
Variables ordinales
Distinguen los
diferentes valores de la variable jerarquizándolos simplemente de acuerdo con
un rango. Establecen que existe una gradación entre uno y otro valor de la
escala, de tal modo que cualquiera de ellos es mayor que el precedente y menor
que el que le sigue a continuación. Sin embargo, la distancia entre un valor y
otro no queda definida sino que es indeterminada. En otras palabras, tales
escalas nos esclarecen solamente el rango que las distintas posiciones guardan
entre sí. Un ejemplo de escala ordinal es el que suele usarse para medir la
variable "grado de escolaridad": podemos decir que una persona que ha
tenido 2 años de instrucción escolar, ha recibido más instrucción que quien
sólo tiene un año, y menos que quien posee 3. Sin embargo, no puede afirmarse válidamente
que la diferencia entre quien posee 2 años de instrucción y quien ha recibido 1
año es igual a la diferencia entre quienes han recibido 16 y 17 años de
educación formal.
5.1.1.2 Variables Cuantitativas
Las variables
cuantitativas se pueden clasificar en dos grupos
Variable discreta
Si la variable medida es susceptible a ser contada,
se puede construir una escala discreta, formada por números ENTEROS con
incrementos fijos, donde las fracciones no son consideradas: se cuenta en
número de casos o elemento. Por ejemplo el número de asistentes, las camas ocupadas, los platos de comidas
servidos.
Variable continua
La variable puede tomar todos los valores posibles
intermedios de la escala (fraccionados, porcentuales y/o decimales) siendo esta
medición siempre aproximada. Por ejemplo: peso, tiempo, etc.
Variables Cuantitativas
|
|
Escala Continuas
Ej. Presión
arterial, peso, talla,
|
Escala Discretas
Ej. Número de
hijos, episodios de infección urinaria en el año
|
Variables Cualitativas
|
|
Escala Ordinales
Ej. Gravedad de una
enfermedad (leve/moderado/grave)
|
Escala Nominales
-Dicotómicas: Ej. vivo/muerto, si/ no
-Politómicas: Ej. Grupo sanguíneo, raza |
5.1.2 Tipos de variables según su función en la
investigación
Si organizamos las variables que vamos a
medir y observamos las relaciones entre ellas podemos construir un esquema coherente que exprese el
cuadro general del problema. Y dividirla primeramente en dos grandes grupos;
las que nos interesa saber qué clase de relación existe entre ellas (variables
de estudio) y las que podrían estar involucradas en las variaciones de ellas
(variables intervinientes)
·
Variables en estudio: dependiente e independiente
·
Variables intervinientes o confusoras
Variables en estudio: Son aquellas cuya relación pretendo estudiar, se las puede clasificar
de acuerdo a la posición dentro de esa relación en:
· Una variable independiente-explicativa-predictora (x): es
aquella que, dentro de la relación establecida, no depende de ninguna otra,
aunque pudiera estar dependiente si estudiáramos otro problema. Son las
condiciones manipuladas por el investigador a fin de producir ciertos efectos, cuyos atributos se supone que
influyen en los que adopta una segunda variable (la dependiente). Figuran en
las hipótesis de la investigación e indican posibles causas de la variación de
la variable en que se centra el interés de la indagación.
·
Una
variable dependiente-explicada- predicha (y): variable cuyo atributo depende de los valores
que adopte la variable independiente. Por ejemplo, si el investigador sostiene la hipótesis de que si
administra una determinada droga a un grupo de niños, el grado de aprendizaje
determinará algún cambio biológico. En este caso, la variable independiente
estará representada por la droga manipulada por el experimentador, y la
variable dependiente será el grado del cambio biológico.
Variable interviniente o confusora: Cuando resulta un factor que
interviene entre dos variables modificando o alterando con su propio contenido
las relaciones que existen entre esos dos elementos.
Por ejemplo:
Por ejemplo:
· Variable A: alimentación que se
recibe en la infancia (variable independiente).
· Variable B: nivel de inteligencia
posterior de la persona (variable dependiente).
·
Variable C: nivel socio -
económico (variable interviniente que influye a A).
Es normal que una variable no sólo afecte a
otra más, sino a varias simultáneamente, así como que una variable dependiente
sea influida por dos, tres o más variables independientes. Cuando existe una
variable independiente no relacionada con el propósito del estudio, pero que
puede presentar efectos sobre la variable dependiente, tenemos una variable
extraña, confundente, interviniente o a controlar.
Por tal razón, un estudio bien diseñado es
aquel que nos asegura que el efecto sobre la variable dependiente sólo puede
atribuirse a la variable independiente y no a variables extrañas. La única
manera de lograr este fin es conocer las variables intervinientes y
controlarlas para demostrar que no afectan a esta relación
5.1.3 Tipos de variables según su nivel de
abstracción
Variables
simples:
representan aspectos específicos de las dimensiones que comprende un concepto
abstracto o variable genérica. Se distinguen por ser medibles. Ej. Cantidad de
cursos académicos cumplidos como indicador para la dimensión “nivel educativo”
Variables complejas: aquellas que son tan genéricas y abstractas que no pueden ser directamente observadas. Su medición exige que se evalúen las diferentes dimensiones de la misma mediante variables simples. Consiste en un grupo de dimensiones o ítems que están combinados para dar una medida de un constructo multidimensional.
Ejemplos de variables
complejas y sus diferentes dimensiones: el estado
socioeconómico (p.ej., ocupación, ingresos, educación, barrio), apoyo social (p.ej: estado civil,
número de familiares cercanos, número de amigos cercanos), comportamiento de riesgo sexual (número de compañeros, tipo de
compañeros, uso de preservativos, etc).; necesidades
básicas insatisfechas (NBI, hacinamiento. vivienda, ingreso, educación
etc.)
Los ítems pueden
tener ponderaciones diferentes, dependiendo de su importancia relativa y la
escala en que fueron medidos. Puede ser que la ausencia o presencia de uno o
varios ítems ya decidan el resultado como en NBI (necesidades básicas insatisfechas), o surgir de una sumatoria
ponderada como Índice de Desarrollo Social,
etc.
5.2 Consideraciones generales para la obtención de los datos
Cuando se organiza
una escala de medición y se presentan las diferentes opciones debe recordarse
que
Sus intervalos deben ser mutuamente excluyentes.
Cada dato recogido
sólo puede pertenecer a una y sólo una de las categorías de la escala. Nunca se
debe comenzar un intervalo con el mismo valor con que finaliza el anterior,
porque aparecerán datos que pueden incluirse en cualquiera de ambos:
Edades:
a)
De 5 a 10 años
b)
De 10 a 20 años
c)
De 20 a 25 años
d)
de 25 a 30 años
Del mismo modo,
deben evitarse las imprecisiones en la elección de posibilidades que no sean
excluyentes. Por ejemplo si le pregunto a un encuestado ¿cuál de las siguiente
músicas prefiere?
a)
Música bailable
b)
Música folclórica
c)
Música clásica
d)
Música moderna
No tiene categorías
mutuamente excluyentes, pues hay música folclórica que es a la vez bailable,
música moderna también es bailable, etc. y varias otras posibilidades. Otro
ejemplo podría ser qué ejercicio realiza y que la escala incluyera varios
deportes, o preguntarle qué fruta consume en su dieta. Una misma persona podría
querer elegir más de una opción, tanto en la pregunta de ejercicios como en la
de las frutas, y que la pregunta no indique ningún nivel de preferencia o de
frecuencia de realización. En ese caso se le debe avisar que puede elegir más
de una opción o
que elija la más le
gusta o la que consume más frecuentemente.
Las
escalas deben ser exhaustivas
Todos los ejemplos
anteriores tenían además otro problema: que no presentaban todas las opciones
posibles. En el caso de que resulte difícil construir una escala con todas las
posibilidades, será preciso agregar la opción "otros" para resumir
allí toda la información que no sea correcto ubicar en las restantes posiciones
si se miden variables categóricas y la opción “mayor que” en el último valor
citado, si se mide una variable continua.
6.- ORGANIZACIÓN DE LOS
DATOS: MATRIZ DE DATOS
Conceptos
Nuevos
· DATOS DIRECTOS Y
ELABORADOS
· DATOS AGRUPADOS Y
DERIVADOS
· CODIFICACIÓN
· MISSING O DATOS
FALTANTES
· OUTLIERS
· DISTRIBUCIÓN MUESTRAL
Y DISTRIBUCIÓN NORMAL
6.1 EXPLORACIÓN
DE LOS DATOS
Mediante la operacionalización de la variable
se aclara debidamente cómo se va a proceder para obtener los datos. Se indica
qué característica va a obtenerse de cada unidad de análisis, cuáles serán los
procedimientos y la escala de valores. Ej: variable cualitativa
Por ejemplo: si fuera una variable
cuantitativa como peso, un dato podría ser 56 kilos, si fuera una variable ordinal como delgado,
normal, sobrepeso, y obeso el dato podría ser obeso; si fuera una variable
nominal como sexo, un dato podría
ser sexo femenino.
6.2 VOLCADO DE DATOS
Para que los datos puedan ser analizados
fácilmente, necesitamos organizarlos, de modo que podamos distinguir patrones y
llegar a conclusiones lógicas. El primer paso es el volcado de datos o sea su
pasaje a una matriz.
Habitualmente, la información primaria sobre
los individuos, es decir, la forma más elemental en la que se expresan los datos
es la de una matriz, en la que aparecen en la primera columna los individuos
identificados de alguna manera (el nombre, las iniciales, el nº de historia
Clínica, el n° de registro, etc.) y en las siguientes columnas las
observaciones de los diferentes caracteres en estudio o variables para cada uno
de las unidades de estudio tal y como aparecen en la tabla.
Ejemplo
|
Variables 1
|
variables 2
|
. . .
|
variables p
|
unidad 1
|
*
|
*
|
. . .
|
*
|
unidad 2
|
*
|
*
|
. . .
|
*
|
. . .
|
. . .
|
. . .
|
. . .
|
. . .
|
unidad n
|
*
|
*
|
. . .
|
*
|
Así, los datos correspondientes a una investigación llevada a cabo para el estudio de una posible contaminación radioactiva en un determinado lugar produjeron como resultado la matriz de datos, en donde se recogen las observaciones de los caracteres "edad", "sexo", "cáncer", "caída anormal del cabello" y "profesión" en los 100 individuos seleccionados en la muestra.
edad
|
sexo
|
cáncer
|
caída
cabello
|
profesión
|
|
unidad 1
|
32
|
masculino
|
no
|
poco
|
agricultor
|
unidad 2
|
29
|
femenino
|
no
|
no
|
maestra
|
. . .
|
. . .
|
. . .
|
. . .
|
. . .
|
. . .
|
unidad 100
|
61
|
masculino
|
si
|
mucho
|
agricultor
|
Para los datos cuantitativos simplemente se coloca dentro la matriz el número correspondiente, las unidades serán las mismas para todos los datos de esa variable, por lo cual no hace falta agregársela a cada uno Por ej: edad (años) = 32 o peso (kilos)= 80
Para los datos
cualitativos se podría proceder como en la matriz anterior en el caso de
sexo y profesión y caída de cabello,
colocando simplemente la palabra que indica la información. Esto puede ser muy
engorroso para el llenado de la matriz y además es muy común que se cometan
errores y no se utilice exactamente el mismo término, con los cual luego serán
analizados como si fueran datos diferentes. Estas razones hacen que lo más útil
sea la codificación previamente los datos
Por ejemplo: sexo masculino = 1
y sexo femenino = 2
Consejos para el armado de una base de datos
·
No deje líneas en blanco, ni
líneas donde coloque algún título, los paquetes estadísticos no trabajan así.
· Revise el sistema si utiliza coma
o puntos para los decimales, y escriba todos los datos de igual manera. Si
luego va a transportar sus datos a un paquete estadístico use en su base la
misma manera que el paquete utiliza
· Revise cómo escribe la fecha en el
sistema español o americano. Fecha dd/mm/aa 25/05/1810 o mm/dd/aa 05/25/1810 y
escriba todas las fechas de igual modo
·
Utilice siempre las mismas
unidades, todo en cm. o todo en metros, etc., etc.
·
No ponga dos datos en la misma
celda, cree una celda para cada uno. Sería un error colocar de esta manera la
presión sanguínea 150/80. En este caso deberían armarse dos columnas, una que
dijera presión diastólica y otra sistólica y en cada uno colocar el dato
correspondiente.
Tanto se esté hablando de un dato primario recolectado por el
investigador, como de un secundario extraído de otra investigación previa,
éstos pueden utilizarse como datos directos o indirectos.
• Datos directos: Se recolectan de una manera simple cumpliendo con lo consignado
en la operacionalización, no existen mayores supuestos en el proceso de
recolección. Ej: peso
• Datos indirectos: Son obtenidos por medio de operaciones matemáticas a
partir de los datos directos. Ej: IMC (se usan los datos simples de peso, talla);
descenso de glucosa en sangre (a partir del análisis previo y el posterior); % de
descenso de peso (a partir del peso previo y el posterior).
6.3 REVISIÓN DE DATOS
Datos
agrupados: En ocasiones, en los datos cuantitativos
que pueden tomar muchos valores, con objeto de facilitar la toma de los datos,
el investigador podría agruparlos en intervalos. Puede ser que haya tomado los
datos en forma precisa debido al proceso de medición. Por ejemplo, coloco
marcas en la pared cada 10 cm. y tomo el dato rápidamente a una gran cantidad
de alumnos, porque no me interesa mayor precisión. En caso de necesitar
expresar todos los datos de un intervalo con un solo número, se utiliza la marca de clase o punto medio sea el valor
medio entre los dos extremos del intervalo.
Datos derivados: Suponga que
usted quiere obtener diferencia de peso luego de una dieta; para ellos deberá
armar dos columnas una que diga peso anterior y otra que diga peso actual.
Luego una tercera que llamará diferencia cuya información obtendrá luego de
restar los datos de la segunda columna al de la primera. Siempre que esto sea
posible no haga usted la cuenta hágala utilizando la misma base, que puede ser
un Excel, así no habrá error, pero recuerde que ese será un dato derivado de
las otras celdas. Eso tiene algo bueno, no bien cambie usted un dato en las
otras columnas se cambiará en la tercera, pero no olvide este detalle, si
usted, luego de hacer las cuentas decidiera borrar las columnas anteriores, se
borraría también la tercera.
A pesar de los consejos anteriores es muy
común cometer errores en el volcado de datos, por eso antes de comenzar a
trabajar con los datos, se debe ser muy riguroso en su revisión. Los errores encontrados se pueden deber a un
inadecuado registro de los datos en las planillas previas, y otras veces en
el pasaje a la base de datos.
Se pueden evitar con acciones previas y / o
posteriores
Prevención: Para evitar estos
inconvenientes se puede actuar antes poniendo límites en la base, para que no
acepte valores mayores que los posibles
Por ejemplo: no permitiendo que se acepten
valores que excedan el valor máximo que puede tomar la variable. Por ejemplo,
en los datos sobre edad no permitir que se coloque un valor que exceda las dos
cifras
Posteriormente: De todas formas siempre se debe proceder a
una limpieza de datos corroborando de acuerdo a conceptos lógicos de datos
imposibles
- Análisis
vertical: Puede interesar tener conocimiento del comportamiento de una
variable
- Análisis
horizontal: puede interesar conocer todas las características de un caso o
registro. Denominado así al conjunto de mediciones realizadas sobre una
unidad de observación.
Datos faltantes: A veces se encuentra
que faltan todos los datos de una serie de casos, y en ese caso se podría pasar
a la eliminación de todo el caso, mientras sean pocos casos y esto no impida la
representatividad de la muestra. A veces se observa que existe muy poca
información relevada sobre una variable secundaria en la investigación,
lográndose un número muy pequeño de datos y el investigador decide eliminar
toda la variable.
Datos outliers: datos muy alejados
del resto de los valores
·
Verificación visual:
A veces es muy útil simplemente mirar
toda la base de datos y rápidamente corregir los errores muy llamativos que se
observan, inclusive verificar si las celdas vacías se deben a datos faltantes
en los registros o a un déficit en el volcado de datos.
·
Verificación de rangos
La verificación
de rango compara cada dato con un conjunto de valores permitidos y usuales para
esa variable. La
verificación de rango se usa para:
- Detectar y
corregir valores no válidos: por ejemplo si codifiqué sexo en valores 1 y
2 no puede aparecer el valor 11
- Identificar e investigar valores
inusuales: revisar datos de kilos muy altos o de alturas extremas.
- Señalar valores atípicos o
extremos (“outliers”) (aún si son correctos, su presencia puede influir
sobre los métodos estadísticos a utilizar)
- Verificar la lógica de las
distribuciones y también apreciar sus formas, dado que esto también afectará
la selección de procedimientos estadísticos
· Verificación de la consistencia
La verificación de la consistencia
examina cada par (a veces más) de datos relacionados, en relación con el
conjunto de valores habituales y permitidos de las variables como par. Por ejemplo,
los hombres no pueden tener datos sobre número de abortos. Los estudiantes
universitarios habitualmente tienen por lo menos 18 años aunque podría haber
alguno menor excepcionalmente. La verificación de la consistencia se usa para:
1. Detectar y corregir las
combinaciones no permitidas
2. Señalar e investigar combinaciones
inusuales
3. Verificar la consistencia de los
denominadores y valores “ausentes” y “no corresponde” (verificar que los
patrones de salteado de llenado han sido cumplidos)
4. Verificar la lógica de las
distribuciones conjuntas (p.ej., en los gráficos de puntos)
En situaciones en que se encuentran
muchas respuestas inconsistentes, el enfoque que se utiliza para manejar la
inconsistencia puede tener un impacto notorio sobre las estimaciones y puede
alterar comparaciones entre grupos. Los autores deben describir las reglas de
decisión utilizadas para manejar la inconsistencia y cómo los procedimientos
afectan los resultados