Análisis clúster sobre unas 800 observaciones recogidas en una encuesta del CIS (inquietudes políticas y del marco internacional, 41 variables).
La decisión de la cantidad de clústeres con las que quedarse está fuertemente influenciada por la necesidad de interpretación sociológica de cada grupo, y la dificultad que supone esta cuando se trata de más de 4-5 grupos (por lo tedioso que es comentar y justificar cada salida del código para clasificar grupos).
Notas:
– Es mi tipo de análisis multivariante favorito
– Tuve que hacer el trabajo en 2 días en vez de en una semana porque me quedé sin tiempo, entonces faltaría pulir algún apartado, pero en general estoy satisfecha.
– El trabajo está desarrollado en el software estadístico SAS.
– En el tratamiento de los missing (.) de la variable ocupación, no he conseguido que el modelo lo tratara como una categoría aparte, pretendía sustituirla por un «no ocupa por jubilación» o algo del estilo (ya que todos los missing de la variable coinciden con los valores «jubilación» en la columna de situacion_laboral).
– Para comparar las V de Crámer de cada variable (digamos que es la puntuación de cómo de «decisivo» / «discriminante» es (aunque está mejor explicado en el archivo)) he usado una macro que calculaba varios estadísticos, sacaba la V de Crámer de cada una y las comparaba y «cortaba» con un proc sort / proc print (obs=10).