Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Construyendo Tests Psicológicos: Diez Pasos Esenciales, Apuntes de Psicología

trabajos de psicometria para psicologia

Tipo: Apuntes

2020/2021

Subido el 15/05/2021

johana-londono
johana-londono 🇨🇴

4 documentos

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
7
Los test son los instrumentos de medida más utilizados por los
psicólogos para obtener datos sobre la conducta de las personas. A
partir de esos datos los profesionales y los investigadores toman
decisiones que pueden tener serias repercusiones sobre la vida de
las personas evaluadas. Por tanto, es esencial que los test cumplan
unos estrictos estándares científi cos de rigor y calidad. Los test
no toman decisiones por su cuenta, son los psicólogos quienes las
toman, basándose en los datos obtenidos por este u otro proce-
dimiento. Una evaluación rigurosa es la base de un diagnóstico
preciso, que a su vez permita una intervención efi caz, basada en
evidencias empíricas.
El objetivo central del presente trabajo es presentar de forma
sintética los pasos generales que habría que seguir para construir
un instrumento de medida con garantías de calidad. No se trata
de una exposición exhaustiva, que excede las pretensiones de un
artículo como este, pero esperamos que permita al lector extraer
una idea cabal de cómo proceder si t uviese que desarrollar un nue-
vo test, escala o cuestionario. También se indican las referencias
especializadas que permitan a los lectores profundizar en temas
concretos. Tratamientos exhaustivos pueden verse en los trabajos
de Downing y Haladyna (2006), Schmeiser y Welch (2006), Ha-
ladyna y Rodríguez (2013), Lane, Raymond y Haladyna (2016),
e Irwing (2018), entre otros muchos. Aquí seguiremos en líneas
generales los trabajos previos de los autores sobre el tema (Muñiz,
2018; Muñiz y Fonseca-Pedrero, 2008, 2017), por lo que quere-
mos dejar constancia de nuestro agradecimiento a la Revist a de
Investigación en Educación, al Colegio Ofi cial de Psicólogos y a
la Editorial Pirámide.
La construcción de un instrumento de medida es un proceso
complejo que aquí vamos a sintetizar en diez pasos, si bien estos
no son universales, pudiendo variar en función del propósito del
instrumento de medida (selección, diagnóstico, intervención, etc.),
del modelo psicométrico utilizado (Teoría clásica, Teoría de Res-
puesta a los Ítems —TRI–), del tipo de respuesta exigida por los
ítems (selección, construcción), del formato de aplicación (lápiz y
papel, informatizado), o del contexto de evaluación (clínico, edu-
cativo, del trabajo y las organizaciones, etc.), por citar solo algu-
nos casos. Todo el proceso de construcción debe desarrollarse de
forma rigurosa y objetiva, siguiendo unos estándares de calidad,
para así maximizar la validez de las inferencias hechas a partir
de las puntuaciones obtenidas, así como la equidad en la prueba
de las personas evaluadas (Dorans y Cook 2016; Downing, 2006;
Lane, Raymond y Haladyna, 2016). Puede decirse que el proceso
ISSN 0214 - 9915 CODEN PSOTEG
Copyright © 2019 Psicothema
www.psicothema.com
Diez pasos para la construcción de un test
José Muñiz1 and Eduardo Fonseca-Pedrero2
1 Universidad de Oviedo and 2 Universidad de La Rioja. CIBERSAM
Resumen Abstract
Antecedentes: los test son los instru mentos de medida más utilizados
por los psicólogos para la obtención de muestras de comportamiento de
las personas, tanto en contextos profesionales como en investigación.
El objetivo del presente trabajo es sintetizar en diez pasos los aspectos
fundamenta les que hay que tener en cuenta a la hora de constru ir un test de
forma rigurosa. Método: para la elaboración de las diez fases propuestas
se rev isó la l it era tu ra p sic om étr ic a es pe cia li za da y se a ct ua liz ar on t ra baj os
previos de los autores sobre el tema. Resultados: se proponen diez pasos
para la construcción objetiva de un test: delimitación del marco general,
defi nicn de la variable a medir, especifi caciones, construcción de los
ítems, edición del test, estudio s piloto, selección de otros instrumentos de
medida, aplicación de la pr ueba, propiedades psicométricas y desarrollo
de la versión fi nal. Conclusión: siguiendo los diez pasos propuestos, se
pueden construir test objetivos con propiedades psicométricas adecuadas
apoyadas en evidencias empíricas.
Palabras clave: test, fi abilid ad, validez, constr ucción de test.
Ten steps for test development. Background: Tests are the measurement
instruments most used by psychologists to obtain d ata about people,
both in professional and research contexts. The main goal of this paper
is to synthesize in t en steps the fundamental aspects that must be ta ken
into account when build ing a test in a rigorous way. Method: For the
elaboration of the ten proposed phases, the specialized psychometr ic
literature was revised, and previous works by the authors on the
subject were updated. Re sults: Ten steps are proposed for the objective
development of a test: delimitation of the general framework, defi nition
of the variable to be mea sured, specifi cations, ite ms development, edition
of the test, pilot studies, selection of other measurement instruments, test
administ ration, psychometric properties, and development of the fi nal
version. Conclusion: Following the ten proposed steps, objective tests ca n
be developed with adequate psychometric properties based on empirical
evidence.
Keywords: Test, reliability, validity, test development.
Psicothema 2019, Vol. 31, No. 1, 7-16
doi: 10.7334/psicothema2018.291
Received: September 2, 2018 • Accepted: December 12, 2018
Corresponding author: Eduardo Fonseca-Pedrero
Facultad de Letras y de la Educación
Universidad de La Rioja. CIBERSAM
26004 Logroño (Spain)
e-mail: eduardo.fonseca@unirioja.es
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Construyendo Tests Psicológicos: Diez Pasos Esenciales y más Apuntes en PDF de Psicología solo en Docsity!

Los test son los instrumentos de medida más utilizados por los psicólogos para obtener datos sobre la conducta de las personas. A partir de esos datos los profesionales y los investigadores toman decisiones que pueden tener serias repercusiones sobre la vida de las personas evaluadas. Por tanto, es esencial que los test cumplan unos estrictos estándares científicos de rigor y calidad. Los test no toman decisiones por su cuenta, son los psicólogos quienes las toman, basándose en los datos obtenidos por este u otro proce- dimiento. Una evaluación rigurosa es la base de un diagnóstico preciso, que a su vez permita una intervención eficaz, basada en evidencias empíricas. El objetivo central del presente trabajo es presentar de forma sintética los pasos generales que habría que seguir para construir un instrumento de medida con garantías de calidad. No se trata de una exposición exhaustiva, que excede las pretensiones de un artículo como este, pero esperamos que permita al lector extraer una idea cabal de cómo proceder si tuviese que desarrollar un nue- vo test, escala o cuestionario. También se indican las referencias

especializadas que permitan a los lectores profundizar en temas concretos. Tratamientos exhaustivos pueden verse en los trabajos de Downing y Haladyna (2006), Schmeiser y Welch (2006), Ha- ladyna y Rodríguez (2013), Lane, Raymond y Haladyna (2016), e Irwing (2018), entre otros muchos. Aquí seguiremos en líneas generales los trabajos previos de los autores sobre el tema (Muñiz, 2018; Muñiz y Fonseca-Pedrero, 2008, 2017), por lo que quere- mos dejar constancia de nuestro agradecimiento a la Revista de Investigación en Educación , al Colegio Oficial de Psicólogos y a la Editorial Pirámide. La construcción de un instrumento de medida es un proceso complejo que aquí vamos a sintetizar en diez pasos, si bien estos no son universales, pudiendo variar en función del propósito del instrumento de medida (selección, diagnóstico, intervención, etc.), del modelo psicométrico utilizado (Teoría clásica, Teoría de Res- puesta a los Ítems —TRI–), del tipo de respuesta exigida por los ítems (selección, construcción), del formato de aplicación (lápiz y papel, informatizado), o del contexto de evaluación (clínico, edu- cativo, del trabajo y las organizaciones, etc.), por citar solo algu- nos casos. Todo el proceso de construcción debe desarrollarse de forma rigurosa y objetiva, siguiendo unos estándares de calidad, para así maximizar la validez de las inferencias hechas a partir de las puntuaciones obtenidas, así como la equidad en la prueba de las personas evaluadas (Dorans y Cook 2016; Downing, 2006; Lane, Raymond y Haladyna, 2016). Puede decirse que el proceso

ISSN 0214 - 9915 CODEN PSOTEG Copyright © 2019 Psicothema www.psicothema.com

Diez pasos para la construcción de un test

José Muñiz^1 and Eduardo Fonseca-Pedrero^2

(^1) Universidad de Oviedo and 2 Universidad de La Rioja. CIBERSAM

Resumen Abstract

Antecedentes: los test son los instrumentos de medida más utilizados por los psicólogos para la obtención de muestras de comportamiento de las personas, tanto en contextos profesionales como en investigación. El objetivo del presente trabajo es sintetizar en diez pasos los aspectos fundamentales que hay que tener en cuenta a la hora de construir un test de forma rigurosa. Método: para la elaboración de las diez fases propuestas se revisó la literatura psicométrica especializada y se actualizaron trabajos previos de los autores sobre el tema. Resultados: se proponen diez pasos para la construcción objetiva de un test: delimitación del marco general, definición de la variable a medir, especificaciones, construcción de los ítems, edición del test, estudios piloto, selección de otros instrumentos de medida, aplicación de la prueba, propiedades psicométricas y desarrollo de la versión final. Conclusión: siguiendo los diez pasos propuestos, se pueden construir test objetivos con propiedades psicométricas adecuadas apoyadas en evidencias empíricas.

Palabras clave: test, fiabilidad, validez, construcción de test.

Ten steps for test development. Background: Tests are the measurement instruments most used by psychologists to obtain data about people, both in professional and research contexts. The main goal of this paper is to synthesize in ten steps the fundamental aspects that must be taken into account when building a test in a rigorous way. Method: For the elaboration of the ten proposed phases, the specialized psychometric literature was revised, and previous works by the authors on the subject were updated. Results: Ten steps are proposed for the objective development of a test: delimitation of the general framework, definition of the variable to be measured, specifications, items development, edition of the test, pilot studies, selection of other measurement instruments, test administration, psychometric properties, and development of the final version. Conclusion: Following the ten proposed steps, objective tests can be developed with adequate psychometric properties based on empirical evidence. Keywords: Test, reliability, validity, test development.

Psicothema 2019, Vol. 31, No. 1, 7- doi: 10.7334/psicothema2018.

Received: September 2, 2018 • Accepted: December 12, 2018 Corresponding author: Eduardo Fonseca-Pedrero Facultad de Letras y de la Educación Universidad de La Rioja. CIBERSAM 26004 Logroño (Spain) e-mail: eduardo.fonseca@unirioja.es

José Muñiz y Eduardo Fonseca-Pedrero

de validación ya comienza a fraguarse incluso antes de la propia elaboración empírica del instrumento, pues todas las acciones que se realicen antes, durante y después permitirán recoger evidencias que ayuden a la interpretación de las puntuaciones y a la posterior toma de decisiones (Elosua, 2003; Kane, 2006; Leong et al., 2016; Markus y Borsboom, 2013; Martínez-Arias, 2018; Muñiz, 2004, 2018; Wells y Faulkner-Bond, 2016; Zumbo, 2007). En la tabla 1 se recogen de forma esquemática los diez pasos que se deben considerar en el proceso de construcción y valida- ción de un test. Este procedimiento a seguir en esencia recoge las recomendaciones de los últimos estándares de la American Edu- cational Research Association (AERA), la American Psycholo- gical Association (APA) y el National Council on Measurement in Education (NCME) (2014). Cierto es que otros autores como Downing (2006) y Lane et al. (2016) prefieren establecer doce pa- sos o fases; por supuesto, no existe un número mágico al respecto, lo esencial queda recogido en los diez propuestos. A continuación se comentan brevemente cada una de ellas.

Pasos para la construcción de un test

Marco general

Todo proceso de construcción de un instrumento de medida comienza por una explicación detallada y precisa de cuáles son las razones que motivan su desarrollo. Un nuevo instrumento no se construye porque sí, hay que justificarlo adecuadamente. Asi- mismo, hay que delimitar con claridad cuál es la variable objeto de medición, cuál va a ser el contexto de aplicación, las circuns- tancias en las que se va a aplicar el instrumento, el tipo de aplica- ción (individual, colectiva), el formato de administración (lápiz y papel, informática), y qué decisiones se van a tomar a partir de las puntuaciones (selección, diagnóstico, etc.). Las causas que pueden llevar a la construcción de un instrumento de medida son lógica- mente diversas, por ejemplo, un psicólogo puede decidir construir un test porque no existe ningún otro para medir una determinada variable, porque los instrumentos existentes presentan unas pun- tuaciones con propiedades psicométricas deficientes, porque no incorporan alguna faceta relevante para analizar dicha variable, o simplemente porque los existentes se han quedado obsoletos. Wil- son (2005) detalla y comenta las principales razones para generar nuevos instrumentos de medida. Los responsables de la construcción del instrumento de medida no solo deben especificar el motivo por el cual quieren desarrollar una nueva herramienta, sino también deben delimitar con claridad cuál es el contexto en el que se va a aplicar, lo que incluye nece- sariamente la población objeto de medición (pacientes, alumnos,

empresas, departamentos, etc.) y las circunstancias de aplicación (lugar, medios de los que se dispone y condiciones de aplicación, individual o colectiva). También debe especificarse de antema- no con qué propósito van a ser utilizadas las puntuaciones y qué decisiones se van a tomar a partir de ellas. En este sentido, las puntuaciones en un instrumento de evaluación pueden servir para propósitos varios, tales como seleccionar, diagnosticar, clasificar, orientar, evaluar un dominio específico, o incluso como método de cribado (AERA, APA y NCME, 2014). Se debe dejar claro que las inferencias que se extraigan de las puntuaciones de un instrumento de medida no son universales, son siempre para un uso, contexto y población determinados. Nótese que lo que puede ser válido para un grupo determinado de personas o población, tal vez no lo sea para otra, y lo que pueda ser válido en un contexto de evaluación, no tiene por qué serlo en otro diferente (Zumbo, 2007). En suma, un instrumento de medida vale para lo que vale y hay que explicitarlo de forma clara. Ello no es óbice para que una prueba desarrollada originalmente con una determinada finalidad se revele en el futuro, tras distintos procesos de validación, como buena predictora de otros aspectos inicialmente no contemplados. Los usos que se hagan de una prueba deben venir avalados por evidencias empíricas, como bien establece la Norma UNE-ISO 10667 (2013), relativa a la evaluación de personas en entornos laborales y organizacionales. Más aún, como indica nuestro có- digo deontológico en su artículo 17, el psicólogo tiene que estar profesionalmente preparado y especializado en la utilización de métodos, instrumentos, técnicas y procedimientos que adopte en su trabajo y debe reconocer los límites de su competencia y las limitaciones de sus técnicas.

Definición de la variable medida

El objetivo esencial de esta segunda fase es la definición opera- tiva, semántica y sintáctica de la variable medida (AERA, APA y NCME, 2014; Carretero y Pérez, 2005; Wilson, 2005). La variable evaluada debe definirse en términos operativos para que pueda ser medida de forma empírica (Muñiz, 2004). En este sentido, tan in- teresante puede ser definir cuidadosamente lo que es como lo que no es. La facilidad o dificultad de la definición operativa depende en cierta medida de la naturaleza de la variable objeto de medi- ción. Para llevar a cabo una definición operativa es clave realizar una revisión exhaustiva de la literatura publicada al respecto, así como la consulta a expertos (Clark y Watson, 1995; Wilson, 2005). Ello permite, por un lado, delimitar la variable objeto de medición y considerar todas las dimensiones relevantes de la misma y, por otro, identificar con claridad los comportamientos más represen- tativos de tal variable (Calero y Padilla, 2004; Smith, 2005). Hay que evitar dejar fuera alguna faceta o dominio relevante (infra- rrepresentación), así como ponderar en demasía una faceta o do- minio (sobrerrepresentación) de la variable (Smith et al., 2003). Asimismo, no se deben incorporar facetas, o ítems, que no tengan relación con la variable objeto de medición (varianza irrelevante). Por ejemplo, si se construye una herramienta para medir el Tras- torno por Déficit de Atención e Hiperactividad (TDAH), según los criterios del Manual diagnóstico y estadístico de los trastornos mentales-5 (DSM-5), no tendría sentido evaluar otros componen- tes con frecuencia asociados al TDAH como pudieran ser los pro- blemas emocionales. Una definición operativa y precisa de la variable influye de for- ma determinante en la posterior obtención de los diferentes tipos

Tabla 1 Fases del proceso de construcción de un test

1. Marco general 2. Definición de la variable medida 3. Especificaciones 4. Construcción de los ítems 5. Edición 6. Estudios piloto 7. Selección de otros instrumentos de medida 8. Aplicación del test 9. Propiedades psicométricas 10. Versión final del test

José Muñiz y Eduardo Fonseca-Pedrero

errores graves. Por ejemplificar esta cuestión, en un estudio con jóvenes realizado por nuestro equipo tuvimos que eliminar ítems ya que un porcentaje considerable no comprendía la palabra “su- perstición” o la expresión “junta de las baldosas”. Durante las fases iniciales de la construcción del banco de ítems se recomienda que el número de ítems inicial sea como mí- nimo el doble del que finalmente se considera que podrían formar parte de la versión final del instrumento de medida. La razón es bien sencilla: muchos de ellos por motivos diferentes (métricos, comprensibilidad, dificultad, etc.) se acabarán desechando, por lo que solo quedarán aquellos que ofrezcan mejores indicadores o garantías técnicas (sustantivas y métricas). Finalmente, para ga- rantizar la obtención de evidencias de validez basadas en el con- tenido de los ítems, se ha de recurrir a la consulta de expertos y a la revisión exhaustiva de las fuentes bibliográficas, así como a otros instrumentos similares ya existentes (Sireci, 1998b; Sireci y Faulkner-Bond, 2014). En relación con la valoración de los ítems por parte de los expertos y con la finalidad de una evaluación más precisa y objetiva del conjunto inicial de ítems, se puede pedir a los expertos que juzguen, a partir de un cuestionario, si los ítems están bien redactados para la población de interés, si son o no per- tinentes para evaluar una faceta o dominio determinado y si cada ítem representa de forma adecuada la variable o dimensión de in- terés. Tratamientos exhaustivos sobre el desarrollo y análisis de los ítems pueden verse en Osterlind (1998), Haladyna y Rodríguez (2013), o Lane et al. (2016). Existe una gran variedad de ítems que se pueden clasificar en distintas categorías en función de los criterios que se tengan en cuenta, tales como su contenido, el formato, o la forma de res- puesta exigida, bien sea seleccionar una respuesta entre las pre- sentadas, o desarrollarla (Downing, 2006; Haladyna y Rodríguez, 2013; Magno, 2009; Osterlind, 1998; Osterlind y Merz, 1994; Rauthmann, 2011; Sireci y Zenisky, 2006). Por ejemplo, Scalise y Gifford (2006) establecen siete tipos de ítems en función del for- mato de respuesta, que van desde la selección pura de la respuesta hasta la construcción completa, pasando por varias posibilidades intermedias. Por su parte, Sireci y Zenisky (2016) añaden todavía otros tipos de tareas. Se han propuesto diversas clasificaciones, tratando de sistematizar y organizar la gran cantidad de tipos de ítems existentes, si bien resultan útiles en la práctica, ninguna de ellas resulta totalmente satisfactoria desde un punto de vista teó- rico (Moreno, Martínez y Muñiz, 2018). Esta proliferación de los tipos de ítems se ha acentuado en los últimos años debido a las grandes posibilidades que ofrecen las tecnologías de la informa- ción y la comunicación, que están influyendo de forma clara en su formulación (Sireci y Zenisky, 2016). Según Parshall et al. (2010) habría siete dimensiones o aspectos de los ítems en los que se están produciendo las mayores inno- vaciones, debido a la irrupción de las nuevas tecnologías: a) es- tructura , con la aparición de nuevos formatos facilitados por las nuevas tecnologías y las facilidades que ofrecen las pantallas de los ordenadores para su implementación; b) complejidad , al in- cluirse en los ítems nuevos elementos que han de tenerse en cuenta para responder; c) fidelidad , referida a la posibilidad que ofrecen las tecnologías de la información para dar un mayor realismo a los ítems; d) interactividad , dado que el ítem puede reaccionar y mutar en función de las respuestas de las personas, volviéndose interactivo; e) multimedia , cuando se incluyen en los ítems medios técnicos como audio, vídeo, gráficos, animación, u otros; f) tipo de respuesta , habiendo una amplia gama de posibilidades del tipo de

tareas que los ítems demandan; y g) sistemas de puntuación , pu- diendo registrarse además de los clásicos aciertos y errores otros muchos parámetros, tales como tiempos, intentos, estrategias, etc. Un excelente trabajo sobre la influencia de los avances tecnológi- cos sobre los tests puede verse en Drasgow (2016) y para el tema específico de la generación automática de ítems el lector puede revisar el trabajo de Gierl y Haladyna (2013). Mención especial requieren los ítems tipo Likert, cuyo nombre proviene del trabajo original del autor (Likert, 1932), tan omnipre- sente en el ámbito de la medición de las actitudes, opiniones, pre- ferencias, creencias y otros campos afines. La popularidad de este formato proviene de su facilidad de aplicación y de su adaptación a cualquier ámbito de evaluación, de ahí que en la práctica se haya impuesto a otros modelos mejor fundados científicamente, pero de aplicación menos sencilla, como el de las comparaciones binarias de Thurstone (1927a, 1927b, 1928), entre otros. La literatura es abundante sobre su construcción y uso (Dillman et al., 2009; Ha- ladyna y Rodríguez, 2013; Krosnick y Presser, 2010; Suárez et al., 2018), pero excede los objetivos de este trabajo. Para una revisión, véase por ejemplo Muñiz (2018). También, cabe citar el formato tipo Ensayo, en el cual las per- sonas evaluadas deben generar la respuesta, en contraposición con los formatos selectivos, como los de elección múltiple. La gran ventaja de los formatos de construcción frente a los selectivos es que permiten una mayor libertad de expresión de la persona eva- luada, pudiendo apreciarse su capacidad de expresión, su creativi- dad, su estilo y organización, amén de su dominio del tema pro- puesto. Por estas razones, es un formato muy apreciado entre los educadores, que con cierta frecuencia lo prefieren a los formatos de elección, los cuales más que generar la propia respuesta exi- gen a la persona evaluada reconocer la alternativa correcta entre las propuestas. Pero todo tiene un precio y el de los formatos de desarrollo es la posible subjetividad a la hora de la corrección y puntuación, lo cual hay que evitar necesariamente, por razones obvias. Para evitar los sesgos es muy importante instruir y entre- nar de forma adecuada a los correctores, así como enseñarles a establecer unos criterios claros que les permitan una corrección más analítica y objetiva. Estos criterios de corrección, denomi- nados rúbricas, no solo permiten una mayor objetividad a la hora de corregir, sino que han de hacerse públicos para orientar a las personas evaluadas. Estas directrices o rúbricas no son la panacea, pero ayudan a objetivar la evaluación y a evitar sesgos y subjetivis- mos. El problema de la construcción y valoración de los ítems de ensayo está ampliamente tratado en la bibliografía psicométrica, pueden consultarse, por ejemplo, las directrices del Educational Testing Service (Baldwin et al., 2005; Livingston, 2009), el trabajo de Hogan y Murphy (2007) y un buen resumen en Haladyna y Rodríguez (2013). Tal vez la solución radical a la objetividad de la evaluación de los ensayos venga a través de una vigorosa línea actual de investigación psicométrica sobre la corrección automá- tica mediante programas de ordenador. Puede sorprender al lector la posibilidad de que un ensayo pueda ser corregido por un pro- grama informático, pero los avances en este campo son notables, existiendo ya programas con altas prestaciones (Livingston, 2009; Shermis y Burstein, 2013; Williamson et al., 2006, 2010).

Edición

En esta fase se compone y se imprime la primera versión del test, además de construir la base de datos con las claves de correc-

Diez pasos para la construcción de un test

ción. Este paso ha sido con frecuencia injustamente infraestima- do pese a que es esencial, pues el continente bien podría echar a perder el contenido. Buenos ítems pobremente editados dan como resultado un mal test. Podemos haber construido un buen banco de ítems que de nada servirá si luego se presentan de forma desor- ganizada, con errores tipográficos, o en un cuadernillo defectuoso. Uno de los errores más frecuentes entre los constructores de test aficionados es utilizar fotocopias malamente grapadas, con la ex- cusa de que solo se trata de una versión experimental de la prueba, olvidándose de que para las personas que las responden no existen pruebas experimentales, todas son definitivas. El aspecto físico de la prueba forma parte de su validez aparente. Es importante que el instrumento dé la impresión de medir de manera objetiva, rigurosa, fiable y válida la variable de interés, porque, entre otros aspectos, influye en un punto esencial presente en todo el proceso de evaluación: la motivación y actitud de las personas evaluadas. Por otra parte, en esta fase también se debe construir, si fuera el caso, la base de datos donde posteriormente se van a tabular las puntuaciones y a realizar los análisis estadísticos pertinentes, así como las normas de corrección y puntuación, por ejemplo, si exis- ten ítems que se deben recodificar, si se va a crear una puntuación total o varias puntaciones, etc.

Estudios piloto

La finalidad de cualquier estudio piloto es examinar el funcio- namiento general del instrumento de medida en una muestra de participantes con características semejantes a la población objeto de interés. Esta fase es de suma importancia ya que permite detec- tar, evitar y corregir posibles errores, así como llevar a cabo una primera comprobación del funcionamiento del test en el contexto aplicado. El estudio piloto podría verse como una representación en miniatura de lo que posteriormente va a ser el estudio de cam- po. Existen dos tipos fundamentales de estudio piloto: cualitativo y cuantitativo (Wilson, 2005). El estudio piloto cualitativo permite, a partir de grupos de discusión, debatir diferentes aspectos rela- cionados con el instrumento de medida, por ejemplo, la detección de errores semánticos o gramaticales, el grado de comprensibili- dad de los ítems, las posibles incongruencias semánticas, etc. Los participantes en este pilotaje pueden ser similares a la población objeto de medición. Por su parte, el estudio piloto cuantitativo per- mite examinar las propiedades métricas de la versión preliminar del instrumento de medida y ha de llevarse a cabo con personas similares a las que va dirigida la prueba. En ambos casos se deben anotar de forma detallada todas las posibles incidencias acaecidas durante la aplicación, como, por ejemplo, preguntas o sugerencias de los participantes, grado de comprensión de los ítems, así como posibles errores o problemas detectados en el instrumento. A continuación, una vez tabulados los datos, se procede a los análisis de la calidad psicométrica de los ítems. En función de criterios sustantivos y estadísticos (p.ej., índice de discriminación, cargas factoriales, funcionamiento diferencial del ítem, etc.), al- gunos ítems se mantienen, mientras que otros son descartados o modificados. Por ejemplo, en esta fase (al igual que en la fase no- vena de propiedades psicométricas) se puede examinar la estruc- tura dimensional que subyace a las puntuaciones del instrumento de medida y eliminar aquellos ítems con una carga factorial baja (usualmente inferior a 0,30) o que no se han ajustado al modelo factorial hipotetizado. Es importante que el constructor del instru-

mento de evaluación deje constancia de qué ítems fueron elimi- nados o modificados y por qué, además de explicitar con claridad el criterio (cualitativo o cuantitativo) por el cual se eliminaron. En este paso, si se considera conveniente, se pueden incorporar nuevos ítems. Todas las actividades deben ir destinadas a seleccio- nar los ítems con mayores garantías métricas que maximicen las propiedades finales del instrumento de evaluación. Finalmente, se debe construir una nueva versión del instrumento de medida que es revisada de nuevo por el grupo de expertos y que será la que en última instancia se administre en el estudio final de campo.

Selección de otros instrumentos de medida

La selección adecuada de otros instrumentos de evaluación per- mite recoger evidencias a favor de la validez de las puntuaciones de los participantes (Elosúa, 2003). Es interesante que no se pierda el norte, la finalidad última de todo proceso de construcción de instrumentos de medida es siempre obtener evidencias de validez. La selección adecuada de otras variables de interés permite aglu- tinar diferentes tipos de evidencias que conduzcan a una mejor interpretación de las puntuaciones en el instrumento de medida dentro de un contexto y uso particular. En este sentido, se pueden establecer relaciones con un criterio externo, con otros instru- mentos de medida que pretendan medir la misma variable u otras diferentes (lo que anteriormente se había denominado definición sintáctica). Las asociaciones entre las variables son la base para la obtención de evidencias de validez de relación con variables exter- nas, que permite la construcción de una red nomológica. La decisión de qué instrumentos se deben utilizar complemen- tariamente con el desarrollado viene afectada tanto por cuestiones sustantivas como pragmáticas, referidas a exigencias de tiempo y lugar y, cómo no, materiales como la posibilidad de acceso al test, cuestiones económicas, etc. Evidentemente, las exigencias mate- riales y temporales así como las razones éticas no permiten aplicar todos los instrumentos que quisiéramos, si bien aquí no se trata de pasar cuantos más mejor, sino de seleccionar aquellos de mayor calidad científica, a partir de los cuales se pueda profundizar en el significado de nuestras puntuaciones. Algunas recomendaciones prácticas en la selección de otros instrumentos de medida son: a) que se encuentren validados para la población objeto de interés y se conozcan las propiedades psicométricas de sus puntuaciones; b) que sean sencillos y de rápida aplicación; y c) que tengan coheren- cia sustantiva de cara a establecer relaciones entre las variables, dentro de su red nomológica.

Aplicación del test

En esta fase de estudio de campo se incluye la selección de la muestra (tipo, tamaño y procedimiento), la aplicación propiamente dicha del instrumento de medida a los participantes y el control de calidad y seguridad de la base de datos. La representatividad y generalizabilidad de los resultados depende en gran medida de que la muestra elegida sea realmente representativa de la pobla- ción objetivo de estudio. Elegir una muestra pertinente en cuanto a representatividad y tamaño es esencial, si se falla en esto todo lo demás va a quedar invalidado. El muestreo probabilístico siempre es preferible al no probabilístico, para la estimación del tamaño muestral requerido para un determinado error de medida ha de acudirse a los textos especializados, o consultar los expertos en la tecnología de muestreo. Aunque no hay recetas universales y

Diez pasos para la construcción de un test

Los desarrollos estadísticos y técnicos en este campo son no- tables, incorporándose cada vez más a menudo los métodos es- tadísticos robustos (Erceg-Hurn y Mirosevich, 2008), el análisis factorial confirmatorio (Brown, 2015), los tests adaptativos infor- matizados (Olea, Abad, y Barrada, 2010; Wells y Faulkner-Bond, 2016), o el análisis de redes (Borsboom y Cramer, 2013; Fonseca- Pedrero, 2017), por mencionar algunos.

Versión final del test

En último lugar, se procede a la elaboración la versión defini- tiva del test, se envía un informe de resultados a las partes legíti- mamente implicadas en el proceso de evaluación y se elabora el manual que permita su utilización a otras personas o instituciones. El manual debe de recoger con todo detalle las características re- levantes de la prueba. Finalmente, y aunque sea la última fase, esto no quiere decir que el proceso de validación concluya aquí, ya que posteriores estudios deberán seguir recogiendo evidencias de validez que permitan tomar decisiones fundadas a partir de las puntuaciones de las personas. Asimismo, conviene llevar a cabo una evaluación rigurosa y sistemática del instrumento elaborado, para lo cual puede utilizarse el Modelo de Evaluación de Tests elaborado por la European Federation of Professional Psycholo- gists Associations (EFPA), adaptado en España por Hernández, Ponsoda, Muñiz, Prieto y Elosua (2016) (tabla 2). Este modelo es una guía que permite analizar la calidad del instrumento en función de sus características. Dicho modelo se articula a través del Cuestionario para la Evaluación de los Tests, edición Revisada (CET-R), disponible en la página web del Consejo General de la Psicología de España (www.cop.es/uploads/pdf/CET-R.pdf).

Todo fluye: mirando hacia el futuro

Se han descrito los diez pasos fundamentales que habría que seguir para desarrollar un test objetivo y riguroso para evaluar

variables en el ámbito de las ciencias sociales y de la salud. Estos pasos no se pueden abordar en profundidad desde un punto de vista técnico en un breve artículo como este, no se trataba de eso, sino de poner a disposición de los estudiantes y profesionales una guía general que les permita obtener una visión panorámica de las actividades implicadas en el desarrollo de los instrumentos de medida. Se aporta además la bibliografía especializada a la que pueden acudir aquellos interesados en profundizar en cada temáti- ca. El campo de la elaboración de instrumentos de medida está al- tamente desarrollado y es necesario acudir a personal cualificado para su desarrollo adecuado, constituyendo una temeridad dejarlo en manos de aficionados bienintencionados. Que un instrumento de evaluación esté adecuadamente construido y reúna las propie- dades técnicas adecuadas es condición necesaria, pero no es sufi- ciente, además hay que utilizar la prueba de forma pertinente. Las diez fases descritas no son estáticas ni inmanentes, la eva- luación evoluciona muy rápidamente, influenciada sobre todo por los vertiginosos cambios impulsados por las tecnologías de la in- formación y comunicación, y en especial los avances informáti- cos, multimedia e Internet. Autores como Bennet (1999, 2006), Breithaupt, Mills y Medican (2006), Drasgow (2016), Drasgow, Luecht y Bennet (2006) o Sireci y Faulkner-Bond (2016), entre otros muchos, consideran que dichas tecnologías están influyendo sobre todos los aspectos de la evaluación psicológica, tales como el diseño de los tests, la construcción y presentación de los ítems, la puntuación de los test y la evaluación a distancia. Emergen nue- vas formas de evaluación, aunque no nos engañemos, los test psi- cométricos seguirán siendo herramientas fundamentales, dada su objetividad y economía de medios y tiempo (Phelps, 2005, 2008). En este contexto de cambio tecnológico surge la llamada Psico- logía 2.0 (Armayones et al., 2015), que pretende extender la psi- cología a través de las facilidades que ofrece Internet y las redes sociales. La evaluación no puede estar ajena a estas nuevas tenden- cias, apareciendo nuevos enfoques psicométricos conectados con el análisis de las grandes bases de datos ( big data ) de las que se dispone actualmente (Markovetz, Blaszkiewicz, Montag, Switala, y Schlaepfer, 2014). Por ejemplo, las ventajas potenciales de usar los teléfonos móviles o la realidad virtual tanto para evaluación como intervención abren nuevas posibilidades para la psicología del futuro (Armayones et al., 2015; Chernyshenko y Stark, 2016; Miller, 2012; Rus-Calafell, Garety, Sason, Craig, y Valmaggia, 2018). El uso de estos dispositivos móviles en salud mental se ha venido a llamar fenotipado digital (Insel, 2017). Además, trabajos como el pionero de Kosinski, Stillwell y Graepel (2013) analizan con éxito la posibilidad de utilizar los “me gusta” de facebook como predictores de distintas características humanas, entre ellas los rasgos de la personalidad, lo que hace preguntarse si nuestros rastros en las redes sociales sustituirán algún día no muy lejano a los cuestionarios y test tal como los conocemos ahora. Otro tema que cobra pujanza es el de la evaluación ambulatoria, la evaluación ecológica momentánea o la metodología de muestreo de experiencias, que si bien tienen rancio abolengo en psicología, están resurgiendo con fuerza en la actualidad impulsada por las tecnologías de la información y comunicación (Chernyshenko y Stark, 2016; Myin-Germeys et al., 2018; Trull y Ebner-Priemer, 2013; van Os, Delespaul, Wigman, Myin-Germeys y Wichers, 2013). Este conjunto de métodos y procedimientos que tratan de estudiar mediante dispositivos móviles (p.ej., smartphone , tablet ) las experiencias de las personas (emociones, sentimientos, pensa- mientos, síntomas psicológicos, etc.), en su entorno natural y en

Tabla 2 Ficha resumen del Cuestionario para la Evaluación de los Tests edición revisada (CET-R) (Hernández et al., 2016). Características Valoración Puntuación

Materiales y documentación Fundamentación teórica Adaptación Análisis de los ítems Validez: contenido Validez: relación con otras variables Validez: estructura interna Validez: análisis del funcionamiento diferencial de los ítems Fiabilidad: equivalencia Fiabilidad: consistencia interna Fiabilidad: estabilidad Fiabilidad: Teoría Respuesta a los Ítems Fiabilidad: inter-jueces Baremos e interpretación de puntuaciones

José Muñiz y Eduardo Fonseca-Pedrero

la vida diaria. Esta metodología permite evaluar determinadas variables psicológicas desde una perspectiva más dinámica, per- sonalizada, contextual y ecológica. En esencia se trata de captar la naturaleza dinámica, individual y contextual del ser humano, buscando posibles mecanismos causales (van Os et al., 2013). Para ello, habitualmente se realizan evaluaciones varias veces al día (aproximadamente 6-8 por día) durante un período temporal (típi- camente una semana) para captar suficientemente la variabilidad de los fenómenos. Las preguntas se activan mediante un beep en un marco temporal fijado por el investigador, por ejemplo, entre las diez de la mañana y las diez de la noche. Además, estos beeps pueden presentarse de forma aleatoria o en intervalos de tiem- po predeterminados, por ejemplo, cada 90 minutos. Todos estos datos se vuelcan a una plataforma para su análisis posterior. Se trata, pues, de un abordaje complementario a los procedimientos tradicionales de evaluación psicométrica de papel y lápiz en con- textos más o menos artificiales y de corte más bien transversal y retrospectivo (Fonseca-Pedrero y Muñiz, 2017). La flexibilidad de los nuevos modelos psicométricos de análisis de redes pueden permitir la incorporación y estudio de este tipo de datos (Bors- boom y Cramer, 2013; Fonseca-Pedrero, 2017, 2018), así como los modelos procedentes de la teoría de los sistemas dinámicos o la teoría del caos (Nelson, McGorry, Wichers, Wigman, y Hartmann, 2017).

No sabemos nada del futuro, pero se nos representa atractivo y excitante, una lucha sorda de fondo entre nuestra inteligencia de carbono y agua y la artificial del silicio. No sabemos si una de ellas vencerá a la otra, o se producirá la simbiosis, lo que está claro es que el silicio reclama un mayor rol en nuestras vidas y la evaluación psicométrica no es una excepción. Eso sí, la prueba del algodón, el árbitro, siempre será la validez, todas las fantasías sobre los avances tecnológicos pasan por demostrar que aportan mejoras en la medida del constructo evaluado, de lo contrario no dejarán de ser meros fue- gos de artificio. Todos estos cambios y otros muchos que afectan a la evaluación obligarán a ir revisando y actualizando los diez pasos descritos, si bien lo esencial permanece: siempre habrá que aportar evidencias empíricas de la fiabilidad y validez, para garantizar que los instrumentos de medida evalúan de forma objetiva y rigurosa.

Agradecimientos

Los autores quieren agradecer los comentarios realizados por los profesores Alicia Pérez de Albéniz y Adriana Diez a una ver- sión preliminar de este trabajo. Esta investigación ha sido financiada por el Ministerio de Ciencia e Innovación de España (MICINN) (referencias: PSI2014- 56114-P, PSI2017-85724-P) y por el Instituto Carlos III, Centro de Investigación Biomédica en Red de Salud Mental (CIBERSAM).

References

American Educational Research Association, American Psychological Association y National Council on Measurement in Education (2014). Standards for educational and psychological testing. Washington, DC: Author. Armayones, M., Boixadós, M., Gómez, B., Guillamón, N., Hernández, E., Nieto, R., Pousada, M., y Sara, B. (2015). Psicología 2.0: oportunidades y retos para el profesional de la psicología en el ámbito de la e-salud. Papeles del Psicólogo , 36 , 153-160. Baldwin, D., Fowles, M., y Livingston, S. (2005). Guidelines for constructed-response and other performance assessments. Princeton, NJ: Educational Testing Service. Balluerka, N., Gorostiaga, A., Alonso-Arbiol, I., y Haranburu, M. (2007). La adaptación de instrumentos de medida de unas culturas a otras: una perspectiva práctica. Psicothema , 19 , 124-133. Bennett, R. E. (1999). Using new technology to improve assessment. Educational Measurement: Issues and Practice, 18 , 5-12. Bennett, R. E. (2006). Inexorable and inevitable: The continuing story of technology and assessment. En D. Bartram y R. K. Hambleton (Eds.), Computer-based testing and the internet: Issues and advances (pp. 201-218). Chichester: Wiley. Borsboom D., y Cramer, A.O.J. (2013). Network analysis: An integrative approach to the structure of psychopathology_. Annual Review of Clinical Psychology, 9,_ 91 - 121_._ doi: 10.1146/annurev-clinpsy-050212- 185608 Breithaupt, K. J., Mills, C. N., y Melican, G. J. (2006). Facing the opportunities of the future. En D. Bartram y R. K. Hambleton (Eds.), Computer-based testing and the Internet (pp. 219-251). Chichester: John Wiley and Sons. Brown, T. A. (2015). Confirmatory factor analysis for applied research (2 nd^ edition). New York: Guilford Press. Calero, D., y Padilla, J. L. (2004). Técnicas psicométricas: los tests. En R. Fernández-Ballesteros (Ed.), Evaluación psicológica: conceptos, métodos y estudio de casos (pp. 323-355). Madrid: Pirámide. Carretero, H., y Pérez, C. (2005). Normas para el desarrollo y revisión de estudios instrumentales. International Journal of Clinical and Health Psychology, 5 , 521-551.

Chernyshenko, O. S., y Stark, S. (2016). Mobile psychological assessment. En F. Drasgow (Ed.) (2016). Technology and testing (pp. 206-216). Nueva York: Routledge. Clark, L. A., y Watson, D. (1995). Constructing validity: Basic issues in objective scale development. Psychological Assessment, 7 , 309-319. Cuesta, M. (1996). Unidimensionalidad. En J. Muñiz (Ed.), Psicometría (pp. 239-292). Madrid: Universitas. Dillman, D. A., Smyth, J. D., y Christian, L. M. (2009). Internet, mail and mixed-mode surveys: The tailored design method. Hoboken, NJ: Wiley. Dorans N. J., y Cook, L. (2016). Fairness in educational assessment and measurement. New York: Taylor & Francis. Downing, S. M. (2006). Twelve steps for effective test development. En S. M. Downing y T. M. Haladyna (Eds.), Handbook of test development (pp. 3-25). Mahwah, NJ: Lawrence Erlbaum Associates. Downing, S. M., y Haladyna, T. M. (2006). Handbook of test development. Mahwah, NJ: Lawrence Erlbaum Associates. Drasgow, F. (Ed.) (2016). Technology and testing. Nueva York: Routledge. Drasgow, F., Luecht, R. M., y Bennett, R. E. (2006). Technology and testing. En R. L. Brennan (Ed.), Educational measurement. Westport, CT: ACE/Praeger. Elosua, P. (2003). Sobre la validez de los tests. Psicothema, 15 , 315-321. Elosua, P., y Zumbo, B. (2008). Coeficientes de fiabilidad para escalas de respuesta categórica ordenada. Psicothema, 20 , 896-901. Erceg-Hurn, D. M., y Mirosevich, V. M. (2008). Modern robust statistical methods: An easy way to maximize the accuracy and power of your research. American Psychologist, 63 , 591-601. doi: 10.1037/0003- 066X.63.7. Ferrando, P.J., y Anguiano, C. (2010). El análisis factorial como técnica de investigación en Psicología. Papeles del Psicólogo, 31 , 18-33. Fonseca Pedrero, E., y Debbané, M. (2017). Schizotypal traits and psychotic- like experiences during adolescence: An update. Psicothema, 29 , 5-17. doi: 10.7334/psicothema2016. Fonseca-Pedrero, E. (2017). Análisis de redes: ¿una nueva forma de comprender la psicopatología? Revista de Psiquiatria y Salud Mental , 10 , 183-224. doi: 10.1016/j.rpsm.2017.06.

José Muñiz y Eduardo Fonseca-Pedrero

Sireci, S. (1998a). The construct of content validity. Social Indicators Research, 45 , 83-117. Sireci, S. (1998b). Gathering and analyzing content validity data. Educational Assessment, 5, 299-321. Sireci, S., y Faulkner-Bond, M. (2014). Validity evidence based on test content. Psicothema, 26 , 100-107. doi: 10.7334/psicothema2013. Sireci, S., y Zenisky, A. L. (2006). Innovative items format in computer- based testing: In pursuit of construct representation. En S. M. Downing y T. M. Haladyna (Eds.), Handbook of test development (pp. 329-348). Hillsdale, NJ: LEA. Sireci, S., y Zenisky, A. L. (2016). Computerized innovative item formats: Achievement and credentialing. En S. Lane, M. R. Raymond y T. M. Haladyna (Eds.), Handbook of test development (pp. 313-334). Nueva York: Routledge. Smith, G. T., Fischer, S., y Fister, S. M. (2003). Incremental validity principles in test construction. Psychological Assessment, 15 , 467-477. Smith, S. T. (2005). On construct validity: Issues of method measurement. Psychological Assessment, 17 , 396-408. Suárez, J., Pedrosa, I., Lozano, L., García-Cueto, E., Cuesta, M., y Muñiz, J. (2018). Using reversed items in Likert scales: A questionable practice. Psicothema, 30 , 149-158. doi: 10.7334/psicothema2018. Thurstone, L. L. (1927a). A law of comparative judgement. Psychological Review, 34 , 273-286. Thurstone, L. L. (1927b). The method of paired comparisons for social values. Journal of Abnormal Social Psychology, 21 , 384-400. Thurstone, L. L. (1928). Attitudes can be measured. American Journal of Sociology, 33 , 529-554.

Trull, T. J., y Ebner-Priemer, U. W. (2013). Ambulatory assessment. Annual Review of Clinical Psychology, 9 , 151-176. doi: 10.1146/ annurev-clinpsy-050212- van der Linden, W. (Ed.) (2016). Handbook of item response theory ( volúmenes). Boca Ratón, FL: Chamman & Hall/CRC. van Os, J., Delespaul, P., Wigman, J., Mying-Germays, I., y Wichers, M. (2013). Beyond DSM and ICD: Introducing precision diagnosis for psychiatry using momentary assessment technology. World Psychiatry, 12 , 113-117. doi: 10.1002/wps. Wells, C.S., y Faulkner-Bond, M. (2016). Educational measurement. From foundations to future. New York, NY: The Guilford Press. Wetzel, E., Böhnke, J.R., y Brown, A. (2016). Response Biases. En F.T. Leong et al. (Eds.). The ITC international handbook of testing and assessment (pp. 349-363). New York: Oxford University Press. Williamson, D.M., Bennett, R.E., Lazer, S., Berstein, J., Foltz, P.W., Landauer, T.K., Rubin, D.P., Way, W.P., y Sweeney, K. (2010). Automated scoring for the assessment of common core standards. Princeton, NJ: Educational Testing Service. Williamson, D.M., Mislevy, R.J., y Bejar, I. (2006). Automated scoring of complex tasks in computer-based testing. Mahwah, NJ: LEA. Wilson, M. (2005). Constructing measures: An item response modeling approach. Mahwah, NJ: Lawrence Erlbaum Associates. Zumbo, B. D. (2007). Validity: Foundational issues and statistical methodology. En C. R. Rao y S. Sinharay (Eds.), Handbook of statistics: Vol. 26. Psychometrics (pp. 45-79). Amsterdam, Netherlands: Elsevier Science.