Una vez que aceptas que las personas que hacen tu anotación moldean las etiquetas, la siguiente pregunta es qué medir sobre ellas. La edad y la educación son el punto de partida obvio, pero en las tareas subjetivas los predictores interesantes suelen quedar más lejos: la personalidad, los valores, el estado de ánimo del día, la experiencia vivida de aquello que se juzga. La tentación es escribir unas pocas preguntas rápidas y seguir adelante. Eso suele ser un error, porque una pregunta que inventas no tiene historial, no tiene grupo de comparación y a menudo un defecto sutil de redacción que no notarás hasta el análisis.

Cuando quieras medir algo sobre tus anotadores, recurre a un instrumento de encuesta validado antes de escribir el tuyo. Instrumentos como el Big Five, el PANAS (escala de afecto positivo y negativo) o una batería demográfica estándar vienen con redacciones probadas, fiabilidad conocida y resultados comparables con un amplio cuerpo de trabajo previo, nada de lo cual te da una pregunta improvisada. Potato incluye 55 de ellos, utilizables en una fase de preestudio o postestudio con una sola línea de configuración. Recopila solo lo que vas a analizar, trata los cuestionarios de cribado de salud mental como datos sensibles y obtén consentimiento. Esta entrada es un recorrido por lo que hay en la biblioteca y por cuándo cada parte se gana su lugar.

Por qué no basta con escribir tus propias preguntas

Un instrumento validado es un cuestionario que los investigadores han probado para verificar su fiabilidad (¿da resultados consistentes?) y su validez (¿mide lo que dice medir?), normalmente en muestras grandes y muchos estudios. Tomar prestado uno te compra tres cosas que una pregunta casera no puede: redacciones que se han revisado para detectar ambigüedad y sesgo, un método de puntuación con normas publicadas y comparabilidad, porque tus cifras coinciden con las de todos los demás que usaron el mismo instrumento.

El coste de improvisar el tuyo aparece más tarde. Una pregunta de género con las opciones equivocadas, una escala de satisfacción sutilmente tendenciosa, una pregunta de personalidad que la mitad de tus anotadores lee de otra manera: cada una añade en silencio ruido o sesgo que no puedes separar de la señal. Los autores del instrumento ya pagaron ese coste para que tú no tengas que hacerlo.

Qué podrías medir, y por qué aparece en las etiquetas

No todo pertenece a cada estudio. Ajusta el instrumento a un efecto plausible sobre tu tarea.

Datos demográficos: quién anota. Las baterías demográficas (ANES, GSS, ACS y otras) capturan edad, raza, educación y lo demás con redacciones estandarizadas. En carácter ofensivo, toxicidad y cortesía, estos son los predictores con más evidencia detrás.
Personalidad y valores: cómo juzga alguien. El Big Five (Soto y John, 2017) y su primo ultrabreve, el Ten-Item Personality Inventory (Gosling et al., 2003), capturan disposiciones estables que pueden moldear las valoraciones subjetivas. El Moral Foundations Questionnaire (Graham et al., 2011) encaja de forma natural cuando las etiquetas son juicios morales, ya que mide las intuiciones morales que los impulsan.
Afecto: el estado de ánimo en el momento del etiquetado. El PANAS (Watson et al., 1988) mide el afecto positivo y negativo. Ejecútalo en una fase de postestudio y podrás comprobar si el estado de ánimo siguió a las valoraciones, algo que importa en contenido cargado de emoción.
Experiencia vivida: legitimidad para juzgar. La Everyday Discrimination Scale (Williams et al., 1997) mide la experiencia cotidiana de discriminación. En tareas sobre carácter ofensivo u odio dirigido a un grupo, que un anotador haya vivido eso es plausiblemente relevante para cómo lo lee.
Bienestar: proteger al anotador. Los cuestionarios de cribado como el PHQ-9 (Kroenke et al., 2001) y el GAD-7 no tratan en absoluto de las etiquetas. En proyectos con contenido dañino o angustiante, una comprobación ligera del bienestar te ayuda a detectar tensión, siempre que manejes las respuestas con el cuidado que exigen.

La biblioteca de instrumentos de encuesta de Potato agrupada en ocho categorías: baterías demográficas, personalidad, salud mental y bienestar, afecto y emoción, actitudes sociales y políticas, autoconcepto y social, estilo de respuesta y versiones breves, con instrumentos de ejemplo en cada una y los más relevantes para estudios de anotación resaltados. La biblioteca de 55 instrumentos, agrupada por categoría, con los relevantes para la anotación resaltados

El problema: sensibilidad, carga y consentimiento

Medir a tus anotadores no está libre de riesgo, y dos de estas categorías cargan un peso real.

Los cuestionarios de cribado de salud mental son datos personales sensibles. Una puntuación del PHQ-9 no es un diagnóstico, y nunca debería tratarse como tal ni usarse para excluir a alguien del trabajo. Si ejecutas uno, di por qué, mantenlo opcional, guárdalo por separado de cualquier dato identificativo y ten un plan para lo que significa una puntuación preocupante antes de recopilarla. En caso de duda, esta es una conversación para el comité de ética.

La longitud es su propio impuesto. El Big Five Inventory-2 tiene 60 ítems; una pila completa de baterías puede tardar más que la propia anotación. Cada pregunta extra cuesta finalización y atención, así que apóyate en las versiones breves (el TIPI de 10 ítems, el PHQ-2 de 2 ítems) salvo que necesites específicamente la versión larga, y recorta cualquier cosa que no vayas a analizar de verdad. Como con los datos demográficos, la regla se sostiene: si no hay una comparación que planees ejecutar con ello, no va en el formulario.

Hacerlo en Potato

Potato incluye una biblioteca de 55 instrumentos validados que abarcan personalidad, salud mental, afecto, actitudes sociales y políticas, y ocho baterías demográficas, todo documentado en Instrumentos de encuesta. No construyes estos cuestionarios; los nombras.

Referencia un instrumento por su ID en una fase de preestudio o postestudio:

yaml

phases:
  order: [consent, prestudy, annotation, poststudy]
 
  prestudy:
    type: prestudy
    instrument: "tipi"          # 10-item Big Five
 
  poststudy:
    type: poststudy
    instrument: "panas"         # affect, measured after the task

Apila varios con instruments: y añade tus propias preguntas específicas del estudio después de una batería:

yaml

phases:
  prestudy:
    type: prestudy
    instruments:
      - "gss-demographics"      # standardized demographics
      - "srh"                   # single self-rated health item
    file: "surveys/study_specific.json"   # appended after the instruments

Cada instrumento lleva sus metadatos de puntuación (método, ítems de codificación inversa, rango y puntos de corte), aunque Potato deja la puntuación a tu análisis en lugar de calcularla por ti, lo cual es la decisión correcta para cualquier cosa clínica. El showcase de datos demográficos con consentimiento une todo el flujo: una puerta de consentimiento, una batería demográfica estandarizada en la fase de preestudio y una tarea de valoración subjetiva, para que el trasfondo del anotador aterrice junto a las etiquetas, donde puedes analizarlo.

Adónde ir después

Recopilar datos demográficos de los anotadores de forma responsable, para las baterías demográficas hechas bien.
El desacuerdo es señal, no ruido, para entender por qué la variación de personalidad y valores en las etiquetas suele ser justo lo que quieres.
Documentar tu conjunto de datos de anotación, para informar de lo que mediste sobre tus anotadores.
Instrumentos de encuesta, la lista completa de los 55 con sus IDs y número de ítems.