La mayoría de los proyectos de anotación tratan al anotador como intercambiable: una etiqueta es una etiqueta, sin importar quién la produjo. Para muchas tareas eso se cumple. Para muchas otras no, y en el momento en que decides averiguar quiénes son tus anotadores, asumes un pequeño problema de ética de la investigación. Los datos demográficos son parte de la información más sensible que una persona puede entregarte, y recopilarlos porque podrían ser útiles no es motivo suficiente.

El trasfondo del anotador moldea las etiquetas en las tareas subjetivas, así que los datos demográficos a menudo merecen recopilarse, pero solo con consentimiento informado, un motivo claro para cada campo, una forma fácil de declinar y un plan para anonimizar e informar lo que reúnes. Recopila el mínimo que responda a tu pregunta, prefiere baterías estandarizadas antes que preguntas improvisadas y trata los datos demográficos como algo que vas a documentar, no solo almacenar. Esta entrada trata de hacerlo bien. La configuración de Potato del final muestra en la práctica el flujo de consentimiento y luego datos demográficos.

Por qué quién etiqueta se refleja en las etiquetas

La evidencia más clara de que la identidad del anotador importa proviene de un conjunto de datos construido justo para esta pregunta. POPQUORN (Pei y Jurgens, 2023) recopiló 45.000 anotaciones de 1.484 anotadores muestreados para coincidir con la población de EE. UU. en sexo, edad y raza, y luego preguntó si el trasfondo predice cómo etiquetan las personas. Lo hace. La edad, la raza y la educación fueron factores estadísticamente significativos en los juicios sobre carácter ofensivo y cortesía; los anotadores negros, por ejemplo, calificaron los mismos comentarios como más ofensivos que otros grupos. Eso no es ruido que se deba promediar hasta hacerlo desaparecer. Es una diferencia real en cómo la gente lee el mismo texto.

El mismo comentario mostrado a tres grupos de anotadores obtiene tres calificaciones distintas de carácter ofensivo en una escala de cinco puntos; promediarlas en una única etiqueta de referencia de 3,3 oculta el patrón por grupo. Promediar calificaciones divergentes por grupo en una única etiqueta de referencia oculta el patrón que revelarían los datos demográficos

Esto conecta con un punto más amplio sobre la verdad de referencia. Plank (2022) sostiene que la variación de etiquetas humanas suele ser genuina en lugar de un error, y si la variación es genuina, entonces saber quién produjo qué etiqueta es parte de entender los datos. En una tarea subjetiva, una única etiqueta de referencia agregada borra en silencio el desacuerdo que la información demográfica te dejaría ver. (Profundizamos en eso en El desacuerdo es señal, no ruido.)

Así que el argumento para recopilar datos demográficos es sencillo: si tu tarea es siquiera algo subjetiva, la composición de tu grupo de anotadores es una propiedad de tu conjunto de datos, y no puedes informarla ni auditarla si nunca preguntaste.

Qué recopilar y qué dejar en paz

La tentación es preguntar todo y ordenarlo después. Resístela. Cada campo demográfico que recopilas es un campo que tienes que justificar, proteger y, eventualmente, informar, y algunos de ellos son legalmente sensibles: la raza, la etnia, la religión, la opinión política y los datos de salud son categorías especiales bajo el GDPR que conllevan obligaciones adicionales. Por defecto debería ser el conjunto más pequeño que responda a tu pregunta real.

Una prueba útil para cada campo: ¿una diferencia a lo largo de esta dimensión cambiaría de forma plausible cómo alguien etiqueta tus datos, y de verdad la analizarías? Si estás anotando carácter ofensivo, el resultado de POPQUORN hace defendibles la edad, la raza y la educación. Si estás anotando si una oración es gramatical, ninguna de esas pertenece al formulario. Recopilar un atributo que nunca mirarás no es rigor; es un riesgo que asumiste a cambio de nada.

Dos prácticas mantienen esto honesto:

Vincula cada pregunta a un análisis. Antes de que un campo llegue al formulario, escribe la comparación que piensas ejecutar con él. Sin comparación, no hay campo.
Haz que todo se pueda omitir. Las preguntas sensibles necesitan una opción real de «prefiero no responder», no un botón obligatorio. Una persona que se siente forzada a revelar algo o bien abandona o bien te da una respuesta basura, y ambas cosas son peores que un espacio en blanco.

Obtener bien el consentimiento

La recopilación de datos demográficos es donde la anotación deja de ser una tarea de datos y se convierte en trabajo con sujetos humanos. La base es el consentimiento informado: antes de que nadie responda una pregunta demográfica, debería saber qué recopilas, por qué, quién lo ve y que puede detenerse en cualquier momento sin penalización. Esto no es una formalidad que entierras en un muro de términos de servicio. Es una página que el anotador lee y acepta antes de que se carguen las preguntas demográficas.

Algunas cosas que hacen el consentimiento real en lugar de nominal:

Participación voluntaria, exigida por la interfaz. El derecho a declinar solo cuenta si declinar es fácil. «Prefiero no responder» en cada elemento sensible, y una forma de abandonar el estudio sin perder el pago que ya han ganado.
Autodeclarado, no inferido. Los datos demográficos deben venir del anotador, nunca adivinarse a partir de su nombre, ubicación o escritura. Los atributos inferidos son a menudo erróneos y una violación de la privacidad peor que preguntar.
Almacenamiento anonimizado. Separa las respuestas demográficas de cualquier cosa que identifique a la persona. Quieres poder decir «los evaluadores que se identificaron como X calificaron esto más alto» sin poder señalar de qué individuo se trataba.

Si trabajas a través de una universidad, esto suele ser una conversación con el comité de ética (IRB), y al IRB le importarán justamente estos puntos. Si no lo haces, los puntos siguen siendo válidos.

Un flujo de ingesta de anotación: una página de consentimiento informado da paso a una encuesta demográfica previa al estudio, donde cada pregunta sensible ofrece «prefiero no responder», y las respuestas se anonimizan antes de llegar a la tarea de anotación principal. El consentimiento da paso a la encuesta demográfica; cada campo sensible se puede omitir, y las respuestas se anonimizan antes de que comience la anotación

Las baterías estandarizadas superan a las preguntas que inventas

Cuando sí recopilas un dato demográfico, cómo lo redactas importa más de lo que parece. Las preguntas improvisadas producen categorías que no coinciden con las de nadie más, no se pueden comparar entre estudios y a menudo enmarcan mal las opciones, sobre todo en género y raza. La solución es tomar prestado de instrumentos que los científicos sociales ya han pasado décadas refinando: las baterías demográficas de los American National Election Studies (ANES) o de la General Social Survey (GSS) te dan redacciones de preguntas y opciones de respuesta que están probadas, son defendibles y son comparables con un amplio cuerpo de trabajo existente.

Usar una batería estándar también hace parte del trabajo ético por ti. Estos instrumentos ya incluyen opciones de «prefiero no responder» y han sido revisados en cuanto a cómo manejan las categorías sensibles, así que no estás reinventando un conjunto de opciones que un comité de revisión marcaría.

Recopilar y luego informar

Recopilar datos demográficos y no volver a mencionarlos nunca frustra el propósito. La razón para reunir estos datos es que tú, y todos los que luego usen el conjunto de datos, puedan ver quién produjo las etiquetas. Ese informe tiene una forma estándar: una declaración de datos (data statement) (Bender y Friedman, 2018) incluye una sección de datos demográficos de anotadores precisamente para que los usuarios posteriores puedan juzgar cómo podrían generalizarse los datos, y las datasheets for datasets (Gebru et al.) piden lo mismo de cualquier conjunto de datos de ML. Planifica la publicación cuando planifiques la recopilación: distribuciones agregadas, nunca registros individuales, y suficiente detalle para que un lector pueda saber si tu grupo se parece a la población a la que servirá tu modelo. Cubrimos ese aspecto en Documentar tu conjunto de datos de anotación.

Hacerlo en Potato

Potato se construyó en parte para esto. POPQUORN es el conjunto de datos «Potato-Prolific», recopilado ejecutando estudios de Potato en Prolific, así que el flujo de consentimiento y datos demográficos es una función de primera clase en lugar de algo que añades por encima.

La ingesta es un flujo de trabajo multifase: una fase consent que da paso al estudio, luego una fase prestudy que recopila datos demográficos, y luego la anotación en sí.

yaml

phases:
  consent:
    enabled: true
    data_file: "data/consent.json"
 
  prestudy:
    enabled: true
    data_file: "data/demographics.json"
 
  # annotation phase is always enabled

La página de consentimiento es una pregunta con un right_label, que es la respuesta requerida para continuar. Nadie llega a los datos demográficos ni a la tarea sin aceptar primero.

json

[
  {
    "name": "consent_agreement",
    "type": "radio",
    "description": "I have read the consent form, understand my responses are anonymized, and agree to participate. I may stop at any time.",
    "labels": ["I agree", "I do not agree"],
    "right_label": "I agree",
    "required": true
  }
]

Para los datos demográficos en sí, dale a cada pregunta sensible una opción de «prefiero no responder» y apóyate en las plantillas integradas para las categorías más delicadas:

json

[
  {
    "name": "age_range",
    "type": "radio",
    "description": "What is your age range?",
    "labels": ["18-24", "25-34", "35-44", "45-54", "55+", "Prefer not to answer"]
  },
  {
    "name": "ethnicity",
    "type": "select",
    "description": "Which best describes you? (optional)",
    "template": "ethnicity",
    "free_response": true,
    "free_response_label": "Prefer to self-describe"
  }
]

Si prefieres no escribir las preguntas a mano en absoluto, Potato incluye instrumentos de encuesta validados, entre ellos ocho baterías demográficas estandarizadas. Apuntar una fase prestudy a los datos demográficos de ANES o GSS te da las redacciones probadas gratis:

yaml

phases:
  prestudy:
    type: prestudy
    instrument: "anes-demographics"   # or gss-demographics, acs-demographics, ...

El showcase de datos demográficos con consentimiento es una versión lista para ejecutar de todo este flujo, e instrumentos de encuesta validados cubre la biblioteca más amplia si quieres medir más que datos demográficos.

Una vez que el estudio se ejecuta, las respuestas demográficas se almacenan por anotador junto a sus etiquetas, que es lo que te permite hacer el análisis que justificó recopilarlas: desglosar el acuerdo por grupo y comprobar si un dato demográfico predice las etiquetas de la forma en que POPQUORN lo encontró. Potato informa la kappa de Cohen y de Fleiss sobre la anotación, así que «¿la pertenencia a un grupo mueve las etiquetas?» se convierte en una medición en lugar de una corazonada. Cuando publicas los datos, las distribuciones agregadas de la fase prestudy son la sección de datos demográficos de anotadores de tu declaración de datos, ya recopilada.

Adónde ir después

El desacuerdo es señal, no ruido, por qué la variación demográfica en las etiquetas suele ser justo lo que quieres conservar.
Documentar tu conjunto de datos de anotación, para convertir los datos demográficos recopilados en una declaración de datos o datasheet.
El acuerdo entre anotadores explicado, para las estadísticas que usas para analizar etiquetas por grupo.
Ejecutar estudios de crowdsourcing en Prolific y MTurk, para reclutar de entrada un grupo demográficamente equilibrado.