NOTICIA COMPARTIDA

Fecha de publicación: 14 de Octubre de 2025 a las 14:00:00 hs

COMPARTIR NOTICIA

Medio: INFOBAE

Categoría: GENERAL

Solo 250 archivos bastan para corromper una IA: así actúa el data poisoning

Descripción: Investigadores advierten que los modelos entrenados con datos públicos pueden ser vulnerables a textos diseñados para cambiar sus respuestas

Contenido: La seguridad de los modelos de inteligencia artificial enfrenta un nuevo desafío. Un estudio reciente realizado por Anthropic —la empresa creadora de Claude— junto al UK AI Security Institute y el Alan Turing Institute, demostró que bastan alrededor de 250 documentos manipulados para modificar el comportamiento de un modelo, independientemente de su tamaño o complejidad.

El hallazgo pone en evidencia un punto débil en los sistemas de IA más avanzados: el origen y la calidad de los datos con los que son entrenados. En la actualidad, la mayoría de estos modelos se alimentan de grandes volúmenes de información pública obtenida de internet, lo que abre la puerta a que agentes maliciosos introduzcan textos falsos o contaminados en los conjuntos de entrenamiento.

Los investigadores advierten que estos ataques podrían tener consecuencias graves, desde la alteración de respuestas hasta la revelación de información confidencial o la introducción de sesgos intencionados en las respuestas generadas por los modelos.

El llamado data poisoning o “envenenamiento de datos” consiste en insertar información diseñada para alterar el aprendizaje de un modelo de inteligencia artificial. Estos textos, aparentemente inofensivos, contienen patrones ocultos o frases específicas que actúan como “disparadores”. Cuando el modelo encuentra esas secuencias, puede ejecutar comportamientos no deseados, como filtrar datos sensibles o generar contenido inapropiado.

Según el informe, los investigadores crearon una serie de textos con una estructura específica que, al ser procesados por el modelo, activaban estas respuestas. Lo más sorprendente fue comprobar que el número de textos necesarios para manipular el sistema se mantenía constante: unos 250 documentos bastaban, tanto en modelos pequeños como en otros de más de 13.000 millones de parámetros.

Este resultado contradice una de las suposiciones más extendidas en el campo de la IA: que los modelos más grandes son menos vulnerables a este tipo de ataques debido al volumen de datos legítimos que contienen. El estudio demuestra que la magnitud no ofrece inmunidad frente al envenenamiento de datos.

El riesgo es considerable si se tiene en cuenta que muchos modelos se entrenan con información pública extraída de blogs, redes sociales y foros. En ese contexto, un atacante podría introducir textos maliciosos disfrazados de publicaciones comunes y lograr que, con el tiempo, sean procesados por una IA durante su fase de aprendizaje.

Los autores del estudio explican que este tipo de ataques no requiere controlar grandes cantidades de datos, sino insertar las muestras adecuadas en el momento justo. En consecuencia, las defensas actuales —basadas en la escala y en la limpieza parcial de los conjuntos de entrenamiento— podrían resultar insuficientes.

Aunque los experimentos se realizaron en entornos controlados, el hallazgo ha despertado preocupación en la comunidad científica y en las empresas tecnológicas. La posibilidad de que un número reducido de textos pueda alterar modelos comerciales plantea la necesidad de revisar las prácticas de entrenamiento y fortalecer los sistemas de verificación de datos.

Los especialistas proponen distintas medidas para mitigar el riesgo del data poisoning. Entre ellas destacan el desarrollo de filtros automáticos para detectar contenido sospechoso antes de incorporarlo al entrenamiento, la trazabilidad de las fuentes utilizadas y la implementación de auditorías periódicas de los modelos.

Anthropic y sus socios defienden la divulgación responsable de estos hallazgos, argumentando que compartir esta información ayuda a que la industria desarrolle contramedidas efectivas. Ocultar el problema, aseguran, solo retrasaría las soluciones.

Además, los investigadores advierten de otro riesgo emergente: el “canibalismo digital”. A medida que las IAs generan más contenido que luego se publica en línea, los modelos terminan entrenándose con información producida por otras IAs. Esto puede amplificar errores, sesgos y desinformación de forma exponencial.

El estudio de Anthropic y el Alan Turing Institute deja una conclusión clara: la fortaleza de una inteligencia artificial no depende solo de su código o su capacidad de cómputo, sino de la calidad de los datos que la alimentan. En un entorno donde cualquiera puede publicar información en la red, garantizar esa pureza es cada vez más complejo.

La investigación recuerda que las IAs aprenden de lo mejor y lo peor de internet. Y que, en ocasiones, unos pocos textos diseñados con mala intención pueden bastar para torcer el comportamiento de una tecnología que aspira a ser imparcial y confiable.

Imágenes adicionales

Visitas: 0