Synthetic Data (o Datos Sintéticos) son datos generados artificialmente por algoritmos que imitan las características de los datos reales y sirven para entrenar, probar o mejorar modelos de Inteligencia Artificial. Suelen utilizarse cuando los datos reales son escasos, caros o sensibles.

¿Cómo se crean Datos Sintéticos en Inteligencia Artificial?

Existen diferentes métodos, pero los más comunes son:

  • Redes Generativas Antagónicas (GANs): Dos redes compiten entre sí; una crea datos falsos y la otra detecta si son falsos. Al final, la primera red se vuelve tan buena que los datos son indistinguibles de los reales.

  • Autoencoders Variacionales (VAEs): Comprimen los datos reales y luego los reconstruyen con variaciones aleatorias.

  • Simuladores: Crean mundos virtuales en los que los datos sintéticos sirven a los modelos para aprender sin que haya consecuencias en la vida real.

Por qué se usan Datos Sintéticos

  • Privacidad, pudiendo entrenar modelos sin usar datos personales reales que pueden ser sensibles, como datos médicos o financieros. Evitan riesgos legales y éticos.

  • Mitigar la escasez de datos cuando no existen suficientes datos reales. Puede ser el caso de enfermedades raras o situaciones anómalas.

  • Reducir tiempo y costes, generando millones de ejemplos en minutos.

  • Control del dataset, preparándose para incidencias como fallos técnicos o accidentes.

Usos prácticos de los Datos Sintéticos

  • Fotos de caras que no pertenecen a personas reales para entrenar sistemas de reconocimiento facial.

  • Escenas de tráfico simuladas para entrenar algoritmos de conducción.

  • Patrones de fraude para que los sistemas de seguridad aprendan a detectarlos.

  • Brazos robóticos en simulaciones físicas antes de fabricarlos.

Riesgos de los Synthetic Data

Aunque son muy útiles para ciertos contextos, los datos sintéticos también presentan riesgos:

  • Introducir sesgos artificiales

  • Ser menos realistas

  • Degradar modelos. A esto se le llama Model Collapse y ocurre cuando un modelo de IA se entrena repetidamente con datos sintéticos y no reales. Con el tiempo, la calidad y la diversidad de las respuestas empeora notablemente. Es como si hiciésemos fotocopia de una fotocopia y así sucesivamente.

Futuro de los Synthetic Data

Actualmente, los datos reales de alta calidad en internet ya no son suficientes para seguir escalando los modelos.

Por eso, muchas empresas recurren a generar datos artificiales controlados que les permitan seguir mejorando y evolucionando la inteligencia de los sistemas.

Además, los datos sintéticos pueden personalizarse más y diseñarse para enseñar exactamente lo que el modelo necesita aprender.

Otra de sus grandes ventajas es que permiten entrenar en mundos simulados y crear millones de escenarios virtuales para avanzar en modelos futuros.

De cara al futuro, se estima que el uso de Synthetic Data seguirá al alza, y también la combinación de datos reales y datos sintéticos, combinando así la gran versatilidad de unos con el mayor realismo de los otros.