Clustering es una técnica de análisis de datos e Inteligencia Artificial que consiste en agrupar elementos similares entre sí en conjuntos denominados clusters.

El clustering busca que los elementos de un mismo grupo (o cluster) sean muy parecidos y que los elementos de grupos distintos sean lo más diferentes posible. Y todo esto sin saber previamente cuáles son los grupos.

¿Para qué se usa el clustering?

Clustering es un tipo de aprendizaje automático no supervisado que no clasifica, sino que descubre estructuras.

Su objetivo básico es encontrar grupos naturales en los datos cuando no se sabe de antemano cuáles existen. Por ello, resulta especialmente útil para:

  • Segmentación de clientes
  • Agrupación de noticias o documentos
  • Marketing
  • Procesamiento de imágenes
  • Segmentación de clientes o mercados
  • Detección de patrones en grandes volúmenes de datos

Principales tipos de clustering

Hay diferentes tipos de clustering. Algunos de los más habituales son:

  • K-means: Es el tipo de clustering más rápido y usado. Sus algoritmos definen "K" grupos previamente, analizan la proximidad entre puntos de datos en un espacio multidimensional y asignan cada punto al centro más cercano.
  • Clustering jerárquico: Presenta una estructura en forma de árbol. No es necesario fijar con antelación el número de grupos y permite crear subgrupos.
  • Clustering por densidad (DBSCAN): Tipología de clustering que agrupa por densidad. Es idóneo para detectar ruido, anomalías y valores atípicos.
  • Clustering de modelos: Agrupa los datos combinando diferentes distribuciones.

Por otro lado, podemos diferenciar entre clustering suave y clustering duro, dependiendo de si los datos pertenecen a varios clusters o solamente a uno.