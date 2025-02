La agrupación en clústeres basada en la densidad funciona detectando áreas donde se concentran los puntos y dónde están separados por áreas que están vacías o dispersas. A diferencia de los enfoques basados en el centroide, como K-means, o los enfoques basados en la distribución, como la maximización de expectativas, la agrupación en clústeres basada en la densidad puede detectar clústeres de una forma arbitraria. Esto puede ser extremadamente útil cuando los clústeres no se definen en torno a una ubicación o distribución específica. A diferencia de otros algoritmos de agrupación, como K-means y la agrupación jerárquica, un algoritmo basado en la densidad puede descubrir clústeres de cualquier forma, tamaño o densidad en sus datos. La agrupación en clústeres basada en la densidad también puede distinguir entre puntos de datos que forman parte de un clúster y aquellos que deberían etiquetar como ruido. La agrupación en clústeres basada en la densidad es especialmente útil cuando se trabaja con conjuntos de datos con ruido o valores atípicos, o cuando no tenemos conocimiento previo sobre la cantidad de clústeres en los datos.

DBSCAN es un ejemplo de un algoritmo de agrupación en clústeres que adopta un enfoque de agrupación basado en la densidad. Emplea un enfoque de agrupamiento en clústeres espacial basado en la densidad para crear clústeres con una densidad pasada por el usuario que se centra alrededor de un centroide espacial. El área inmediatamente alrededor del centroide se denomina vecindad y DBSCAN intenta definir vecindades de clústeres que tengan la densidad especificada. Para cada clúster, DBSCAN definirá tres tipos de puntos de datos:

Puntos centrales: Un punto de datos es un punto central si la vecindad alrededor de ese punto de datos contiene al menos tantos puntos como el número mínimo de puntos especificado por el usuario.

Puntos límite: Un punto de datos es un punto frontera si la vecindad alrededor de ese punto de datos contiene menos del número mínimo de puntos de datos pero la vecindad alrededor de ese punto contiene un punto núcleo.

Valor atípico: un punto de datos es un valor atípico si no es un punto central ni un punto límite. En esencia, ésta es la “otra” clase.

HDBSCAN es una variante de DBSCAN que no requiere la configuración de ningún parámetro; esto puede hacerlo aún más flexible que el original. HDBSCAN es menos sensible al ruido y a los valores atípicos en los datos. Además, DBSCAN a veces puede tener problemas para identificar grupos con densidad no uniforme. Esta fue la motivación principal de HDBSCAN, por lo que maneja grupos de densidad variable de manera mucho más efectiva.