Normalización de series Unicode

Su aplicación debe tratar como iguales aquellos caracteres que son funcional y visualmente equivalentes pero que tienen representaciones de elementos de código diferentes. Este comportamiento es importante al buscar, ordenar o comparar series Unicode. Para lograr este objetivo, tal vez tenga que normalizar las series. Sin embargo, la normalización puede reducir el rendimiento.

Las series Unicode pueden ser equivalentes canónicamente o equivalentes desde el punto de vista de la compatibilidad. Si son equivalentes canónicamente, también son equivalentes desde el punto de vista de la compatibilidad.

Los caracteres equivalentes canónicamente son aquellos caracteres que son equivalentes funcional y visualmente, pero que pueden tener representaciones de elementos de código diferentes. Para los usuarios, estos caracteres no se diferencian, ya que se muestran del mismo modo. Por ejemplo, el carácter ü es canónicamente equivalente a la secuencia u y ¨.

Los caracteres con equivalencia de compatibilidad son caracteres cuyo texto sin formato es equivalente, independientemente del significado semántico. Estos caracteres también pueden tener diferentes representaciones de elementos de código. Por ejemplo, los numerales de superíndice y subíndice son equivalentes desde el punto de vista de la compatibilidad a sus correspondientes dígitos decimales.

El proceso de normalización de series Unicode genera una secuencia de elementos de código única para todas las secuencias que son equivalentes, ya sea canónicamente o desde el punto de vista de la compatibilidad. Por lo tanto, todos los caracteres equivalentes canónicamente tienen la misma representación binaria. Puede normalizar una serie Unicode con uno de los formatos normalizados siguientes definidos por el estándar Unicode:

NFD (descomposición canónica de formato de normalización): Los caracteres se descomponen según su equivalencia canónica.
NFC (composición canónica de formato de normalización): Los caracteres se descomponen y después se recomponen según su equivalencia canónica.
NFKD (descomposición de compatibilidad de formato de normalización): Los caracteres se descomponen según su equivalencia de compatibilidad.
Composición de compatibilidad de formato de normalización (NFKC): Los caracteres se descomponen según su equivalencia de compatibilidad y después se recomponen según su equivalencia canónica.

Para normalizar series Unicode, utilice la función incorporada NORMALIZE_STRING.