Archivo de la etiqueta: unicode

Unicode y UTF8

Después de varios intentos frustrados logré leer completa la nota de Joel On Software sobre encodings con interés genuino.

Resumiendo, lo mas importante de esa nota es que:

Unicode es un estándar que le asigna un código único (único posta) a cada caracter posible, chinos, occidentales, etc. Sin embargo Unicode no especifica cómo guardar en el disco estos caracteres. Incluye o es compatible con encodings viejos como ASCII7 y ISO 8859.

UTF-8 es un encoding que guarda los caracteres Unicode en al menos un byte cada uno y es compatible con algunos encodings mas limitados de caracteres con respecto a los caracteres en inglés, como ASCII7.

UTF-16 en cambio guarda todos los caracteres en 2 bytes o 4 bytes. La desventaja es que en general usa mas espacio que UTF-8.

Y hay varios mas. Básicamente estos encodings especifican cómo guardar físicamente los caracteres definidos en el estandar Unicode que es abstracto, independiente de la forma de guardarlos en disco. También hay temas de los que se abstrae como por ejemplo si los caracteres están dispuestos con Big-Endian o Little-Endian.