UTF-8

UTF-8 (8-bit Unicode Transformation Format) é uma codificação mais avançada e recente do que a ASCII. Suporta a letra "ç" e acentuação.

Graças a esta codificação é possível usar em meios digitais mais letras e símbolos, do que os permitidos nos endereços de e-mail. Nos sistemas digitais a informação é registada com os digitos 0 e 1, daí serem necessárias codificações para converter esses códigos em linguagem para humanos.

É compatível com ASCII mas a sua implementação está a ser lenta. 

Binário  Hexadecimal  Letra
0100 0001 41 A
0100 0011  43  C
1100 0011 1000 0100 C380 À
1100 0011 1000 0001  C381 Á
1100 0011 1000 0010  C382 Â
1100 0011 1000 0111 C383 Ã
1100 0011 1000 1000 C387 Ç

Na tabela verifica-se que, para representar em binário as letras "A" e "C", apenas são necessários oito dígitos. Cada um desses oito dígitos só pode ter o valor 0 ou 1. Nesse caso são possíveis 256 combinações diferentes (2x2x2x2x2x2x2x2=256).

Uma vez que a codificação ASCII apenas suporta um Byte, permitindo apenas 256 variações, foi necessário criar outras codificações que representassem mais símbolos, como por exemplo a UTF-8.

Escolha da codificação na gravação dum ficheiro de texto, no bloco de notas do Windows

José Tomás Sebastião

Sobre o autor:
  • Consultor na PWM
  • Webdesigner há quinze anos
  • Estudou Engenharia de Telecomunicações e Informática no Instituto Superior Técnico.

Glossário