Status

Lijst status
Aanbevolen
Functioneel toepassingsgebied

Karakterset

Nut en werking

Typering

Karaktercodering

Nut

UTF-8 is een standaard die definieert hoe karakters gecodeerd moeten worden in een stroom van bytes. De standaard zorgt ervoor dat iedere partij de karakters op dezelfde manier uit kan lezen. Alternatieven zijn UTF-16 en UTF-32. Doordat de letters uit het Latijnse alfabet slechts 1 byte in beslag nemen, is UTF-8 voor westerse talen compacter dan het eenvoudigere UTF-16.

Werking

UTF-8 is een tekencodering met variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor het vastleggen van elk van de 128 ASCII-tekens is slechts één byte nodig. Voor alle andere tekens zijn 2 tot 4 bytes nodig. Alle bytes voor zulke tekens hebben het hoogste bit 1, zodat verwarring met de ASCII-tekens wordt voorkomen.

Trefwoorden

Detailinformatie

Volledige naam
8-bit Unicode Transformation Format
Versie
RFC 3629
Beheerorganisatie
IETF

Toetsingsinformatie

Datum van besluit
2009-05-20