صيغة التحويل الموحد-8
UTF-8 هي اختصار للجملة (8-bit Unicode Transformation Format) وترجمتها (صيغة تحويل نظام الحروف الدولي الموحد بقوةثمانية بت) ، هذا الترميز وضع من قبل جميع من روب بايك وكين تومسن لتمثيل معيار نظام الحروف الدولي الموحد للحروف الأبجدية لأغلب دول العالم ، ويتم تشفير الرموز فيها في حجم يتراوح بين بايت واحد و4 بايت للرمز الواحد .
يتم تحديد طول تشفير الرمز بحسب بالشكل الآتي:
- إذا كان قيمة البايت الأول أقل من 127، أي حتى البت الثامن يساوي صفر، فإن هذا البايت هوتام تشفير الرمز، وبالتالي طوله واحد بايت، تقع قيم ASCII في هذا المجال.
- إذا كان قيمة البايت الأول أكبر من 127، أي حتى قيمة البت الثامن يساوي واحد، فإن تشفير الرمز متعدد البايتات حسب الأتي:
- لا يجوز حتىقد يكون البت الثامن من البايت الأول مساويا لواحد والبت السابع يساوي صفر، ووقوع مثل هذه الحالة في البايت الأول من التشفير تعني حتى هناك خطأ إما في التشفير أوفي طريقة القراءة، فهذه القيم مسموحة في البايت الثاني والثالث والرابع ولكن ليس الأول.
- إذا كان البت الثامن من البايت الأول مساويا لواحد وكذلك البت السابع مساويا لواحد والبت السادس يساوي صفر، فإن طول التشفير هو2 بايت.
- إذا كان البت الثامن من البايت الأول مساويا لواحد وكذلك البت السابع مساويا لواحد والبت السادس يساوي واحد والخامس يساوي صفر، فإن طول التشفير هوثلاثة بايت.
- إذا كان البت الثامن من البايت الأول مساويا لواحد وكذلك البت السابع مساويا لواحد والبت السادس يساوي واحد والخامس يساوي واحد والرابع يساوي صفر، فإن طول التشفير هوأربعة بايت.