UTF-8

UTF-8 (8-bit Unicode Transformation Format - Định dạng chuyển đổi Unicode 8-bit) là một bộ mã hóa ký tự với chiều rộng biến thiên dành cho Unicode. Tương tự như UTF-16UTF-32, UTF-8 có thể biểu diễn tất cả các chữ cái trong bộ ký tự Unicode, nhưng điểm khác biệt quan trọng nhất là nó có thể tương thích ngược với ASCII. Vì lý do này, UTF-8 nhanh chóng trở thành bộ mã hóa thống trị trong các tập tin, thư điện tử, trang web[1][2], và các phần mềm xử lý văn bản.

UTF-8 mã hóa mỗi ký tự (điểm mã) thành 1 đến 8 octet (tức là byte gồm 8-bit). 128 ký tự đầu tiên của bộ ký tự Unicode (tương ứng một-một với bộ ASCII) chỉ dùng một octet có cùng giá trị nhị phân như bộ ASCII.

Lực lượng Chuyên trách về Kỹ thuật Liên mạng (Internet Engineering Task Force - IETF) bắt buộc mọi giao thức Internet phải xác định bộ mã hóa dùng trong dữ liệu ký tự, và trong các bộ mã hóa ký tự hỗ trợ phải có UTF-8[3]. Liên minh Thư tín Internet (Internet Mail Consortium - IMC) khuyến cáo tất cả các chương trình thư điện tử phải hiển thị và tạo được thư bằng UTF-8[4].

  1. ^ “Moving to Unicode 5.1”. Official Google Blog. ngày 5 tháng 5 năm 2008. Truy cập ngày 8 tháng 5 năm 2008.
  2. ^ “Usage of character encodings for websites”. W3Techs. Truy cập ngày 30 tháng 3 năm 2010.
  3. ^ Alvestrand, H. (1998). “RFC 2277”. Internet Engineering Task Force. Chú thích journal cần |journal= (trợ giúp); |contribution= bị bỏ qua (trợ giúp)
  4. ^ “Using International Characters in Internet Mail”. Internet Mail Consortium. ngày 1 tháng 8 năm 1998. Bản gốc lưu trữ ngày 26 tháng 10 năm 2007. Truy cập ngày 8 tháng 11 năm 2007.

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy