Добрі поради » Інтернет » Кодування Юнікод: стандарт кодування символів

Кодування Юнікод: стандарт кодування символів

28-01-2016, 08:42
1 655
0
Кожен користувач Інтернету в спробах налаштувати ту чи іншу його функцію хоча б одного разу бачив на дисплеї написане латинськими літерами слово «Юнікод». Що це таке, ви дізнаєтеся, прочитавши цю статтю.
Кодування Юнікод: стандарт кодування символів

Визначення

Кодування Юнікод — стандарт кодування символів. Він був запропонований некомерційною організацією Unicode Inc. у 1991 році. Стандарт розроблений з метою об'єднання якомога більшої кількості різнотипних символів в одному документі. Сторінка, яка створена на його основі, може містити в собі букви і ієрогліфи з різних мов (від російської до корейського) і математичні знаки. При це все символи в даній кодуванні відображаються без проблем.


Причини створення

Колись, задовго до появи єдиної системи Юнікод кодування вибиралася виходячи з уподобань автора документа. З цієї причини нерідко, щоб прочитати один документ, треба було використовувати різні таблиці. Іноді це доводилося робити по кілька разів, що істотно ускладнювало життя звичайному користувачеві. Як вже було сказано, вирішення цієї проблеми в 1991 році було запропоновано некомерційною організацією Unicode Inc., запропонувала новий тип кодування символів. Він був покликаний об'єднати морально застарілі і різноманітні стандарти. Юнікод - кодування, яка озволила домогтися неможливого на той момент: створити інструмент, підтримує величезну кількість символів. Результат перевершив багато очікування – з'явилися документи, які одночасно містять як англійська, так і російський текст, латинь і математичні вирази.


Але створення єдиної кодування передувала необхідність вирішення низки проблем, які виникли з-за величезного розмаїття стандартів, що вже існували на той момент. Найпоширеніші з них:
  • ельфійські письмена, або «кракозябры»;
  • обмеженість набору символів;
  • проблема перетворення кодувань;
  • дублювання шрифтів.
  • Кодування Юнікод: стандарт кодування символів

    Невеликий історичний екскурс

    Уявіть, що на дворі 80-е. Комп'ютерна техніка ще не так поширена і має вигляд, відмінний від сьогоднішнього. У той час кожна ОС по-своєму унікальна і допрацьована кожним ентузіастом під конкретні потреби. Необхідність обміну інформацією перетворюється на додаткову доопрацювання всього на світі. Спроба прочитати документ, створений під інший ОС, часто виводить на екран незрозумілий набір символів, і починаються ігри з кодуванням. Не завжди виходить зробити це швидко, і часом необхідний документ вдається відкрити через півроку, а то й пізніше. Люди, які часто обмінюються інформацією, створюють для себе таблиці перетворення. І ось робота над ними виявляє цікаву деталь: створювати їх потрібно за двома напрямками: «з моєї в твою» і назад. Зробити банальну інверсію обчислень машина не може, для неї в правому стовпці исходник, а в лівому - результат, але ніяк не навпаки. Якщо з'являлася необхідність використовувати будь-які спеціальні символи документі, їх необхідно було спочатку додати, а потім ще й пояснити партнеру, що йому потрібно зробити, щоб ці символи не перетворилися в «кракозябры». І не будемо забувати, що під кожну кодування доводилося розробляти або впроваджувати власні шрифти, що призводило до створення величезної кількості дублів в ОС.
    Уявіть ще, що на сторінці шрифтів ви побачите 10 штук ідентичних Times New Roman з маленькими позначками: для UTF-8 UTF-16 ANSI, UCS-2. Тепер ви розумієте, що розробка універсального стандарту була нагальною необхідністю?
    Кодування Юнікод: стандарт кодування символів

    «Батьки-творці»

    Витоки створення Unicode слід шукати в 1987 році, коли Джо Беккер з Xerox разом з Коллінзом і Марком Девісом з компанії Apple почали дослідження в сфері практичного створення універсального набору символів. У серпні 1988 року Джо Беккер опублікував проект пропозиції щодо створення 16-бітної міжнародної багатомовної системи кодування. Через кілька місяців робоча група Unicode була розширена за рахунок включення Кена Уістлера і Майка Кернегана з RLG, Глен Райт з Sun Microsystems і декількох інших фахівців, що дозволило завершити роботи за попередньою формування єдиного стандарту кодування.
    Кодування Юнікод: стандарт кодування символів

    Загальний опис

    В основі Unicode лежить поняття символу. Під цим визначенням розуміється абстрактне явище, що існує в конкретному виді писемності і реалізується через графеми (свої «портрети»). Кожен символ ставить в "Юнікод" унікальним кодом, що належить конкретному блоку стандарту. Наприклад, графема B є і в англійській, і в російській алфавітах, але в Unicode їй відповідають 2 різних символу. До них застосовується перетворення в рядкову букву, тобто кожен з них описується ключем бази даних, набором властивостей і повною назвою.

    Переваги Unicode

    Від інших сучасників кодування Юнікод відрізнялася величезним запасом знаків для «шифрування» символів. Справа в тому, що його попередники мали 8 біт, тобто підтримували 28 символів, а от нова розробка мала вже 216 символів, що стало гігантським кроком вперед. Це дозволило закодувати практично всі існуючі і поширені алфавіти.
    З появою "Юнікод" відпала потреба використовувати таблиці перетворення: як єдиний стандарт він просто зводив нанівець їх необхідність. Точно так само канули в Лету «кракозябры» - єдиний стандарт зробив їх неможливими, так само як і виключив необхідність створення дублів шрифтів.

    Розвиток Unicode

    Звичайно, прогрес не стоїть на місці, і з моменту першої презентації минуло вже 25 років. Однак кодування Юнікод вперто утримує свої позиції в світі. Багато в чому це стало можливим завдяки тому, що він став легко впроваджуються і отримав поширення, будучи визнаним розробникам пропрієтарного (платного) і відкритого ПЗ.
    Кодування Юнікод: стандарт кодування символів
    При цьому не варто думати, що сьогодні нам доступна та ж кодування Юнікод, що і чверть століття тому. На даний момент її версія змінилася на 5.х.х, а кількість кодованих символів зросла до 231. Від можливості використовувати більший запас знаків відмовилися, щоб все ще зберегти підтримку Unicode-16 (кодування, де максимальна їх кількість обмежувалося цифрою 216). З моменту своєї появи і до версії 200 "Юнікод-стандарт" збільшив кількість символів, які до нього входили, практично в 2 рази. Зростання можливостей тривав і в наступні роки. До версії 400 вже з'явилася необхідність збільшити сам стандарт, що і було зроблено. В результаті "Юнікод" набув того вигляду, в якому ми його знаємо сьогодні.
    Кодування Юнікод: стандарт кодування символів

    Що ще є в Unicode?

    Крім величезного, постійно пополняющегося кількості символів Юнікод-кодування текстової інформації має ще одну корисну рису. Мова йде про так званої нормалізації. Замість того, щоб перегортати весь документ символ за символом і підставляти відповідні значки з таблиці відповідності, використовується один з існуючих алгоритмів нормалізації. Про що мова? Замість того щоб витрачати ресурси обчислювальної машини на регулярну перевірку одного і того ж символу, який може бути схожим в різних алфавітах, використовується спеціальний алгоритм. Він дозволяє винести схожі символи окремою графою таблиці підстановки і звертатися вже до них, а не раз перевіряти всі дані. Таких алгоритмів розроблено та впроваджено чотири. У кожному з них перетворення відбувається за строго визначеним принципом, що відрізняється від інших, тому назвати якийсь один з них найбільш ефективним не представляється можливим. Кожен розроблявся для певних потреб, було запроваджено і успішно використовується.
    Кодування Юнікод: стандарт кодування символів

    Поширення стандарту

    За 25 років своєї історії кодування Юнікод отримала, мабуть, найбільшого поширення в світі. Під цей стандарт підганяються також програми і web-сторінки. Про широту застосування може говорити той факт, що Unicode сьогодні використовують понад 60 % інтернет-ресурсів. Тепер вам відомо, коли з'явився стандарт Юнікод. Що це таке, ви також знаєте і зможете оцінити всі значення винаходу, зробленого групою фахівців Unicode Inc. більше 25 років тому.
    Схожі добрі поради по темі
    Кольори в "Майнкрафте" - кодування
    Кольори в "Майнкрафте" - кодування
    Для тих, хто створює моди для "Майнкрафта" або прагне прикрасити написи в книгах і на табличках у грі, ми представляємо список кодів, необхідних для
    UTF-8 - кодування символів
    UTF-8 - кодування символів
    Юнікод підтримує практично всі існуючі набори символів. Найкращою формою кодування набору символів Юнікоду є UTF-8-кодування. У ній реалізована
    Чому двійкове кодування є універсальним? Методи програмування
    Чому двійкове кодування є універсальним? Методи програмування
    Комп'ютер обробляє велику кількість інформації. Аудіо-файли, картинки, тексти – все це необхідно відтворити або вивести на екран. Чому двійкове
    Примусове видалення програм: огляд популярних утиліт
    Примусове видалення програм: огляд популярних утиліт
    Видалення шкідливих програм – це те, з чим зв'язувався навіть самий недосвідчений користувач комп'ютера. На жаль, не завжди можна видалити небажаний
    Двійкове кодування інформації
    Двійкове кодування інформації
    Стаття оповідає про найдавніші витоки кодування інформації, а також про її сучасному стані. Розкривається поняття двійкового коду.
    Як визначити кодування? Навіщо це потрібно?
    Як визначити кодування? Навіщо це потрібно?
    Кожна програма пишеться з допомогою спеціального коду, який є базовою частиною програмування. Сьогодні ми розповімо про те, як визначити кодування,