Interested Article - Набор символов

Набо́р си́мволов ( англ. character set ) — таблица, задающая кодировку конечного множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько символов другого алфавита (точек и тире в коде Морзе , сигнальных флагов на флоте , нулей и единиц ( битов ) в компьютере).

Набор символов в компьютере

Символы в компьютере обычно кодируются одним или нескольким байтами (группами из восьми битов).

Хотя термин «набор символов» ( англ. character set, charset ), узаконенный интернет-стандартом , сейчас является, пожалуй, наиболее авторитетным, предшествовавший ему термин «кодировка» ( англ. encoding ) по-прежнему используется в качестве синонима, в частности, в языках программирования Java , Perl и XSLT , а также в HTML .

Нередко также вместо термина «набор символов» неправильно употребляют термин « кодовая страница », означающий на самом деле частный случай набора символов с однобайтным кодированием.

В настоящее время в основном используются кодировки трёх типов: совместимые с ASCII , совместимые с EBCDIC и основанные на Юникоде 16-битные, с подавляющим преобладанием первых. Представление UTF-8 Юникода совместимо с ASCII. Кодировки на базе EBCDIC (например, ДКОИ ) используются только на некоторых мэйнфреймах . Первоначально в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов стандартизованы , зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали .

В Википедии и других проектах Фонда Викимедиа используется Юникод UTF-8.

Современные 8-битные вычислительные платформы характеризуются небольшими объёмами ОЗУ и ПЗУ; многобайтные кодировки в таких изделиях значительного распространения не получили. Причиной тому не только больший объём, занимаемый текстовыми данными, представленными в многобайтной кодировке, но и отсутствие «лишней» памяти для хранения графического представления дополнительных символов, а также трудность обработки таких строк. В настоящее время часто используются следующие стандартные однобайтные кодировки:

В программах на английском языке — CP437 ;
В программах на русском языке используются такие варианты:
- CP866 — чаще используется более опытными инженерами, начинавшими работать в DOS; позволяет рисовать псевдографические «рамки», но требует хранения исходного текста ПО именно в этой кодовой странице, что бывает затруднительно для начинающих;
- CP1251 — используется, если необходимо иметь русские символы непрерывным массивом для лёгкости их обработки, и в случае наличия ОС Windows, перекодировать такой текст можно без использования стороннего ПО. Но, не позволяет рисовать «рамки».

Автоматическое распознавание кодировок

Во многих современных текстовых редакторах и браузерах присутствует функция автоматического распознавания кодировок, но она не всегда выдает верный результат. Иногда бывает, что текст, набранный например в командной строке или некоторых программах, неверно декодируется, и вместо нормальных слов получается набор непонятных символов. Справиться с прочтением такого текста может помочь большое количество декодеров текста, которые работают онлайн.

Для однобайтных кодировок нужно учитывать тот факт, что частотность использования разных букв сильно различается (например, в русском часто используется «о», но редко «ъ»). Поэтому, зная язык текста, можно легко выбрать кодировку, в которой частотность байтов лучше соответствует частотности букв данного языка.

Альтернативная точка зрения считает подобные эвристические алгоритмы определения кодировки текста вредными, поскольку современные информационные технологии располагают средствами недвусмысленно сопоставить тексту положенную ему кодовую страницу (см., например, MIME ). Широкое же распространение эвристических анализаторов поощряет использование некачественных программ создания текстовых данных, нарушающих стандарты.

Распространённые кодировки

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859 :
- ISO 8859-1 , ISO 8859-2 , ISO 8859-3 , ISO 8859-4 , ISO 8859-5 , ISO 8859-6 , ISO 8859-7 , ISO 8859-8 , , ISO 8859-10 , ISO 8859-11 , ISO 8859-13 , ISO 8859-14 , ISO 8859-15
- CP437 , , CP850 , CP852 , CP855 , , , , , , , CP866 ,
Кодировки Microsoft Windows :
- Windows-1250 для языков Центральной Европы, которые используют латинское написание букв (польский, чешский, словацкий, венгерский, словенский, хорватский, румынский и албанский)
- Windows-1251 для кириллических алфавитов
- Windows-1252 для западных языков
- Windows-1253 для греческого языка
- Windows-1254 для турецкого языка
- для иврита
- для арабского языка
- для балтийских языков
- для вьетнамского языка
MacRoman , MacCyrillic
КОИ8 (KOI8-R, KOI8-U…), КОИ-7
(наиболее знаменитый вариант Microsoft )
- HKSCS
- GB2312
- (Microsoft )
Shift JIS для японского языка (Microsoft )
для корейского языка (Microsoft )
и для китайской письменности
Кодировки UTF-8 , UTF-16 и UTF-32 набора символов Юникод

См. также

Ссылки

Примечания

. Дата обращения: 27 сентября 2008. 16 декабря 2008 года.
. Дата обращения: 27 сентября 2008. 6 октября 2008 года.
. Дата обращения: 5 октября 2008. 13 августа 2017 года.
. Дата обращения: 11 октября 2008. 26 октября 2008 года.
. Дата обращения: 27 сентября 2008. 16 июля 2004 года.
. Дата обращения: 4 декабря 2014. 28 декабря 2014 года.

[1] . Дата обращения: 27 сентября 2008. 16 декабря 2008 года.

[2] . Дата обращения: 27 сентября 2008. 6 октября 2008 года.

[3] . Дата обращения: 5 октября 2008. 13 августа 2017 года.

[4] . Дата обращения: 11 октября 2008. 26 октября 2008 года.

[5] . Дата обращения: 27 сентября 2008. 16 июля 2004 года.

[6] . Дата обращения: 4 декабря 2014. 28 декабря 2014 года.

Кодировки символов
алфавит текст файл данные конверсия
Исторические кодировки	докомп. семафорная (Макарова) Морзе Бодо МТК-2 комп. 6-битная УПП RADIX-50 EBCDIC ДКОИ КОИ-7 ISO 646
современное 8-битное представление	символы ASCII управляющие печатные псевдографика 8-битные код.стр. кириллица КОИ-8 Основная кодировка MacCyrillic ISO 8859 1 (лат.) 2 3 4 5 (кир.) 6 7 8 9 10 11 13 14 15 (€) 16 Windows 1250 1251 (кир.) 1252 1253 1254 WGL4 IBM & DOS 437 850 852 855 866 «альтернативная»
Многобайтные	традиционные GB2312 HTML юникод UTF-32 UTF-16 UTF-8 список символов кириллица
раскладка клавиатуры локаль перевод строки шрифт транслит нестандартные шрифты утилиты iconv recode

Interested Article - Набор символов

Содержание

Набор символов в компьютере

Автоматическое распознавание кодировок

Распространённые кодировки

См. также

Ссылки

Примечания

Минимальный продуктовый набор

Список символов штатов США (песни)

Список логических символов

Same as Набор символов

Набор символов

Набор символов

Набор символов ZX Spectrum

Набор символов

Переносимый набор символов

Набор символов

Импульсный набор

Минимальный продуктовый набор

3-й набор астронавтов НАСА

Офицер Королевского флота: набор и продвижение

Набор ассоциаций

8-й набор астронавтов НАСА

Минимальный продуктовый набор

Минимальный продуктовый набор

Список символов штатов США (песни)

Список логических символов

XOP (набор инструкций)

Экранирование символов

The title for the last searches