Библиотека: XML: справочник

Приложение 1

Символы и наборы символов Unicode

Не так давно разработчики приложений и электронных документов пользовались наборами символов ASCII и Latin-1. В наши дни язык XML обеспечивает поддержку полного набора символов Unicode. Помимо ASCII и Latin-1, которые являются лишь незначительной частью набора символов Unicode, последний включает в свой состав множество других специальных символов и — для обеспечения интернационализации XML-документов — алфавиты многих национальных языков.

Это приложение состоит из разделов, каждый из которых посвящен одному классу символов. В начале каждого раздела находятся таблицы, иллюстрирующие и описывающие символы тех наборов, которые наиболее часто используются в англоязычной среде. Подразделы «Другие наборы символов » содержат информацию о поддерживаемых символах, не входящих в английские наборы символов. Дополнительную информацию о таких наборах вы найдете на Web-странице «Unicode 2.0 Charts» (http://www.unicode.org/Unicode.charts/normal/Unicode2.0.html), где перечислены все поддерживаемые в настоящее время наборы символов Unicode и даны ссылки на каждый из них.

Обычные и специальные символы служат для вставки в документ букв алфавита, знаков и неклавиатурных символов. Элементы символьного класса языка XML (такие как BaseChar, CombiningChar, Digit, Extender, Ideographic, Letter) поддерживают специальные символы, перечисленные в приведенных ниже таблицах.

Дополнительную информацию об этих элементах, в том числе о синтаксисе и конкретных символах, поддерживаемых каждым из них, вы можете найти в главе 2 «XML».

ПРИМЕЧАНИЕ Элемент Char поддерживает все символы Unicode, в том числе документированные в этой части, кроме и #xFFFF.

В таблицах с А.1 по А.21 используются следующие заголовки столбцов:

Ch

Печатаемый символ

Глиф

Вид символа или знака

UTC

Код UTC (Unicode Technical Committee —Технический комитет Unicode)

БК

Буквенный код. Одобренный синтаксис символов. В большинстве случаев следует использовать именно его вместо цифрового кода

ЦК

Цифровой код. То же, что предыдущее, но в виде цифрового кода

Описание

Краткое описание символа

ПРИМЕЧАНИЕ      Помимо символов, указанных в этой части, XML также поддерживает четыре стандартных управляющих символа: 
#x9 (код Unicode #x0009) служит для вставки знака горизонтальная табуляция (HT); 
#xA (код Unicode #x000A) служит для вставки знака перевод строки (LF);     
#xD (код Unicode #x000D) служит для вставки знака возврат каретки (CR);    
#x20 (код Unicode #x0020) служит для вставки знака пробел.

Символы и наборы символов элемента BaseChar

В этом разделе рассматриваются символы и наборы символов, поддерживаемые элементом BaseChar.

Набор символов Latin 1 Uppercase and Lowercase

В табл. А.1 приведены буквы набора символов Latin 1 Uppercase and Lowercase (прописные и строчные) для элемента BaseChar.

Таблица A.1. Набор символов Latin 1 Uppercase and Lowercase

Ch

UTC

Ch

UTC

Ch

UTC

Ch

UTC

A

#x0041

N

#x004E

a

#x0061

n

#x006E

B

#x0042

O

#x004F

b

#x0062

o

#x006F

C

#x0043

P

#x0050

c

#x0063

p

#x0070

D

#x0044

Q

#x0051

d

#x0064

q

#x0071

E

#x0045

R

#x0052

e

#x0065

r

#x0072

F

#x0046

S

#x0053

f

#x0066

s

#x0073

G

#x0047

T

#x0054

g

#x0067

t

#x0074

H

#x0048

U

#x0055

h

#x0068

u

#x0075

I

#x0049

V

#x0056

i

#x0069

v

#x0076

J

#x004A

W

#x0057

j

#x006A

w

#x0077

K

#x004B

X

#x0058

k

#x006B

x

#x0078

L

#x004C

Y

#x0059

l

#x006C

y

#x0079

M

#x004D

Z

#x005A

m

#x006D

z

#x007A

Набор символов Latin 1 Supplementary

В табл. А.2 приведены поддерживаемые языком XML символы набора Latin 1 Supplementary (дополнительный) для элемента BaseChar.

Таблица A.2. Набор символов Latin 1 Supplementary

Глиф

UTC

БК

ЦК

Описание

 

#x00C0

À

À

Прописная A с глухим произношением

 

#x00C1

Á

Á

Прописная A со звонким произношением

 

#x00C2

Â

Â

Прописная A с циркумфлексом

 

#x00C3

Ã

Ã

Прописная A с тильдой

 

#x00C4

Ä

Ä

Прописная А с умляутом

 

#x00C5

Å

Å

Прописная А с кружком

 

#x00C6

Æ

Æ

Заглавные АЕ со связкой (лигатурой)

 

#x00C7

Ç

Ç

Прописная C с седилью

 

#x00C8

È

È

Прописная Е с глухим произношением

 

#x00C9

É

É

Прописная E со звонким произношением

 

#x00CA

Ê

Ê

Прописная E с циркумфлексом

 

#x00CB

Ë

Ë

Прописная Е с умляутом

 

#x00CC

Ì

Ì

Прописная I с глухим произношением

 

#x00CD

Í

Í

Прописная I со звонким произношением

 

#x00CE

Î

Î

Прописная I с циркумфлексом

 

#x00CF

Ï

Ï

Прописная I с умляутом

 

#x00D0

Ð

Ð

Прописная исландская ETH

 

#x00D1

Ñ

Ñ

Прописная N с тильдой

 

#x00D2

Ò

Ò

Прописная О с глухим произношением

 

#x00D3

Ó

Ó

Прописная О со звонким произношением

 

#x00D4

Ô

Ô

Прописная O с циркумфлексом

 

#x00D5

Õ

Õ

Прописная O с тильдой

 

#x00D6

Ö

Ö

Прописная O с умляутом

 

#x00D8

Ø

Ø

Зачеркнутая O

 

#x00D9

Ù

Ù

Прописная U с глухим произношением

 

#x00DA

Ú

Ú

Прописная U со звонким произношением

 

#x00DB

Û

Û

Прописная U с циркумфлексом

 

#x00DC

Ü

Ü

Прописная U с умляутом

 

#x00DD

Ý

Ý

Прописная Y со звонким произношением

 

#x00DE

Þ

Þ

Прописная исландская THORN

 

#x00DF

ß

ß

Готическая sz

 

#x00E0

à

à

Строчная a с глухим произношением

 

#x00E1

á

á

Строчная a со звонким произношением

 

#x00E2

â

â

Строчная a с циркумфлексом

 

#x00E3

ã

ã

Строчная a с тильдой

 

#x00E4

ä

ä

Строчная a с умляутом

 

#x00E5

å

å

Строчная a с кружком

 

#x00E6

æ

æ

Строчные ае со связкой (лигатурой)

 

#x00E7

ç

ç

Строчная c с седилью

 

#x00E8

è

è

Строчная e с глухим произношением

 

#x00E9

é

é

Строчная e со звонким произношением

 

#x00EA

ê

ê

Строчная e с циркумфлексом

 

#x00EB

ë

ë

Строчная e с умляутом

 

#x00EC

ì

ì

Строчная i с глухим произношением

 

#x00ED

í

í

Строчная i со звонким произношением

 

#x00EE

î

î

Строчная i с циркумфлексом

 

#x00EF

ï

ï

Строчная i с умляутом

 

#x00F0

ð

ð

Строчная исландская eth

 

#x00F1

ñ

ñ

Строчная n с тильдой

 

#x00F2

ò

ò

Строчная o с глухим произношением

 

#x00F3

ó

ó

Строчная o со звонким произношением

 

#x00F4

ô

ô

Строчная o с циркумфлексом

 

#x00F5

õ

õ

Строчная o с тильдой

 

#x00F6

ö

ö

Строчная o с умляутом

 

#x00F8

ø

ø

Зачеркнутая o

 

#x00F9

ù

ù

Строчная u с глухим произношением

 

#x00FA

ú

ú

Строчная u со звонким произношением

 

#x00FB

û

û

Строчная u с циркумфлексом

 

#x00FC

ü

ü

Строчная u с умляутом

 

#x00FD

ý

ý

Строчная y со звонким произношением

 

#x00FE

þ

þ

Строчная исландская thorn

 

#x00FF

ÿ

ÿ

Строчная y с умляутом

Набор символов Extended Latin-A

В табл. А.3 приведены поддерживаемые языком XML символы набора Extended Latin-A (расширенный) для элемента BaseChar.

Таблица A.3. Набор символов Extended Latin-A

Глиф

UTC

БК

Описание

 

#x0100

Ā

Прописная A с макроном[1]

 

#x0101

ā

Строчная a с макроном

 

#x0102

Ă

Краткая прописная A

 

#x0103

ă

Краткая строчная a

 

#x0104

Ą

Прописная A с огоньком

 

#x0105

ą

Строчная a с огоньком

 

#x0106

Ć

Прописная С со звонким произношением

 

#x0107

ć

Прописная с со звонким произношением

 

#x0108

Ĉ

Прописная С с циркумфлексом

 

#x0109

ĉ

Строчная c с циркумфлексом

 

#x010A

Ċ

Прописная С с точкой

 

#x010B

ċ

Прописная с с точкой

 

#x010C

Č

Прописная C с кароном

 

#x010D

č

Строчная c с кароном

 

#x010E

Ď

Прописная D с кароном

 

#x010F

ď

Строчная d с кароном

 

#x0110

Đ

Зачеркнутая прописная D

 

#x0111

đ

Зачеркнутая строчная d

 

#x0112

Ē

Прописная T с макроном

 

#x0113

ē

Строчная A с макроном

 

#x0114

нет

Краткая прописная E

 

#x0115

нет

Краткая строчная е

 

#x0116

Ė

Прописная E с точкой

 

#x0117

ė

Строчная e с точкой

 

#x0118

Ę

Прописная E с огоньком

 

#x0119

ę

Строчная e с огоньком

 

#x011A

Ě

Прописная E с кароном

 

#x011B

ě

Строчная e с кароном

 

#x011C

Ĝ

Прописная G с циркумфлексом

 

#x011D

ĝ

Строчная g с циркумфлексом

 

#x011E

Ğ

Краткая прописная G

 

#x011F

ğ

Краткая строчная g

 

#x0120

Ġ

Прописная G с точкой

 

#x0121

ġ

Строчная g с точкой

 

#x0122

Ģ

Прописная G с седилью

 

#x0123

нет

Строчная g с седилью

 

#x0124

Ĥ

Прописная H с циркумфлексом

 

#x0125

ĥ

Строчная h с циркумфлексом

 

#x0126

Ħ

Зачеркнутая прописная H

 

#x0127

ħ

Зачеркнутая строчная h

 

#x0128

Ĩ

Прописная I с тильдой

 

#x0129

ĩ

Строчная i тильдой

 

#x012A

Ī

Прописная I с макроном

 

#x012B

ī

Строчная i с макроном

 

#x012C

нет

Краткая прописная I

 

#x012D

нет

Краткая строчная i

 

#x012E

Į

Прописная I с огоньком

 

#x012F

į

Строчная i с огоньком

 

#x0130

İ

Прописная I с точкой

 

#x0131

ı

Строчная i без точки

 

#x0134

Ĵ

Прописная J с циркумфлексом

 

#x0135

ĵ

Строчная j с циркумфлексом

 

#x0136

Ķ

Прописная K с седилью

 

#x0137

ķ

Строчная k с седилью

 

#x0138

нет

kra

 

#x0139

Ĺ

Прописная L со звонким произношением

 

#x013A

ĺ

Строчная l со звонким произношением

 

#x013B

Ļ

Прописная L с седилью

 

#x013C

ļ

Строчная l с седилью

 

#x013D

Ľ

Прописная L с кароном

 

#x013E

ľ

Строчная l с кароном

 

#x0141

Ł

Зачеркнутая прописная L

 

#x0142

ł

Зачеркнутая строчная l

 

#x0143

Ń

Прописная N со звонким произношением

 

#x0144

ń

Строчная n со звонким произношением

 

#x0145

Ņ

Прописная N с седилью

 

#x0146

ņ

Строчная n с седилью

 

#x0147

Ň

Прописная N с кароном

 

#x0148

ň

Строчная n с кароном

 

#x014A

Ŋ

ENG

 

#x014B

ŋ

eng

 

#x014C

Ō

Прописная О с макроном

 

#x014D

ō

Строчная о с макроном

 

#x014E

нет

Краткая прописная O

 

#x014F

нет

Краткая строчная o

 

#x0150

Ő

Прописная О с двойным звонким произношением

 

#x0151

ő

Строчная о с двойным звонким произношением

 

#x0152

Œ

Прописная OE со связкой (лигатурой)

 

#x0153

œ

Строчная oe со связкой (лигатурой)

 

#x0154

Ŕ

Прописная R со звонким произношением

 

#x0155

ŕ

Строчная r со звонким произношением

 

#x0156

Ŗ

Прописная R с седилью

 

#x0157

ŗ

Строчная r с седилью

 

#x0158

Ř

Прописная R с кароном

 

#x0159

ř

Строчная r с кароном

 

#x015A

Ś

Прописная S со звонким произношением

 

#x015B

ś

Строчная s со звонким произношением

 

#x015C

Ŝ

Прописная S с циркумфлексом

 

#x015D

ŝ

Строчная s с циркумфлексом

 

#x015E

Ş

Прописная S с седилью

 

#x015F

ş

Строчная s с седилью

 

#x0160

Š

Прописная S с кароном

 

#x0161

š

Строчная s с кароном

 

#x0162

Ţ

Прописная T с седилью

 

#x0163

ţ

Строчная t с седилью

 

#x0164

Ť

Прописная T с кароном

 

#x0165

ť

Строчная t с кароном

 

#x0166

Ŧ

Зачеркнутая прописная T

 

#x0167

ŧ

Зачеркнутая прописная t

 

#x0168

Ũ

Прописная U с тильдой

 

#x0169

ũ

Строчная u с тильдой

 

#x016A

Ū

Прописная U с макроном

 

#x016B

ū

Строчная u с макроном

 

#x016C

Ŭ

Краткая прописная U

 

#x016D

ŭ

Краткая строчная u

 

#x016E

Ů

Прописная U с кружком

 

#x016F

ů

Строчная u с кружком

 

#x0170

Ű

Прописная U с двойным звонким произношением

 

#x0171

ű

Строчная u с двойным звонким произношением

 

#x0172

Ų

Прописная U с огоньком

 

#x0173

ų

Строчная u с огоньком

 

#x0174

Ŵ

Прописная W с циркумфлексом

 

#x0175

ŵ

Строчная w с циркумфлексом

 

#x0176

Ŷ

Прописная Y с циркумфлексом

 

#x0177

ŷ

Строчная y с циркумфлексом

 

#x0178

Ÿ

Прописная Y с умляутом

 

#x0179

Ź

Прописная Z со звонким произношением

 

#x017A

ź

Строчная z со звонким произношением

 

#x017B

Ż

Прописная Z с точкой

 

#x017C

ż

Строчная z с точкой

 

#x017D

Ž

Прописная Z с кароном

 

#x017E

ž

Строчная z с кароном

Набор символов Extended Latin-B

В табл. А.4 приведены поддерживаемые языком XML символы набора Extended Latin-B (расширенный) для элемента BaseChar.

Таблица A.4: Набор символов Extended Latin-B

Глиф

UTC

Описание

 

#x0180

Зачеркнутая строчная b

 

#x0181

Прописная B с крючком

 

#x0182

Прописная B с верхней чертой

 

#x0183

Строчная b с верхней чертой

 

#x0184

Тонированная прописная «шесть»

 

#x0185

Тонированная строчная «шесть»

 

#x0186

Открытая прописная O

 

#x0187

Прописная C с крючком

 

#x0188

Строчная c с крючком

 

#x0189

Африканская прописная D

 

#x018A

Прописная D крючком

 

#x018B

Прописная D с верхней чертой

 

#x018C

Прописная d с верхней чертой

 

#x018D

Перевернутая дельта

 

#x018E

Обратная E

 

#x018F

шуа

 

#x0190

Открытая прописная E

 

#x0191

Прописная F с крючком

 

#x0192

Строчная f с крючком

 

#x0193

Прописная G с крючком

 

#x0194

Гамма

 

#x0195

хв

 

#x0196

Йота

 

#x0197

Зачеркнутая прописная I

 

#x0198

Прописная K с крючком

 

#x0199

Строчная k с крючком

 

#x019A

l с чертой

 

#x019B

Зачеркнутая лямбда

 

#x019C

Перевернутая M

 

#x019D

Левая N с крючком

 

#x019E

n с правой длинной ножкой

 

#x019F

O с тильдой в середине

 

#x01A0

Прописная O с рогом

 

#x01A1

Строчная o с рогом

 

#x01A2

Заглавные ОИ

 

#x01A3

Строчные ои

 

#x01A4

Прописная P с крючком

 

#x01A5

Строчная p с крючком

 

#x01A6

ИР

 

#x01A7

Тонированная прописная «два»

 

#x01A8

Тонированная строчная «два»

 

#x01A9

ЭШ

 

#x01AA

Зарезервированная петельная эш

 

#x01AB

Палатальная t с крючком

 

#x01AC

Прописная T с крючком

 

#x01AD

Строчная t с крючком

 

#x01AE

Прописная T с ретрофлексивным крючком

 

#x01AF

Прописная U с рогом

 

#x01B0

Строчная u с рогом

 

#x01B1

ЭПСИЛОН

 

#x01B2

Прописная V с крючком

 

#x01B3

Прописная Y с крючком

 

#x01B4

Строчная y с крючком

 

#x01B5

Зачеркнутая прописная Z

 

#x01B6

Зачеркнутая строчная z

 

#x01B7

ЭЖ

 

#x01B8

Обратная ЭЖ

 

#x01B9

Обратная эж

 

#x01BA

эж с хвостиком

 

#x01BB

Перечеркнутая «два»

 

#x01BC

Тонированная прописная «пять»

 

#x01BD

Тонированная строчная «пять»

 

#x01BE

Зачеркнутая обратная горловая остановка

 

#x01BF

ВИНН

 

#x01C0

Прищелкивание зубами

 

#x01C1

Боковое прищелкивание

 

#x01C2

Альвеолярное прищелкивание

 

#x01C3

Ретрофлексивное прищелкивание

 

#x01CD

Прописная A с кароном

 

#x01CE

Строчная a с кароном

 

#x01CF

Прописная I с кароном

 

#x01D0

Строчная i с кароном

 

#x01D1

Прописная O с кароном

 

#x01D2

Строчная o с кароном

 

#x01D3

Прописная U с кароном

 

#x01D4

Строчная u с кароном

 

#x01D5

Умляут над U с макроном

 

#x01D6

Умляут над u с макроном

 

#x01D7

Умляут над U со звонким произношением

 

#x01D8