Главная | Обратная связь | Поможем написать вашу работу!

32 битные кодовые точки для символов Unicode в Java

В версию Java 2 5. 0 внесены значительные дополнения в типы Character и String для поддержки 32 битных символов Unicode. В прошлом все символы Unicode могли храниться в шестнадцати битах, которые равны размеру значения типа char (и размеру значения, содержащегося в объекте типа Character), поскольку эти значения лежали в диапазоне от 0 до FFFF. Но с некоторого времени набор символов Unicode был расширен, и теперь требует больше 16 бит для хранения символа. Новая версия наборов символов Unicode включает в себя символы, лежащие в диапазоне от 0 до 10FFFF.

Кодовая точка или позиция (code point), кодовая единица или кодовое значение (code unit) и дополнительный символ (supplemental character). Применительно к языку Java кодовая точка — это код символа из диапазона от 0 до 10FFFF. В языке Java термин “кодовая единица” используется для ссылки на 16-битные символы. Символы, имеющие значения, большие, чемFFFF, называются дополнительными.

Расширение набора символов Unicode создало фундаментальные проблемы для языка Java. Поскольку у дополнительного символа значение больше, чем может вместить тип char, потребовались некоторые средства для хранения и обработки дополнительных символов. В версии Java 2 5. 0 эта проблема решена двумя способами. Во-первых, язык Java использует два значения типа char для представления дополнительного символа. Первое из них называется верхним суррогатом (high surrogate), а второе – нижним суррогатом (low surrogate). Разработаны новые методы, такие как codePointAt(), для преобразований кодовых точек в дополнительные символы и обратно.

Во-вторых, в языке Java перегружены некоторые из существовавших ранее методов в классах Character и String. В перегруженных вариантах методов используются данные типа int вместо char. Поскольку размер переменной или константы типа int достаточно велик для размещения любого символа как единичного значения, этот тип может использоваться для хранения любого символа. Например, у метода isDigit() теперь два варианта, приведенные далее:

Первый из приведенных вариантов – первоначальный, второй – версия, поддерживающая 32-битные кодовые точки. У всех методов is …, таких как isLetter() и isSpaceChar(), есть версии для кодовых точек, как и у методов to …, таких какtoUpperCase() и toLowerCase().

В дополнение к методам, перегруженных для обработки кодовых точек, в язык Java, в класс Character включены новые методы, обеспечивающие дополнительную поддержку кодовых точек. Некоторые из них перечислены в таблице:

Метод	Описание
static int charCount(int cp)	Возвращает 1, если cp можно представить одним значением типа char. Возвращает 2, если требуется два значения типа char.
static int codePointAt(CharSequence chars, int loc)	Возвращает кодовую точку для символьной позиции (location), заданной в параметре loc
static int codePointAt(char[] chars, int loc)	Возвращает кодовую точку для символьной позиции (location), заданной в параметре loc
static int codePointBefore(CharSequence chars, int loc)	Возвращает кодовую точку для символьной позиции (location) предшествующей заданной в параметре loc
static int codePointBefore(char[] chars, int loc)	Возвращает кодовую точку для символьной позиции (location) предшествующей заданной в параметре loc
static boolean isSupplementaryCodePoint(int cp)	Возвращает true, если cp содержит дополнительный символ
static boolean isHighSurrogate(char ch)	Возвращает true, если ch содержит допустимый верхний суррогат символа.
static boolean isLowSurrogate(char ch)	Возвращает true, если ch содержит допустимый нижний суррогат символа.
static boolean isSurrogatePair(char highCh, char lowCh)	Возвращает true, если highCh и lowCh формируют допустимую суррогатную пару.
static boolean isValidCodePoint(int cp)	Возвращает true, если cp содержит допустимую кодовую точку.
static char[] toChars(int cp)	Преобразует кодовую точку, содержащуюся в cp, в ее эквивалент типа char, который может потребовать двух значений типа char. Возвращает массив, содержащий результат … Дописать!!!
static int toChars(int cp, char target[], int loc)	Преобразует кодовую точку, содержащуюся в cp, в ее эквивалент типа char, запоминает результат в массиве target, начиная с позиции, заданной в loc. Возвращает 1, если cp можно представить одним значением типа char, и 2 в противном случае.
static int toCodePoint(char ighCh, char lowCh)	Преобразует highCh и lowCh в их эквивалентные кодовые точки.

Для обработки кодовых точек у класса String есть ряд методов. В класс String также добавлен приведенный далее конструктор, поддерживающий расширенный набор символов Unicode:

String(int[] codePoints, int startIndex, int numChars)

В приведенной синтаксической записи codePoints – это массив, содержащий кодовые точки. Формируется результирующая строка протяженностью numChars, начиная с позиции startIndex.

Некоторые методы класса String, обеспечивающие поддержку 32-битных кодовых точек для символов Unicode.

Метод	Описание
int codePointAt(int i)	Возвращает кодовую точку для позиции в строке, заданной параметром i
int codePointBefore(int i)	Возвращает кодовую точку для позиции в строке, предшествующей заданной параметром i
int codePointCount(int start, int end)	Возвращает количество кодовых точек в порции вызывающей строки, расположенной между символьными порциями start и end-1
int offsetByCodePoints(int start, int num)	Возвращает позицию в вызывающей строке, расположенную на расстоянии num кодовых точек после начальной позиции, заданной параметром start

⇐ Предыдущая 16 17 18 19 202122 23 24 25 Следующая ⇒

Воспользуйтесь поиском по сайту: