[inizio] [indice generale] [precedente] [successivo] [indice analitico] [contributi]


125. Esempi di codifica dei caratteri

In questo capitolo si raccolgono le descrizioni di alcuni esempi di insiemi di caratteri codificati e di forme codificate del carattere tradizionali. ╚ il caso di ricordare che nella sezione 235.1.1 viene descritto il funzionamento del programma di utilitÓ `recode', specializzato nella conversione dei file di testo.

125.1 ASCII (ISO 646)

L'ASCII Ŕ una codifica molto semplice, in cui ogni punto di codifica corrisponde direttamente a un gruppo di 7ábit, inteso come un intero senza segno, senza bisogno di trasformazioni. Sulla base di questa codifica si sono sviluppate molte varianti, soprattutto a 8ábit. Tuttavia, oggi, quando si parla di ASCII si tende a fare riferimento prevalentemente allo standard originale, in cui si utilizzavano valori compresi tra 0 e 127, per rappresentare i quali bastano solo 7ábit. Eventualmente, volendo essere precisi, per fare riferimento all'ASCII tradizionale si pu˛ utilizzare la denominazione źUS-ASCII╗.

L'ASCII non si occupa solo di definire la codifica dei segni tipografici, ma include anche dei codici di controllo, ai quali abbina un nome, ma senza potervi attribuire un significato univoco valido in tutti i contesti. Si tratta dei punti di codifica da 0 a 31 e del 127 in decimale (il punto di codifica 32 rappresenta lo spazio normale).

Le tabelle da 125.1 a 125.4 mostrano nel dettaglio la codifica ASCII.

Binario Esadecimale Ottale Decimale Carattere
00000000 0x00 000 000 <NUL> \0
00000001 0x01 001 001 <SOH>
00000010 0x02 002 002 <STX>
00000011 0x03 003 003 <ETX>
00000100 0x04 004 004 <EOT>
00000101 0x05 005 005 <ENQ>
00000110 0x06 006 006 <ACK>
00000111 0x07 007 007 <BEL> \a
00001000 0x08 010 008 <BS> \b
00001001 0x09 011 009 <HT> \t
00001010 0x0A 012 010 <LF> \n
00001011 0x0B 013 011 <VT> \v
00001100 0x0C 014 012 <FF> \f
00001101 0x0D 015 013 <CR> \r
00001110 0x0E 016 014 <SO>
00001111 0x0F 017 015 <SI>
00010000 0x10 020 016 <DLE>
00010001 0x11 021 017 <DC1>
00010010 0x12 022 018 <DC2>
00010011 0x13 023 019 <DC3>
00010100 0x14 024 020 <DC4>
00010101 0x15 025 021 <NAK>
00010110 0x16 026 022 <SYN>
00010111 0x17 027 023 <ETB>
00011000 0x18 030 024 <CAN>
00011001 0x19 031 025 <EM>
00011010 0x1A 032 026 <SUB>
00011011 0x1B 033 027 <ESC>
00011100 0x1C 034 028 <FS>
00011101 0x1D 035 029 <GS>
00011110 0x1E 036 030 <RS>
00011111 0x1F 037 031 <US>
00100000 0x20 040 032 <SP>

Tabella 125.1: US-ASCII (ISO 646).

Binario Esadecimale Ottale Decimale Carattere
00100001 0x21 041 033 !
00100010 0x22 042 034 "
00100011 0x23 043 035 #
00100100 0x24 044 036 $
00100101 0x25 045 037 %
00100110 0x26 046 038 &
00100111 0x27 047 039 '
00101000 0x28 050 040 (
00101001 0x29 051 041 )
00101010 0x2A 052 042 *
00101011 0x2B 053 043 +
00101100 0x2C 054 044 ,
00101101 0x2D 055 045 -
00101110 0x2E 056 046 .
00101111 0x2F 057 047 /
00110000 0x30 060 048 0
00110001 0x31 061 049 1
00110010 0x32 062 050 2
00110011 0x33 063 051 3
00110100 0x34 064 052 4
00110101 0x35 065 053 5
00110110 0x36 066 054 6
00110111 0x37 067 055 7
00111000 0x38 070 056 8
00111001 0x39 071 057 9
00111010 0x3A 072 058 :
00111011 0x3B 073 059 ;
00111100 0x3C 074 060 <
00111101 0x3D 075 061 =
00111110 0x3E 076 062 >
00111111 0x3F 077 063 ?
01000000 0x40 100 064 @

Tabella 125.2: US-ASCII (ISO 646).

Binario Esadecimale Ottale Decimale Carattere
01000001 0x41 101 065 A
01000010 0x42 102 066 B
01000011 0x43 103 067 C
01000100 0x44 104 068 D
01000101 0x45 105 069 E
01000110 0x46 106 070 F
01000111 0x47 107 071 G
01001000 0x48 110 072 H
01001001 0x49 111 073 I
01001010 0x4A 112 074 J
01001011 0x4B 113 075 K
01001100 0x4C 114 076 L
01001101 0x4D 115 077 M
01001110 0x4E 116 078 N
01001111 0x4F 117 079 O
01010000 0x50 120 080 P
01010001 0x51 121 081 S
01010010 0x52 122 082 R
01010011 0x53 123 083 S
01010100 0x54 124 084 T
01010101 0x55 125 085 U
01010110 0x56 126 086 V
01010111 0x57 127 087 W
01011000 0x58 130 088 X
01011001 0x59 131 089 Y
01011010 0x5A 132 090 Z
01011011 0x5B 133 091 [
01011100 0x5C 134 092 \ \\
01011101 0x5D 135 093 ]
01011110 0x5E 136 094 ^
01011111 0x5F 137 095 _
01100000 0x60 140 096 `

Tabella 125.3: US-ASCII (ISO 646).

Binario Esadecimale Ottale Decimale Carattere
01100001 0x61 141 097 a
01100010 0x62 142 098 b
01100011 0x63 143 099 c
01100100 0x64 144 100 d
01100101 0x65 145 101 e
01100110 0x66 146 102 f
01100111 0x67 147 103 g
01101000 0x68 150 104 h
01101001 0x69 151 105 i
01101010 0x6A 152 106 j
01101011 0x6B 153 107 k
01101100 0x6C 154 108 l
01101101 0x6D 155 109 m
01101110 0x6E 156 110 n
01101111 0x6F 157 111 o
01110000 0x70 160 112 p
01110001 0x71 161 113 q
01110010 0x72 162 114 r
01110011 0x73 163 115 s
01110100 0x74 164 116 t
01110101 0x75 165 117 u
01110110 0x76 166 118 v
01110111 0x77 167 119 w
01111000 0x78 170 120 x
01111001 0x79 171 121 y
01111010 0x7A 172 122 z
01111011 0x7B 173 123 {
01111100 0x7C 174 124 |
01111101 0x7D 175 125 }
01111110 0x7E 176 126 ~
01111111 0x7F 177 127 <DEL>

Tabella 125.4: US-ASCII (ISO 646).

125.2 ISO 8859-n

Le codifiche ISO 8859-n, dove n Ŕ un numero da 1 a 15, rappresentano per il passato l'evoluzione pi¨ coerente dell'ASCII, in quanto utilizzano tutte gli stessi punti di codifica iniziali da 0 a 127, corrispondenti esattamente all'ASCII originale.

Come nel caso dell'ASCII, non c'Ŕ distinzione tra punto di codifica e forma codificata del carattere; in questa situazione si usano valori fino a 255, attraverso un byte intero.

Le codifiche ISO 8859-n introducono altri codici di controllo, nell'intervallo di punti di codifica che va da 128 a 159.

Per quanto riguarda le lingue occidentali, la codifica ISO 8859 pi¨ comune Ŕ ISO 8859-1, conosciuta anche come ISO Latiná1, che comunque, nel prossimo futuro potrebbe essere sostituita da ISO 8859-15 (ISO Latiná9), in cui si inserisce il simbolo dell'Euro al posto del simbolo di valuta generico.

Le figure da 125.1 a 125.3 mostrano nel dettaglio la codifica ISO 8859-1. Si tenga presente che nel caso di ISO 8859-15, il punto di codifica 164 viene abbinato al simbolo dell'Euro.

112.jpg

Figura 125.1: ISO 8859-1 prima parte.


113.jpg

Figura 125.2: ISO 8859-1 seconda parte.


114.jpg

Figura 125.3: ISO 8859-1 terza parte.

125.3 Riferimenti

---------------------------

Appunti Linux 2000.04.12 --- Copyright ę 1997-2000 Daniele Giacomini -- ádanieleá@ápluto.linux.it


[inizio] [indice generale] [precedente] [successivo] [indice analitico] [contributi]