Article 04 | Norme Unicode

La norme Unicode fournit un numéro unique pour chaque caractère, quelle que soit la plate-forme, le programme ou la langue. Il s'agit de la norme universelle de codage de caractères utilisée pour représenter le texte pour le traitement informatique.

Unicode fournit un moyen cohérent d'encoder du texte brut multilingue, ce qui facilite l'échange international de fichiers texte, car il définit les codes pour les caractères des principales langues. Cela inclut les signes de ponctuation, les signes diacritiques, les symboles mathématiques et techniques, les flèches, les dingbats, etc.

Avant l'invention d'Unicode, il existait des centaines de systèmes de codage différents. L'Union européenne à elle seule nécessitait plusieurs systèmes différents, alors que même une seule langue comme l'anglais en nécessitait plusieurs pour toutes ses lettres, sa ponctuation et ses symboles techniques.

Contrairement aux systèmes plus anciens, Unicode permet à plusieurs systèmes d'écriture de coexister dans un seul fichier de données. Les systèmes qui reconnaissent Unicode peuvent lire et traiter de manière cohérente les données de différentes langues.

Unicode utilise un codage 16 bits qui fournit des points de code pour plus de 65,000 16 caractères. Pour que le codage des caractères reste simple et efficace, il attribue à chaque caractère une valeur unique de 65,000 bits et n'utilise pas de modes complexes ni de codes d'échappement. Alors que 10646 16 caractères suffisent pour encoder des milliers de caractères utilisés dans les principales langues du monde, la norme Unicode et ISO XNUMX fournissent un mécanisme d'extension appelé UTF-XNUMX qui permet d'encoder jusqu'à un million de caractères supplémentaires, sans l'utilisation de codes d'échappement. . Ceci est suffisant pour toutes les exigences de codage de caractères connues, y compris la couverture complète de tous les scripts historiques du monde.

Il convient de noter qu'Unicode encode les scripts pour les langues, plutôt que pour les langues uniquement. Les systèmes qui sont écrits pour plus d'une langue partagent des ensembles de symboles graphiques qui ont des dérivations historiquement liées. L'union de tous ces symboles graphiques est traitée comme une seule collection de caractères pour le codage et est identifiée comme une seule écriture. De nombreux scripts (en particulier le latin) sont utilisés pour écrire de nombreuses langues.

Unicode couvre toutes les langues qui peuvent être écrites dans les scripts suivants : latin, grec, cyrillique, arménien, hébreu, arabe, syrien, thaana, devanagari, bengali, gurmukhi, oriya, tamoul, télougou, kannada, malayalam, cinghalais, thaï, Lao, tibétain, birman, géorgien, hangul, éthiopien, cherokee, syllabique autochtone canadienne, khmer, mongol, han (idéogrammes japonais, chinois, coréen), hiragana, katakana, yi et bien plus encore. Veuillez consulter l'annexe 03 pour la liste complète des scripts pris en charge.

Selon le niveau de prise en charge d'Unicode dans le navigateur utilisé et si les polices nécessaires sont installées, vous pouvez rencontrer des problèmes d'affichage pour certaines traductions, en particulier avec des scripts complexes tels que l'arabe.

Enregistré avec un fichier texte, le standard de codage fournit les informations dont l'ordinateur a besoin pour afficher le texte à l'écran. Par exemple, dans le script de codage cyrillique (Microsoft Windows), le caractère É a la valeur numérique 201. Lorsqu'un fichier contenant ce caractère est ouvert sur un ordinateur qui utilise le script de codage cyrillique (Windows), l'ordinateur lit le 201 valeur et affiche É à l'écran. Toutefois, si le même fichier est ouvert sur un ordinateur qui utilise un script de codage différent, l'ordinateur affiche le caractère correspondant à la valeur numérique 201 dans sa norme de codage par défaut. Par exemple, si l'ordinateur utilise le script de codage d'Europe occidentale (Windows), le caractère du fichier cyrillique d'origine s'affichera sous la forme É à la place.

Dans cette section, GlobalVision décrit les meilleures pratiques relatives à la norme Unicode.


4.1 Installez tous les scripts d'encodage nécessaires sur votre ordinateur

ÉVALUATION
Le texte apparaît avec des caractères erronés, brouillés ou sous forme de Wingdings (points d'interrogation, cases, étoiles, etc. : £®Ð£¸CPa ¡£Õ).

QUESTIONS
Les systèmes d'écriture alphabétique varient d'une langue à l'autre. Par conséquent, les ordinateurs doivent utiliser différents scripts de codage. Le caractère affiché dépend du script de codage installé dans votre système d'exploitation. REMARQUE : Certaines langues/scripts d'affichage sont installés par défaut, tandis que d'autres nécessitent l'installation de fichiers de langue supplémentaires.

EXEMPLE

Exemple de normes d'encodage pour différents alphabets

SOLUTION
Do:
Installez tous les systèmes d'encodage requis (scripts) sur votre ordinateur.

Ne pas:
Ouvrez les fichiers contenant des scripts qui ne sont pas installés sur votre ordinateur.

CONSEILS
Les étapes suivantes décrivent comment installer ou activer les scripts d'encodage nécessaires (le cas échéant).

  • Récupérez le CD d'installation de Microsoft Windows.
  • Installez tous les scripts/langages appropriés.
  • Allez dans le Panneau de configuration et cliquez sur l'onglet Claviers et langues.
  • Choisissez une langue sous Langue d'affichage.
  • Cliquez sur OK.

4.2 Validez vos polices pour toutes les langues utilisées

ÉVALUATION
Les logiciels de lecture d'écran pour les aveugles et d'autres programmes interprètent mal le contenu/texte des fichiers PDF.

QUESTIONS

  • Les polices sont vendues avec différents packages de scripts d'encodage.
  • La possibilité de taper une police spécifique ne garantit pas que la police contient les scripts de codage nécessaires pour la langue utilisée.
  • Les programmes logiciels ne peuvent pas lire les caractères si la police ne dispose pas de tous les scripts d'encodage nécessaires (par exemple mg = £®).

EXEMPLE

Exemple de caractères de police ne s'affichant pas correctement par certains logiciels

SOLUTION
Do:
Créer un inventaire des actifs.
Achetez la version "Pro" d'une police.
Vérifiez les scripts de prise en charge lors de l'achat d'une police.
Achetez tous les scripts requis.
Vérifiez les scripts fournis avec une police chaque fois que vous changez de langue et de police.
Normalisez les polices utilisées pour chaque langue.

Ne pas:
Utilisez des polices qui ne prennent en charge qu'un nombre limité de scripts.

CONSEILS
Les étapes suivantes expliquent comment valider une police avec Apple Font Book :

  • Ouvrez le livre des polices.
  • Sélectionnez la police en question dans la liste des polices.
  • Cliquez sur Fichier et sélectionnez Valider la police.
  • Vérifiez les résultats de la validation.

4.3 Utiliser des polices prenant en charge Unicode

ÉVALUATION
Une corruption de caractères peut se produire lors du transfert de texte vers un fichier PDF.

QUESTIONS
Toutes les polices ne prennent pas en charge le codage Unicode.

EXEMPLE

Exemple d'erreurs d'affichage lorsqu'une police ne contient pas tous les scripts d'encodage nécessaires

SOLUTION
Do:
Utilisez des polices basées sur Unicode.
Standardisez les polices tout au long de la chaîne d'approvisionnement.

Ne pas:
Utilisez des polices bitmap (écran).

CONSEILS
Les étapes suivantes expliquent comment identifier les caractères Unicode :
Microsoft Word:

  • Sélectionnez le caractère en question.
  • Appuyez sur ALT+X pour afficher sa valeur Unicode.

Adobe Illustrator et InDesign :

  • Allez dans le menu Type et sélectionnez Glyphes.
  • Cliquez sur le caractère en question pour afficher sa valeur Unicode.

Icône suivanteSection suivante
Article 05 | Polices

Article 04 | Norme Unicode

La norme Unicode fournit un numéro unique pour chaque caractère, quelle que soit la plate-forme, le programme ou la langue. Il s'agit de la norme universelle de codage de caractères utilisée pour représenter le texte pour le traitement informatique.

Unicode fournit un moyen cohérent d'encoder du texte brut multilingue, ce qui facilite l'échange international de fichiers texte, car il définit les codes pour les caractères des principales langues. Cela inclut les signes de ponctuation, les signes diacritiques, les symboles mathématiques et techniques, les flèches, les dingbats, etc.

Avant l'invention d'Unicode, il existait des centaines de systèmes de codage différents. L'Union européenne à elle seule nécessitait plusieurs systèmes différents, alors que même une seule langue comme l'anglais en nécessitait plusieurs pour toutes ses lettres, sa ponctuation et ses symboles techniques.

Contrairement aux systèmes plus anciens, Unicode permet à plusieurs systèmes d'écriture de coexister dans un seul fichier de données. Les systèmes qui reconnaissent Unicode peuvent lire et traiter de manière cohérente les données de différentes langues.

Unicode utilise un codage 16 bits qui fournit des points de code pour plus de 65,000 16 caractères. Pour que le codage des caractères reste simple et efficace, il attribue à chaque caractère une valeur unique de 65,000 bits et n'utilise pas de modes complexes ni de codes d'échappement. Alors que 10646 16 caractères suffisent pour encoder des milliers de caractères utilisés dans les principales langues du monde, la norme Unicode et ISO XNUMX fournissent un mécanisme d'extension appelé UTF-XNUMX qui permet d'encoder jusqu'à un million de caractères supplémentaires, sans l'utilisation de codes d'échappement. . Ceci est suffisant pour toutes les exigences de codage de caractères connues, y compris la couverture complète de tous les scripts historiques du monde.

Il convient de noter qu'Unicode encode les scripts pour les langues, plutôt que pour les langues uniquement. Les systèmes qui sont écrits pour plus d'une langue partagent des ensembles de symboles graphiques qui ont des dérivations historiquement liées. L'union de tous ces symboles graphiques est traitée comme une seule collection de caractères pour le codage et est identifiée comme une seule écriture. De nombreux scripts (en particulier le latin) sont utilisés pour écrire de nombreuses langues.

Unicode couvre toutes les langues qui peuvent être écrites dans les scripts suivants : latin, grec, cyrillique, arménien, hébreu, arabe, syrien, thaana, devanagari, bengali, gurmukhi, oriya, tamoul, télougou, kannada, malayalam, cinghalais, thaï, Lao, tibétain, birman, géorgien, hangul, éthiopien, cherokee, syllabique autochtone canadienne, khmer, mongol, han (idéogrammes japonais, chinois, coréen), hiragana, katakana, yi et bien plus encore. Veuillez consulter l'annexe 03 pour la liste complète des scripts pris en charge.

Selon le niveau de prise en charge d'Unicode dans le navigateur utilisé et si les polices nécessaires sont installées, vous pouvez rencontrer des problèmes d'affichage pour certaines traductions, en particulier avec des scripts complexes tels que l'arabe.

Enregistré avec un fichier texte, le standard de codage fournit les informations dont l'ordinateur a besoin pour afficher le texte à l'écran. Par exemple, dans le script de codage cyrillique (Microsoft Windows), le caractère É a la valeur numérique 201. Lorsqu'un fichier contenant ce caractère est ouvert sur un ordinateur qui utilise le script de codage cyrillique (Windows), l'ordinateur lit le 201 valeur et affiche É à l'écran. Toutefois, si le même fichier est ouvert sur un ordinateur qui utilise un script de codage différent, l'ordinateur affiche le caractère correspondant à la valeur numérique 201 dans sa norme de codage par défaut. Par exemple, si l'ordinateur utilise le script de codage d'Europe occidentale (Windows), le caractère du fichier cyrillique d'origine s'affichera sous la forme É à la place.

Dans cette section, GlobalVision décrit les meilleures pratiques relatives à la norme Unicode.


4.1 Installez tous les scripts d'encodage nécessaires sur votre ordinateur

ÉVALUATION
Le texte apparaît avec des caractères erronés, brouillés ou sous forme de Wingdings (points d'interrogation, cases, étoiles, etc. : £®Ð£¸CPa ¡£Õ).

QUESTIONS
Les systèmes d'écriture alphabétique varient d'une langue à l'autre. Par conséquent, les ordinateurs doivent utiliser différents scripts de codage. Le caractère affiché dépend du script de codage installé dans votre système d'exploitation. REMARQUE : Certaines langues/scripts d'affichage sont installés par défaut, tandis que d'autres nécessitent l'installation de fichiers de langue supplémentaires.

EXEMPLE

Exemple de normes d'encodage pour différents alphabets

SOLUTION
Do:
Installez tous les systèmes d'encodage requis (scripts) sur votre ordinateur.

Ne pas:
Ouvrez les fichiers contenant des scripts qui ne sont pas installés sur votre ordinateur.

CONSEILS
Les étapes suivantes décrivent comment installer ou activer les scripts d'encodage nécessaires (le cas échéant).

  • Récupérez le CD d'installation de Microsoft Windows.
  • Installez tous les scripts/langages appropriés.
  • Allez dans le Panneau de configuration et cliquez sur l'onglet Claviers et langues.
  • Choisissez une langue sous Langue d'affichage.
  • Cliquez sur OK.

4.2 Validez vos polices pour toutes les langues utilisées

ÉVALUATION
Les logiciels de lecture d'écran pour les aveugles et d'autres programmes interprètent mal le contenu/texte des fichiers PDF.

QUESTIONS

  • Les polices sont vendues avec différents packages de scripts d'encodage.
  • La possibilité de taper une police spécifique ne garantit pas que la police contient les scripts de codage nécessaires pour la langue utilisée.
  • Les programmes logiciels ne peuvent pas lire les caractères si la police ne dispose pas de tous les scripts d'encodage nécessaires (par exemple mg = £®).

EXEMPLE

Exemple de caractères de police ne s'affichant pas correctement par certains logiciels

SOLUTION
Do:
Créer un inventaire des actifs.
Achetez la version "Pro" d'une police.
Vérifiez les scripts de prise en charge lors de l'achat d'une police.
Achetez tous les scripts requis.
Vérifiez les scripts fournis avec une police chaque fois que vous changez de langue et de police.
Normalisez les polices utilisées pour chaque langue.

Ne pas:
Utilisez des polices qui ne prennent en charge qu'un nombre limité de scripts.

CONSEILS
Les étapes suivantes expliquent comment valider une police avec Apple Font Book :

  • Ouvrez le livre des polices.
  • Sélectionnez la police en question dans la liste des polices.
  • Cliquez sur Fichier et sélectionnez Valider la police.
  • Vérifiez les résultats de la validation.

4.3 Utiliser des polices prenant en charge Unicode

ÉVALUATION
Une corruption de caractères peut se produire lors du transfert de texte vers un fichier PDF.

QUESTIONS
Toutes les polices ne prennent pas en charge le codage Unicode.

EXEMPLE

Exemple d'erreurs d'affichage lorsqu'une police ne contient pas tous les scripts d'encodage nécessaires

SOLUTION
Do:
Utilisez des polices basées sur Unicode.
Standardisez les polices tout au long de la chaîne d'approvisionnement.

Ne pas:
Utilisez des polices bitmap (écran).

CONSEILS
Les étapes suivantes expliquent comment identifier les caractères Unicode :
Microsoft Word:

  • Sélectionnez le caractère en question.
  • Appuyez sur ALT+X pour afficher sa valeur Unicode.

Adobe Illustrator et InDesign :

  • Allez dans le menu Type et sélectionnez Glyphes.
  • Cliquez sur le caractère en question pour afficher sa valeur Unicode.

Icône suivanteSection suivante
Article 05 | Polices