De nature curieuse, je recherche tout ce qui m’intéresse.
Mojibake : exemple de corruption de caractères de texte
Qu’est-ce que la corruption de caractères de texte ?
Les personnes qui travaillent beaucoup avec des fichiers en texte brut, suffixés par l’extension de fichier .TXT, rencontreront parfois des documents affichant du texte brouillé au lieu de ce qui est attendu. Ce phénomène se produit fréquemment lorsque le document texte corrompu est écrit dans une langue étrangère qui n’utilise pas l’alphabet latin, mais cela peut se produire pour tous les fichiers s’il existe des incohérences dans les paramètres utilisés lors de l’enregistrement du fichier.
La corruption de caractères se produit lorsque le fichier de sauvegarde utilise un type de codage de fichier par défaut différent du programme de l’utilisateur final. La plupart des programmes informatiques utilisent le codage UTF-8 par défaut, mais les caractères étrangers ont également un ou plusieurs systèmes de codage spécifiques à la langue. Les langues asiatiques, par exemple, utilisent un système de codage 16 bits ; par conséquent, lorsque le document est ouvert sur une machine qui utilise un système 8 bits (qui est UTF-8), le texte sera remplacé par des symboles tronqués.
Rassurez-vous, cependant, le texte corrompu n’est pas perdu. Il existe de nombreuses façons de corriger le codage de caractères corrompu, notamment en utilisant un logiciel spécialisé conçu pour ce scénario précis. Cependant, si vous ne souhaitez corriger qu’un ou deux documents, le téléchargement et l’installation d’un nouveau logiciel peuvent s’avérer fastidieux. Ici, je vais vous montrer comment réparer ces fichiers texte corrompus dans Microsoft Word, qui est probablement déjà installé pour les ordinateurs exécutant le système d’exploitation Windows.
Correction de texte corrompu dans Microsoft Word
Correction du texte chinois corrompu
Si vous utilisez une machine Windows, il est probable que Microsoft Word soit déjà installé. Microsoft Word dispose d’un convertisseur de codage de caractères intégré qui peut être utilisé pour enregistrer le fichier dans le codage souhaité.
Ce correctif fonctionnera avec Microsoft Word 2003 et versions ultérieures.
Étape 1 : Ouvrez le document dans Microsoft Word
Windows ouvrira les fichiers en texte brut (extension .txt) à l’aide du programme Bloc-notes par défaut. Pour ouvrir le document corrompu dans Microsoft Word :
1. Faites un clic droit sur le document
2. Sélectionnez « Ouvrir avec »
3. Choisissez « Mot »
Étape 2 : convertir des fichiers à partir de texte codé
La boîte de dialogue Convertir le fichier devrait s’ouvrir automatiquement lorsqu’elle détecte un fichier avec un encodage corrompu. Choisissez « Texte codé » dans la liste des options et appuyez sur « OK ».
Si la boîte de dialogue n’apparaît pas, il faudra la déclencher manuellement. Allez dans « Fichier » -> « Options » -> « Avancé » et faites défiler jusqu’à ce que la section « Général » soit atteinte. Dans la section « Général », cochez la case « Confirmer la conversion du format de fichier à l’ouverture ». Quittez Word et rouvrez à nouveau le document corrompu. La boîte de dialogue apparaîtra.
Faites défiler pour continuer
Étape 3 : Choisir le bon encodage
La boîte de dialogue de sélection d’encodage devrait automatiquement proposer un encodage correct. Si ce n’est pas le cas, vous pouvez sélectionner manuellement dans la liste d’encodage.
Choisissez « Sélection automatique » si vous n’êtes pas sûr de l’encodage source, ou choisissez dans la liste si vous connaissez la langue dans laquelle se trouve le fichier. Vous pourrez vérifier si le fichier corrompu est corrigé à partir de la fenêtre de prévisualisation.
Dernière étape : enregistrement du document en tant que fichier texte brut lisible
Le texte récupéré peut maintenant être lu dans Microsoft Word, mais il peut toujours apparaître comme corrompu dans le logiciel de traitement de texte brut, car beaucoup ne sont pas écrits pour traiter le codage de caractères spécialisé. Pour éviter cela, il est préférable d’enregistrer le document dans un codage de texte courant, tel que UTF-8 ou UTF-16.
Pour ce faire, cliquez sur l’onglet « Fichier » dans le coin supérieur gauche de votre document, et choisissez « enregistrer sous » dans la liste. Choisissez le dossier dans lequel enregistrer et choisissez « Document en texte brut » comme format de fichier. Cliquez sur « Enregistrer ».
Une nouvelle boîte de dialogue « Conversion de fichier » s’ouvrira. Dans la liste, choisissez un encodage pour le document final. La zone de prévisualisation mettra en évidence les mots qui ne seront pas enregistrés correctement en rouge, veillez donc à choisir un encodage qui complète le document. En cas de doute, il est préférable d’utiliser un format Unicode comme encodage, car il est conçu pour s’adapter à tous les systèmes d’écriture du monde.
Enfin, cliquez sur « OK » pour enregistrer votre document corrigé.
Fixé!
Votre document devrait maintenant s’afficher correctement dans le logiciel de traitement de texte brut que vous avez choisi, tel que le Bloc-notes.
Cet article est exact et fidèle au meilleur de la connaissance de l’auteur. Le contenu est uniquement à des fins d’information ou de divertissement et ne remplace pas un conseil personnel ou un conseil professionnel en matière commerciale, financière, juridique ou technique.
© 2018 Ivy Gao
Mouna Alam Marie le 02 juillet 2020 :
Je n’ai pas la langue anglaise dans la liste d’encodage. que devrais-je faire?
nora le 12 décembre 2019 :
ça n’a pas marché pour moi. le texte est toujours corrompu.
Mustafa Shujaie le 11 décembre 2019 :
Merci. Vous êtes un angle
Doris James Miz Bejabbers de Beautiful South le 14 décembre 2018 :
C’est quelque chose que je ne savais pas. J’utilise des ordinateurs depuis les ordinateurs centraux de 1984, mais en tant qu’écrivain/éditeur, pas un technicien. Je trouve que les problèmes les plus courants surviennent lorsque vous essayez de télécharger ou de copier à partir de pages Web. Espérons que cela fonctionnera sur ceux-ci. Très bon article Ivy. Je vois que tu es nouveau. Bienvenue sur Hub Pages.