Cryptographie!

Le code du scarabée d'or

  Le codage par substitution mono-alphabétique peut être cassé par une analyse statistique. Voici comment cette analyse est expliquée par Edgar Allan Poe dans le Scarabée d'or.

  William Legrand a emmené son ami (le narrateur) et son esclave Jupiter à la découverte d'un trésor contenant de nombreux bijoux. Il raconte désormais au narrateur comment il a su où était caché ce trésor. Tout part d'un mystérieux parchemin, où est écrit à l'encre sympatique un mystérieux message :


  Ici, Legrand, ayant de nouveau chauffé le vélin, le soumit à mon examen. Les caractères suivants apparaissaient en rouge, grossièrement tracés entre la tête de mort et le chevreau :
53$$+305))6*4826)4$.)4$);806*;48+8%60))85;1$(;:$*8+83
(88)5*+;46(;88*96*?;8)*$(;485);5*+2:*$(;4956*2(5*-4)8
%8*;4069285);)6+8)4$$;1($9;48081;8:8$1;48+85;4)485+
528806*81($9;48;(88;4($?34;48)4$161;:188:$?;
- Mais, dis-je, en lui tendant la bande de velin, je n'y vois pas plus clair. Si tous les trésors de Golconde devaient être pour moi le prix de la solution de cette énigme, je serais parfaitement sûr de ne pas les gagner.
- Et cependant, dit Legrand, la solution n'est certainement pas aussi difficile qu'on se l'imaginerait au premier coup d'oeil. Ces caractères, comme chacun pourrait le deviner facilement, forment un chiffre, c'est-à-dire qu'ils présentent un sens; mais, d'après ce que nous savons de Kidd, je ne devais pas le supposer capable de fabriquer un échantillon de cryptographie bien abstruse. Je jugeai donc tout d'abord que celui-ci était d'une espèce simple, tel cependant qu'à l'intelligence grossière du marin, il dût paraître absolument insoluble sans la clef.
-Et vous l'avez résolu, vraiment?
-Très aisément; j'en ai résolu d'autres dix mille fois plus compliqués. Les circonstances et une certaine inclination d'esprit m'ont amené à prendre intérêt à ces sortes d'énigmes, et il est vraiment douteux que l'ingéniosité humaine puisse créer une énigme de ce genre dont l'ingéniosité humaine ne vienne à bout par une application suffisante. Aussi, une fois que j'eus réussi à établir une série de caractères lisibles, je daignai à peine songer à la difficulté d'en dégager la signification.
  Dans le cas actuel, et en somme dans tous les cas d'écriture secrète, la première question à vider, c'est la langue du chiffre : car les principes de solution, en particulier quand il s'agit des chiffres les plus simples, dépendent du génie de chaque idiome, et peuvent être modifiés. En général, il n'y a pas d'autres moyens que d'essayer successivement, en se dirigeant suivant les probabilités, toutes les langues qui vous sont connues jusqu'à ce que vous ayez trouvé la bonne. Mais, dans ce chiffre qui nous occupe, toute difficulté à cet égard était résolue par la signature. Le rébus sur le mot Kidd n'est possible que dans la langue anglaise. Sans cette circonstance, j'aurais commencé mes essais par l'espagnol et le français, comme étant les langues dans lesquelles un pirate des mers espagnol avait dû le plus naturellement enfermer un secret de cette nature. Mais, dans le cas actuel, je présumai que le cryptogramme était en anglais.
  Vous remarquez qu'il n'y a pas d'espaces entre les mots. S'il y avait eu des espaces, la tâche eût été singulièrement plus facile. Dans ce cas, j'aurais commencé par faire une collation et une analyse des mots les plus courts, et, si j'avais trouvé, comme cela est toujours probable, un mot d'une seule lettre, a ou I (un,je) par exemple, j'aurais considéré la solution comme assurée. Mais, puisqu'il n'y avait pas d'espaces, mon premier devoir était de relever les lettres prédominantes, ainsi que celles qui se rencontraient le plus rarement. Je les comptai toutes, et je dressai la table que voici :

Le caractère 8 se trouve 33 fois
" ; " 26 "
" 4 " 19 "
" $ et ) " 16 "
" * " 16 "
" 5 " 12 "
" 6 " 11 "
" + et 1 " 8 "
" 0 " 6 "
" 9 et 2 " 5 "
" : et 3 " 4 "
" ? " 3 "
" % " 2 "
" - et . " 1 "

  Or, la lettre qui se rencontre le plus fréquemment en anglais est e. Les autres lettres se succèdent dans cet ordre : a o i d h n r s t u y c f g l m w b k p q x z. E prédomine si singulièrement qu'il est très rare de trouver une phrase d'une certaine longueur dont il ne soit pas le caractère principal.
  Nous avons donc, tout en commençant, une base d'opérations qui donne quelque chose de mieux qu'une conjecture. L'usage général qu'on peut faire de cette table est évident; mais, pour ce chiffre très médiocrement. Puisque notre caractère dominant est 8, nous commencerons par le prendre pour le ee se double très fréquemment en anglais, comme par exemple dans les mots meet, fleet, speed, seen, been, agree,etc... Or, dans le cas présent, nous voyons qu'il n'est pas redoublé moins de cinq fois, bien que le cryptogramme soit très court.
  Donc 8 représentera e. Maintenant, de tous les mots de la langue, the est le plus utilisé; conséquemment, il nous faut voir si nous ne trouverons pas répétée plusieurs fois la même combinaison de trois caractères, ce 8 étant le dernier des trois. Si nous trouvons des répétitions de ce genre, elle représenteront très probablement le mot the. Vérification faite, nous n'en trouvons pas moins de 7; et les caractères sont ;48. Nous pouvons donc supposer que ; représente t, que 4 représente h, et que 8 représente e - la valeur du dernier se trouve ainsi confirmée de nouveau. Il y a maintenant un grand pas de fait.
  Nous n'avons déterminé qu'un mot, mais ce seul mot nous permet d'établir un point beaucoup plus important, c'est-à-dire les commencements et les terminaisons d'autres mots. Voyons par exemple l'avant dernier cas, où se présente la combinaison ;48, presque à la fin du chiffre. Nous savons que le ; qui vient immédiatement après est le commencement d'un mot, et des six caractères qui suivent ce the, nous n'en connaissons pas moins de cinq. Remplaçons donc ces caractères par les lettres qu'ils représentent, en laissant un espace pour l'inconnu :
t eeth
  Nous devons tout d'abord écarter le th comme ne pouvant pas faire partie du mot qui commen par le premier t, puisque nous voyons, en essayant successivement toutes les lettres de l'alphabet pour combler la lacune, qu'il est impossible de former un mot dont ce th puisse faire partie. Réduisons donc nos caractères à :
t ee,
et reprenant de nouveau tout l'alphabet, s'il le faut, nous concluons au mot tree (arbre) comme à la seule version possible. Nous gagnons ainsi une nouvelle lettre, r, représentée par (, plus deux mots juxtaposés, the tree (l'arbre).
  Un peu plus loin, nous retrouvons la combinaison ;48, et nous en servons comme de terminaison à ce qui précède immédiatement. Cela nous donne l'arrangement suivant :
the tree ;4($?34 the,
ou, en substituant les lettres naturelles aux caractères que nous connaissons,
the tree thr$?3h the.
Maintenant, si aux caractères inconnus, nous substituons des blancs ou des points, nous aurons :
the tree thr...h the,
et le mot through (à travers) se dégage pour ainsi dire de lui-même. Mais cette découverte nous donne trois lettres de plus, o,u et g représentées par $,? et 3.
  Maintenant, cherchons attentivement dans le cryptogramme des combinaisons de caractères connus, et nous trouverons, non loin du commencement, l'arrrangement :
83(88, ou egree,
qui est évidemment la terminaison du mot degree (degré) et qui nous livre encore une lettre d, représentée par +.
  Quatre lettres plus loin que ce mot degree, nous trouvons la combinaison
;46(;88,
dont nous représentons les caractères connus, et représentons l'inconnu par un point; cela nous donne :
th.rtee,
arrangement qui nous suggère immédiatement le mot thirteen, et nous forunit deux lettres nouvelles, i, et n, représentées par 6 et *.
  Reportons-nous maintenant au commencement du cryptogramme, nous trouvons la combinaison
53$$+.
Traduisant comme nous avons déjà fait, nous obtenons :
.good,
ce qui nous montre que la première lettre est un a, et que les deux premiers mots sont a good (un bon).
  Il est temps maintenant, pour éviter toute confusion, de disposer toutes nos découvertes sous forme de table. Cela nous fera un commencement de clef :

5 représente a
+ " d
8 " e
3 " g
4 " h
6 " i
* " n
$ " o
( " r
; " t
? " u

  Ainsi, nous n'avons pas moins de onze des lettres les plus importantes, et il est inutile que nous poursuivions la solution à travers tous ses détails. Je vous en ai dit assez pour vous convaincre que des chiffres de cette nature sont assez faciles à résoudre, et pour vous donner un aperçu de l'analyse raisonnée qui sert à les débrouiller. Mais tenez pour certain que le spécimen que nous avons sous les yeux appartient à la catégorie la plus simple de la cryptographie. Il ne me reste plus qu'à vous donner la traduction complète du document, comme si nous avions déchiffré successivement tous les caractères. La voici :
A good glass in the bishop's hotel in the devil's seat forty-one degrees and thirteen minutes north-east side shoot from the left eye of the death's-head a bee-line from the tree through the shot fifty feet out.
(Un bon verre dans l'hostel de l'évêque dans la chaise du diable quarante et un degrés et treize minutes nord-est quart de nord principale tige septième branche côté est lâchez de l'oeil gauche de la tête de mort une ligne d'abeille de l'arbre à travers la balle cinquante pieds au large.)
D'après Edgar Allan Poe, Le scarabée d'or.