mercredi 21 octobre 2009

Pour les geeks : calcul de la compacité du Chinois

Il est de renommée mondiale (du moins occidentale...) que le Chinois est la langue la plus dure du monde. Les expressions françaises "C’est du chinois", comme anglaise "chinese whispers" l'illustrent bien. Mais pourquoi?

Deux facteurs principaux sont à peu prés universellement reconnus: d’abord l’écriture en caractères qui nécessite une mémorisation formidable préalable à toute communication écrite, et en fait orale aussi. La deuxième, beaucoup moins connue, c est l’éventail très étriqué de prononciations utilisées par le chinois. Les mots chinois, bien que munis de leurs accents toniques, semblent tous se ressembler. Il suffit d ailleurs d’essayer de lire quelques phrases transcrites en pinyin pour prendre conscience de cette grande similarité. Cette trop faible différenciation des mots chinois résulte en deux difficultés majeures.

D’abord la difficulté à comprendre ou à se faire comprendre. Pour les étrangers, évidemment, il est très difficile de cerner le mot qui a été énoncé par son interlocuteur, mais cette incompréhension existe aussi parmi les chinois. Ceux ci demandent sans cesse de répéter quelques mots incompris lorsqu’ils parlent entre eux.

La deuxième difficulté majeure, c’est que l’on ne pourra jamais généraliser une écriture en pinyin car les mots transcrits se ressemblant tous, la lecture globale est impossible. Le pinyin, on peut tout au mieux le déchiffrer, mais ce n’est pas vraiment de la lecture.


Pour avoir une vision plus objective de la faible différenciation des mots chinois, je définis la compacité d’un langage comme la proportion des mots existants par rapport au nombre total de mots que l’on peut former avec les prononciations disponibles dans un langage. Pour éviter d’obtenir une densité nulle pour tous les langages due à une longueur maximale pour les mots dans chaque langage, il faudrait d’abord calculer la compacité d un langage dans chacun des groupes de p syllabes (p variant de 1 à beaucoup), puis moyenner le tout en pondérant la valeur moyenne de chaque groupe avec la proportion de ce groupe dans l ensemble du langage. Cette étape de pondération permet aussi d obtenir des résultats cohérents qui prennent en compte qu’en Chinois les mots font souvent une ou deux syllabes, en Français, beaucoup plus.

En précisant si besoin est qu’un "ma deuxième ton" et un "ma troisième ton" sont deux syllabes différentes, mais que "mai" et "mé" sont identiques en Français, l algorithme est maintenant clair. J ai les versions électroniques du Petit Robert et du现代汉语规范词典, qui m’aide à coder tout ça?

Aucun commentaire: