Le syndrome de la tronche de cake
Il y a une pathologie visuelle qui sature nos écrans, une sorte de spasme universel que l’on pourrait appeler le syndrome "tronche de cake". Vous le connaissez : ce sont ces visages de YouTubeurs découpés sur fond saturé, les yeux exorbités, la bouche béante dans un cri muet, affichant une stupeur de synthèse.
Ce qui ressemble à une simple mode esthétique est en réalité le symptôme d'une mutation profonde, un déplacement culturel radical : la soumission progressive des formes d’expression à l’économie de l’attention.
Le visage comme bouton d’appel
Dans la jungle de YouTube, où plus de 500 heures de vidéo sont téléversées chaque minute, exister est un sport de combat. La vignette n'est plus un simple résumé du contenu ; elle est devenue un piège à impulsion. Pour percer, le créateur doit maximiser son CTR (Click-Through Rate), ce taux de clic qui fait office de juge de paix algorithmique.
C’est ici que le visage humain est détourné de sa fonction première. Il ne s'agit plus d'exprimer une émotion sincère, mais de manipuler des déclencheurs psychologiques primaires. La surprise, le choc ou l’euphorie sont exagérés jusqu’à devenir des pictogrammes.
« On ne regarde plus un individu, on scanne un signal. »
Tout est conçu pour déclencher un réflexe primaire : arrêter le scroll une demi-seconde de plus.

Mais à force de voir des visages jouer l’effroi, la sidération ou l’extase pour des événements insignifiants, notre perception émotionnelle finit elle aussi par se dérégler. Quand tout est présenté comme exceptionnel, plus rien ne l’est vraiment. L’émotion cesse progressivement d’être un signal humain pour devenir un bruit de fond marketing.
Un darwinisme de la grimace
Ce phénomène entraîne une uniformisation culturelle frappante, une forme de darwinisme algorithmique, une sélection naturelle pilotée par l'IA. Les créateurs ne se copient pas par simple manque d'originalité, mais par nécessité de survie. Ils s'adaptent à ce que la plateforme semble récompenser. À force, tous les visages finissent par raconter exactement la même émotion. Le résultat est une standardisation des expressions : une perte d’identité visuelle au profit d’une efficacité statistique relative. Que l'on parle de physique quantique ou de maquillage, le masque reste le même.
Ce langage visuel industriel finit par infantiliser le spectateur, réduit à un récepteur de stimuli, et par user la crédibilité du créateur, piégé dans une surenchère permanente. Ce cri visuel permanent n’est pas seulement une conséquence des plateformes ; il reflète aussi une époque où le calme, la nuance et le silence deviennent presque invisibles dans les espaces gouvernés par l’algorithme. Dans cette logique, l’attention n’est plus captée par le sens mais par l’intensité du signal.
« Le bruit finit par devenir la langue dominante. »
La ligne de crête : entre visibilité et intégrité
Pourtant, la "tronche de cake" n’est pas une fatalité. Des créateurs comme Benjamin Brillaud (Nota Bene) ou Patrick Baud (Axolot) prouvent qu’il existe une voie médiane. Ils utilisent les codes de la plateforme, des visuels de qualité, une mise en scène soignée, sans pour autant sombrer dans la caricature.
Le paradoxe est cruel : jamais les outils n’ont autant permis de se montrer “tel qu’on est” — vlog, livestream, selfie vidéo — et pourtant jamais les codes n’ont autant poussé les individus à devenir une version exagérée d’eux-mêmes.
« L’économie de l’attention ne demande pas l’authenticité ; elle demande une authenticité amplifiée, simplifiée, immédiatement lisible. Une caricature de soi. »
Vers une industrialisation de l’âme ?
Le futur de ce syndrome est peut-être le plus inquiétant. Avec l'émergence de modèles d'IA comme PaliGemma 2 ou des outils d'analyse émotionnelle comme EmoNet, nous entrons dans l'ère de la rationalisation émotionnelle. PaliGemma 2, développé par Google DeepMind, appartient à cette nouvelle génération de modèles dits « vision-langage », capables d’analyser simultanément du texte et des images. Concrètement, ce type d’IA peut identifier des objets, interpréter une scène, décrire une expression faciale ou établir des corrélations entre une image et une réaction probable de l’utilisateur.
À côté de cela, des projets comme EmoNet cherchent à automatiser la reconnaissance des émotions humaines à partir des visages : joie, peur, surprise, colère ou tristesse. L’objectif officiel est souvent scientifique ou ergonomique. Mais appliqués aux plateformes numériques, ces outils ouvrent une autre perspective : celle d’une optimisation industrielle de l’émotion.
La question devient alors troublante : si une intelligence artificielle peut mesurer quelles expressions retiennent le plus l’attention, combien de temps avant que les visages des créateurs soient progressivement calibrés comme des interfaces marketing ?
Le créateur risque de devenir un simple gestionnaire de stimuli. Ce n'est plus seulement la vignette qui change, mais tout le processus créatif : le montage, le rythme, la diction. On ne crée plus pour raconter, on crée pour maintenir un flux. Le paradoxe est là : plus notre espace numérique devient saturé et concurrentiel, plus l'expression humaine s'appauvrit pour devenir une caricature d’elle-même.
« La "tronche de cake" n'est pas seulement ridicule ; elle est le visage d'un système qui nous demande de crier de plus en plus fort pour ne dire, finalement, que de moins en moins de choses. »