




C'est en 2016 que Perrier Jablonski a embauché sa première ethnographe. Sabrina Tremblay, d'abord venue observer « Les formes de discours » chez nous (le nom de son mémoire de maîtrise) pour HEC. Mais Sabrina avait été envoyée chez nous par Jean-Sébastien Marcoux, le plus grand anthropologue de la consommation au Québec. Il allait devenir (sans le savoir), un parrain influent et bienveillant.
Une expérience si bouleversante pour nous qu'elle allait changer le cours de notre jeune histoire, et réorganiser le travail en équipes-trios : ethnographe, stratège, chargée de projets. C'est encore le modèle que nous utilisons aujourd'hui.
Pour chaque projet, on sélectionnait un groupe de participants, on menait des entrevues d'une heure, puis on transcrivait à la main. Pour une heure d'entrevue, il fallait compter une heure et demie de transcription. Donc… 2h30 par entrevue. C'était cher et laborieux, mais la qualité des observations que nous faisions comblait largement l'investissement.
Il fallait cependant avouer qu'au fil des projets qui grandissaient, ce temps de traitement devenait colossal. À l'époque, nous avions cherché des outils commerciaux de transcription. Les plus fiables — les mêmes utilisés par les tribunaux — coûtaient des milliers de dollars par licence. Hors de portée pour notre usage. Puis est arrivé… Whisper.
En septembre 2022, OpenAI publie Whisper — un modèle de transcription automatique entraîné sur 680 000 heures d'audio multilingue. Open source, sous licence MIT : gratuit, modifiable, installable localement sur n'importe quel ordinateur. Quiconque voulait transcrire un fichier audio sans l'envoyer dans le cloud, le peut.
Pour Perrier Jablonski, ç'a été un basculement. Les heures passées à transcrire sont reparties dans ce qui compte : plus d'entrevues, plus d'analyse, plus de livrables. L'ethnographie que nous pratiquions de façon presque artisanale s'est mise à tourner à l'échelle… Et nos projets se sont multipliés. Le plus beau? Whisper a permis à Perrier Jablonski de démocratiser l'anthropologie. Elle est devenue accessible à des organisations qui n'en n'auraient jamais eu les moyens auparavant. Les PME, les OBNL, les équipes à petit budget pouvaient enfin s'offrir du vrai terrain, de vraies observations, de vrais insights.
Une vraie révolution, je vous dis! Mais ça ne nous a pas suffi…
Pendant plus de trois ans, nous avons utilisé MacWhisper — l'application macOS la plus populaire parmi celles qui tournent sur Whisper. Un bon outil. Fiable, local, rapide. Mais au fil des projets, ses limites sont devenues évidentes pour notre usage.
D'abord, la précision dans le temps. MacWhisper place les mots dans des blocs de quelques secondes. Pour lire une transcription, c'est suffisant. Pour analyser un corpus, il faut savoir où chaque mot commence et finit à la milliseconde.
Ensuite, il ne sait pas qui parle. Deux voix pendant 45 minutes produisent un seul bloc de texte. La diarisation — séparer les voix — est arrivée en bêta fin 2025, tard et encore imparfaite. Dans une entrevue qualitative, savoir qui dit quoi est la condition minimale.
Enfin, les voix séparées restent étiquetées « Speaker 1 / Speaker 2 ». Des numéros anonymes. Pour une firme qui conduit des centaines d'entrevues par année, avec les mêmes ethnographes, renommer à la main chaque fichier est un travail que la machine devrait faire seule.
Nous avons voulu un meilleur outil. Nous l'avons construit.
La première version de Boris était un outil de transcription. Nous sommes parti d'une version plus évoluée que celle que MacWhisper utilise. Il s'agit de WhisperX, développé par l'équipe VGG d'Oxford (Bain et al., 2023), qui est une extension open source de Whisper qui lui ajoute de nouvelles fonctionnalitées que nous avons exploitées à fond, et nous lui avons adjoint des fonctionalités-maison.
D'abord, la diarisation : séparer les voix avant même de transcrire. Un modèle analyse le signal pour repérer qui parle quand, en comparant les empreintes acoustiques au fil de l'enregistrement — sans comprendre les mots. Résultat : un bloc de texte par personne, au lieu d'un monologue mélangé.
Ensuite, l'alignement forcé. Whisper transcrit par phrases de quelques secondes ; Boris ajoute une deuxième passe qui recale chaque mot à la milliseconde exacte d'apparition dans l'audio. On peut alors retrouver, dans le signal brut, le moment précis où un mot a été prononcé — et tout ce qui l'entoure : intonation, pause, hésitation.
Enfin, l'identification nominative. Les voix des ethnographes de Perrier Jablonski sont enregistrées une fois dans l'application. À chaque nouvelle entrevue, Boris reconnaît leur empreinte et les étiquette par leur nom réel — puis filtre leurs interventions, parce que ce qui nous intéresse, c'est la voix du participant, pas celle de l'intervieweur.
Et tout ça tourne en local, sur nos Mac, sans jamais se promener sur le réseau, pour une confidentialité ABSOLUE. Si on devait le commercialiser, il battrait déjà tous les outils du commerce :
Mais pourquoi s'arrêter en si bon chemin? Pourquoi simplement révoutionner la transcription, alors qu'on pourrait aller beaucoup, beaucoup plus loin? En construisant un moteur avec des timestamps à la milliseconde, nous avons réalisé qu'on pouvait synchroniser chaque mot avec le signal audio brut. Ce qui ouvre deux portes : analyser ce que les gens disent avec une précision inédite, et analyser comment ils le disent — c'est-à-dire leur voix elle-même.
Nous avions construit un meilleur moteur de transcription. Mais nous venions d'ouvrir la porte à quelque chose que personne n'avait jamais fait...
Quand on termine vingt entrevues sur le même sujet, il faut une façon de voir l'ensemble d'un coup d'œil. Boris produit pour ça ce que tout le monde connaît : un nuage de mots. Les mots les plus fréquents apparaissent en gros, les plus rares en petit. En un regard, on voit le territoire lexical du groupe. Mais pour qu'un nuage de mots soit lisible — et utile — il faut toujours faire un peu de ménage.
Le premier geste, c'est d'écarter les mots qui n'apportent rien : « de », « que », « est », « avoir », « chose ». Les linguistes les appellent des stopwords — des mots vides. Ils sont partout, ils noient tout. Les retirer, c'est déjà voir plus clair.
Le deuxième geste, c'est la lemmatisation : ramener chaque mot à sa racine. « Méritaient », « méritera », « méritent », « mériterait » deviennent tous « mériter ». Sans ça, chaque variante compte pour un mot distinct et le signal s'éparpille. Après ce nettoyage, une entrevue de 45 minutes qui contenait 3 800 mots bruts en contient environ 1 700 analysables. Sur un projet de 20 entrevues, on passe de 76 000 à 34 000.
Le nuage de mots obtenu est un portrait lexical du groupe : ce qui habite leurs pensées, ce qui revient dans leurs bouches, ce qui tient le terrain mental.
Mais un nuage seul ne dit pas tout. Les mots qui reviennent le plus souvent sont souvent les plus attendus — « mission », « culture », « équipe » dans un mandat organisationnel. Pour aller plus loin, il faut chercher ailleurs : dans ce qui est propre à chacun, et dans ce qui manque à l'appel. :
Encore une fois, à ce stade de l'analyse, aucune donnée n'a quitté nos machines, tout se fait 100% en local. Désormais que Boris sait tout de ce qui a été dit… Ne pourrait-on pas aller encore plus loin?
Et si on pouvait écouter autour des mots ? L'idée a quelque chose de vertigineux. Pendant une entrevue, la voix d'un participant transporte bien plus que des phrases. Elle accélère quand un sujet devient sensible. Elle baisse d'un ton quand la confiance s'installe. Elle tremble imperceptiblement quand une émotion remonte. Ces signaux existent. Ils sont dans l'audio. Mais personne, dans le monde de la stratégie ou de l'ethnographie, ne les avait jamais extraits.
Le champ de recherche qui étudie ces signaux s'appelle la prosodie. Jusqu'ici, elle appartenait à d'autres mondes : les phonéticiens qui décrivent les langues, les cliniciens qui diagnostiquent la dépression par le timbre de la voix, les ingénieurs qui entraînent des assistants vocaux. L'analyse prosodique existait. Les outils existaient. Mais ils parlaient une langue que les ethnographes et les stratèges n'avaient aucune raison de connaître. Boris traduit cette langue.
La science a ouvert la voie. En 2023, van Rijn et Larrouy-Maestri ont publié dans Nature Human Behaviour une analyse portant sur plus de 3 000 minutes d'enregistrements issus de corpus mondiaux. Leur conclusion : sept facteurs acoustiques — qualité vocale, intensité, hauteur, rythme, shimmer, variation du pitch et spectre fréquentiel — expliquent à eux seuls 57 % de la variance émotionnelle dans la voix humaine. Sept facteurs mesurables.
J'ai décidé de les implémenter dans Boris. J'ai calibré l'application pour échantillonner chacun de ces signaux toutes les 500 millisecondes, en continu, sur toute la durée de l'entrevue. Le résultat : 7 signaux mesurés toutes les 500 millisecondes, pendant 45 minutes — plus de 37 000 points de données prosodiques par entrevue.
Chaque mesure est comparée à la ligne de base propre au locuteur — ses propres moyennes de débit, d'intensité, de hauteur. Boris ne confond pas quelqu'un qui parle naturellement fort avec quelqu'un qui est en tension. Un pic n'est un pic que s'il est inhabituel pour cette personne.
Un raclement de gorge avant de répondre à une question sur la direction. Un chuchotement au moment où le participant mentionne un collègue. Un soupir presque inaudible quand l'ethnographe aborde le sujet de la gouvernance. Ce sont des données. Boris les capte.
En plus des signaux prosodiques continus, nous avons implémenté la détection de 18 types d'événements paralinguistiques : trois niveaux de rire (du sourire au fou rire), les soupirs, les pleurs, les applaudissements, les exclamations, les chuchotements, les grognements, les halètements, les raclements de gorge, le fredonnement, le claquement de doigts, les hésitations vocales, les inspirations audibles, les reniflements, les bâillements et les claquements de langue. Chaque événement est horodaté, scoré, et intégré à l'analyse comme signal à part entière.
En combinant les 7 signaux prosodiques continus et les 18 classes d'événements sonores, Boris génère plus de 139 000 points de données par entrevue de 45 minutes. Sur un projet de 20 entrevues : près de 2 800 000 mesures traitées, comparées entre elles, et interprétées. L'application est optimisée pour les puces Apple Silicon, ce qui ramène le traitement complet — transcription, diarisation, analyse sémantique, prosodie et événements sonores — à environ 23 minutes par entrevue de 45 minutes.
La mémoire de travail humaine traite entre 5 et 9 éléments à la fois — c'est un résultat classique en psychologie cognitive, documenté par Miller dès 1956 et confirmé depuis. Un ethnographe, même brillant, conduit l'entrevue, prend des notes, formule ses hypothèses, maintient le lien avec le participant. Il ne peut pas, en même temps, traiter 139 000 mesures. Boris le fait pour lui.
La prosodie, les événements sonores, la sémantique — chaque couche, seule, est déjà riche. Mais c'est en les croisant que Boris produit des analyses qu'aucun outil n'a jamais proposées. Nous avons conçu six types de croisements, chacun fondé sur des travaux de recherche reconnus.
L'arc émotionnel de l'entrevue retrace la trajectoire d'intensité d'une conversation dans le temps. Au lieu de traiter 45 minutes comme un bloc, Boris agrège les signaux prosodiques et les événements sonores par fenêtres de deux minutes et trace la courbe. L'ethnographe voit d'un coup d'œil où la conversation a basculé — et quand on superpose les 20 courbes d'un projet, on voit si un même moment du guide d'entrevue fait réagir tout le monde. L'idée s'appuie sur les travaux de Reagan et al. (2016) sur les arcs émotionnels narratifs et sur Boyd et al. (2020) qui ont identifié une structure narrative universelle en trois phases sur 40 000 récits.
La détection de contradictions internes repère les moments où un participant dit une chose en début d'entrevue et son contraire en fin. Boris regroupe les énoncés par thème, identifie les polarités opposées, et met les deux côte à côte — avec leur signature prosodique respective. On voit quel énoncé est accompagné d'une charge émotionnelle plus forte. La théorie de la dissonance cognitive de Festinger (1957) fonde ce mécanisme : les individus maintiennent des croyances contradictoires, et la tension entre elles est un signal mesurable.
L'analyse du non-répondu croise le guide d'entrevue avec les verbatims pour repérer les questions esquivées, contournées, ou restées sans réponse. Une matrice montre, d'un coup d'œil, quelles questions ont été évitées par quels participants — et la prosodie autour du moment d'esquive (silence, raclement de gorge, accélération du débit) enrichit le diagnostic. Brinkmann et Kvale (2015) considèrent l'évitement thématique comme un signal méthodologique à part entière dans leur ouvrage de référence sur l'entrevue qualitative.
L'extraction de verbatims marquants sélectionne les 15 à 20 citations les plus puissantes du corpus en combinant trois critères : la richesse sémantique du segment, son intensité prosodique par rapport à la baseline du participant, et la présence d'un événement sonore. Le résultat : les citations prêtes pour une présentation client, avec leur contexte et leur score.
Le miroir linguistique mesure si un participant commence à utiliser les mots de l'ethnographe au fil de l'entrevue — un indicateur classique de désirabilité sociale. La théorie de l'accommodation communicationnelle de Giles, Coupland et Coupland (1991), consolidée par Niederhoffer et Pennebaker (2002) sous le nom de linguistic style matching, fonde cette mesure. Boris trace la convergence lexicale dans le temps et signale les entrevues où le participant semble s'aligner sur le langage de l'intervieweur plutôt que de parler avec ses propres mots. C'est un outil d'auto-critique méthodologique : l'ethnographe voit son propre effet sur le participant.
La cartographie relationnelle construit le réseau social informel de l'organisation à partir des noms mentionnés dans les entrevues. Chaque personne citée devient un nœud, même si elle n'a pas été interviewée. Les liens sont pondérés par la fréquence et colorés par la prosodie — une mention accompagnée de tension n'a pas la même valeur qu'une mention neutre. Le résultat est la carte du pouvoir informel telle que les gens la vivent, pas celle de l'organigramme. Borgatti et al. (2009) ont posé les bases de l'analyse de réseaux sociaux en sciences sociales dans Science, et Berthod, Grothe-Hammer et Sydow (2017) ont proposé le concept d'ethnographie de réseau — la combinaison exacte que Boris automatise.
Boris croise les données prosodiques, sémantiques et paralinguistiques de chaque participant pour le positionner sur une matrice comportementale. Les axes de cette matrice naissent d'une conversation entre l'ethnographe et la machine.
Parfois, c'est l'ethnographe qui initie. Après avoir conduit les entrevues, après avoir senti le terrain, il formule une hypothèse : « Je crois que ce groupe se divise entre ceux qui résistent par loyauté et ceux qui résistent par épuisement. » Boris va chercher dans ses données les marqueurs qui correspondent, et positionne chaque participant.
Parfois, c'est Boris qui propose. À partir de l'ensemble des données qu'il a analysées — prosodie, sémantique, événements sonores — il formule une hypothèse sur les deux variables fondamentales qui structurent le groupe. L'ethnographe examine, ajuste, affine.
Dans les deux cas, le profil émerge de cette conversation — ni purement intuitif, ni purement algorithmique. L'ethnographe ressent. La machine détecte.
C'est ici que la synthèse prend forme — et que Perrier Jablonski a inventé quelque chose.
Jusqu'ici, Boris a transcrit, identifié les voix, mesuré la prosodie, détecté les événements sonores, cartographié le lexique, croisé les couches entre elles, extrait des profils. Notre modèle de langage reçoit l'ensemble et traduit en langage naturel. L'ethnographe ne voit jamais un tableau de chiffres bruts. Il lit : « Elle cherche ses mots. 14:22. » Ou : « Pic d'intensité inhabituel au moment où elle mentionne son équipe. »
Les observations synthétiques ne sont pas des résumés de transcription. Ce sont des insights qui n'existent nulle part dans les données brutes — ni dans l'audio, ni dans le texte, ni dans les chiffres prosodiques pris isolément — mais qui émergent du croisement de toutes ces couches, à l'échelle d'un corpus entier. Les six analyses croisées décrites plus haut — arc émotionnel, contradictions, questions esquivées, miroir linguistique, cartographie relationnelle, verbatims marquants — en sont les composantes. Chaque croisement produit un type de signal. Les observations synthétiques les rassemblent en un récit lisible, adressé à l'ethnographe.
Boris ne signale pas tout. Il filtre. Seuls les signaux qui dépassent un seuil de significativité — une variation suffisamment inhabituelle pour ne pas être attribuable au hasard — sont retenus et présentés à l'ethnographe. Le reste est du bruit, et Boris le traite comme tel.
C'est ce que nous avons nommé une observation synthétique : un fait que seule la machine peut détecter, mais que seul un humain peut interpréter.
La technologie mesure. Le modèle interprète. L'ethnographe décide.
Perrier Jablonski a publié plus de 200 articles de fond en dix ans — biais cognitifs, dynamiques organisationnelles, comportements humains, communication, changement. Cet actif intellectuel restait jusqu'ici dans un silo : les articles d'un côté, les données du terrain de l'autre. Le stratège faisait le pont de tête, de mémoire. Mais 200 articles, des milliers de références, des centaines de concepts — personne ne peut tout retenir. Ce travail de mise en relation ne peut plus reposer uniquement sur la mémoire d'un individu.
Boris crée ce pont dans une section du rapport que nous avons nommée les Pistes Édito — un outil de travail adressé au stratège. Si 15 participants sur 20 mentionnent des projets lancés mais jamais terminés — des chantiers ouverts qui traînent, des consultations sans suite — Boris remonte l'article Perrier Jablonski sur l'effet Zeigarnik, ce biais cognitif documenté qui fait qu'on se souvient davantage de ce qui est inachevé que de ce qui est accompli, et formule une piste concrète : l'enjeu pour le client n'est peut-être pas de lancer de nouveaux projets, mais de terminer ceux qui existent. L'ethnographe n'aurait peut-être pas fait le lien seul. Boris le fait parce qu'il a lu les 200 articles et qu'il vient de lire les 20 entrevues — et qu'il peut chercher les correspondances entre les deux à une vitesse et une exhaustivité que la mémoire humaine ne permet pas.
À partir de ces mêmes analyses, Boris propose aussi des exercices de recherche complémentaires calibrés sur le mandat : questions de sondage de validation, projets Typeform prêts à déployer, recommandations de contenus du corpus pour aller plus loin.
L'ensemble — profils comportementaux, cartographie relationnelle, pistes édito, verbatims marquants — est disponible en téléchargement PDF dans une section dédiée de l'application. Un rapport complet relie le tout en un seul document, prêt à être partagé avec l'équipe.
Pour la couche d'analyse en langage naturel, nous avons choisi Claude, d'Anthropic — pour ses performances en français et ses engagements en matière d'éthique de l'intelligence artificielle.
Mais un modèle de langage, aussi performant soit-il, reste généraliste. Livré à lui-même, il synthétise correctement. Il rédige bien. Il ne pense pas comme un ethnographe. Avant de demander des insights à Boris, nous formons d'abord le modèle sur ce qu'est un insight — grâce aux 200 articles et aux centaines de références bibliographiques que Perrier Jablonski a accumulés au fil des ans sur le sujet. Le modèle apprend comment nous formulons une observation, comment nous structurons une tension, comment nous nommons un paradoxe.
Deux firmes peuvent utiliser le même modèle de langage, les mêmes données, les mêmes entrevues. Elles n'obtiendront pas le même rapport. La différence, c'est ce qu'on a mis dans les instructions : dix ans de pratique ethnographique, 200 articles, des centaines d'analyses. Le modèle est le même. Ce qu'on lui a appris à chercher ne l'est pas.
C'est ce que signifie, concrètement, avoir dix ans d'expertise encodée dans un outil.
Boris ne fait pas le travail de l'ethnographe. Il fait le travail que l'ethnographe ne peut pas faire.
La prosodie détecte un pic d'intensité au moment où quelqu'un parle de son budget. Boris le signale. Mais c'est l'ethnographe qui sait si ce pic trahit de l'anxiété, de l'enthousiasme, ou simplement une habitude orale. C'est l'ethnographe qui connaît le contexte organisationnel. C'est l'ethnographe qui décide.
Boris libère du temps d'expertise pour l'exercer sur ce qui compte : le jugement, la nuance, la stratégie.
La plupart des logiciels de transcription envoient vos fichiers audio sur des serveurs distants — c'est-à-dire sur internet, sur des ordinateurs qui appartiennent à d'autres entreprises, souvent aux États-Unis. Boris fonctionne différemment : tout le traitement se fait directement sur notre ordinateur, dans nos bureaux. L'audio, la transcription, les données client ne transitent jamais par internet. Rien ne sort.
Avec une exception. L'analyse en langage naturel passe par le modèle Claude, ce qui signifie qu'une partie du texte doit, à un moment, voyager sur le réseau. Pour régler ça, nous avons inventé une méthode que nous appelons l'anonymisation de bout en bout.
Avant chaque envoi — sans exception — tous les noms de personnes, d'entreprises, de lieux, les montants et les coordonnées sont automatiquement remplacés par des codes incompréhensibles. La détection repose sur SpaCy, un moteur de reconnaissance d'entités nommées, combiné aux noms déjà identifiés lors de la diarisation. Le modèle reçoit « P-x7k2m9 travaille chez O-m4r7x2 depuis T-w8k3 ans » au lieu de « Marie travaille chez Bombardier depuis 12 ans ». Il analyse les dynamiques, la frustration, les rapports de pouvoir — sans jamais savoir de qui on parle. À la réception, Boris remet les vrais noms.
Aucun autre outil d'analyse qualitative sur le marché ne propose ce niveau de protection. Les confidences de nos participants méritent cette rigueur.
Boris est une application de plus de 80 000 lignes de code, construite en interne, adaptée aux réalités du terrain ethnographique tel que Perrier Jablonski le pratique depuis dix ans. Ça a commencé par un besoin simple : une meilleure transcription. Puis chaque couche a rendu la suivante possible. L'identification a permis les timestamps au mot. Les timestamps ont permis la prosodie. La prosodie a permis les événements sonores. Et la masse de signaux accumulés a rendu possibles les observations synthétiques — une catégorie d'analyse qui n'existait pas avant Boris.
Mais le plus important, c'est ce que ça rend possible pour la suite.
Des organisations qui n'avaient pas les moyens de financer une ethnographie complète peuvent maintenant y accéder — parce que Boris traite une entrevue en deux fois moins de temps qu'elle n'a duré, avec une précision d'analyse multipliée par dix. Des signaux faibles — ceux qui se cachent dans les silences, dans les tremblements, dans les mots qu'on ne prononce pas — deviennent visibles, mesurables, actionnables.
Et au-delà des mandats, Boris ouvre un champ de recherche. Que se passe-t-il quand on croise la prosodie et la sémantique sur 200 entrevues ? Quand on compare les profils vocaux de dix organisations dans des secteurs différents ? Quand on mesure, longitudinalement, comment la voix d'une équipe change après une transformation ? Ces questions n'avaient jamais été posées. Les données pour y répondre n'existaient pas. Maintenant elles existent.
La technologie ici n'est pas une posture. C'est un avantage construit ligne par ligne, entrevue après entrevue. Et c'est, à notre connaissance, le seul outil au monde qui fait tout ça dans une seule application, sur un seul ordinateur, du signal audio au livrable stratégique.
Boris est l'application propriétaire de Perrier Jablonski pour l'analyse d'entretiens qualitatifs. Né du besoin de dépasser les limites de MacWhisper pour l'ethnographie, Boris a grandi couche par couche jusqu'à devenir un outil sans équivalent. Fonctionnant en local sur Apple Silicon, il combine transcription au mot près, diarisation par empreinte vocale, analyse prosodique sur 7 signaux continus, détection de 18 classes d'événements paralinguistiques, analyse sémantique par mots atypiques, six types d'analyses croisées (arc émotionnel, contradictions internes, questions esquivées, verbatims marquants, miroir linguistique, cartographie relationnelle), profils comportementaux co-construits entre l'ethnographe et la machine, anonymisation de bout en bout avant tout envoi au modèle de langage, et synthèse en langage naturel via Claude d'Anthropic. Sur une entrevue de 45 minutes, Boris génère plus de 139 000 points de données ; sur un projet de 20 entrevues, près de 2 800 000 mesures sont croisées pour faire émerger les observations synthétiques — une catégorie d'analyse inventée par Perrier Jablonski, qui n'existe dans aucun autre outil. Boris met ensuite ces enjeux en relation avec 200 articles de fond et propose des exercices de recherche complémentaires. Boris ne remplace pas le jugement de l'ethnographe. Il l'encode.
ARTICLE SCIENTIFIQUE · van Rijn, P. et Larrouy-Maestri, P. (2023). Modelling Individual and Cross-Cultural Variation in the Mapping of Emotions to Speech Prosody. Nature Human Behaviour, 7, 386–396. Sept facteurs acoustiques expliquent 57 % de la variance émotionnelle dans la voix sur un corpus de plus de 3 000 minutes d'enregistrements multilingues.
REVUE DE LITTÉRATURE · Larrouy-Maestri, P., Poeppel, D. et Pell, M. D. (2025). The Sound of Emotional Prosody: Nearly 3 Decades of Research and Future Directions. Perspectives on Psychological Science, 20(4), 623–638. Synthèse de trois décennies de recherche confirmant le rôle central des paramètres acoustiques dans la communication émotionnelle.
REVUE SYSTÉMATIQUE · Jordan, E., Terrisse, R., Lucarini, V. et al. (2025). Speech Emotion Recognition in Mental Health: Systematic Review of Voice-Based Applications. JMIR Mental Health, 12, e74260. Revue de 14 études montrant la progression rapide des méthodes automatisées de détection d'émotion vocale, avec des précisions atteignant 98,7 % sur certains corpus de référence.
ARTICLE SCIENTIFIQUE · Gobl, C. et Ní Chasaide, A. (2003). The Role of Voice Quality in Communicating Emotion, Mood and Attitude. Speech Communication, 40, 189–212. La qualité vocale — souffle, timbre, tremblements — est un vecteur indépendant de communication émotionnelle, distinct du pitch et de l'intensité.
ARTICLE SCIENTIFIQUE · Miller, G. A. (1956). The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information. Psychological Review, 63(2), 81–97. Travail fondateur sur les limites de la mémoire de travail humaine — entre 5 et 9 éléments simultanément.
NOTE DE CALCUL · Chiffres prosodiques Boris (entrevue de 45 min). 7 signaux prosodiques (fenêtres 0,5s) : 7 × (2 700 ÷ 0,5) = 37 800 points. 18 classes d'événements sonores (fenêtres 0,48s) : 18 × (2 700 ÷ 0,48) ≈ 101 250 points. Total : 139 050 points par entrevue. Sur 20 entrevues : 2 781 000 mesures.
ARTICLE SCIENTIFIQUE · Reagan, A. J., Mitchell, L., Kiley, D., Danforth, C. M. et Dodds, P. S. (2016). The Emotional Arcs of Stories Are Dominated by Six Basic Shapes. EPJ Data Science, 5, 31. Six trajectoires émotionnelles fondamentales identifiées par analyse computationnelle sur 1 700+ récits — le fondement de l'arc émotionnel de Boris.
ARTICLE SCIENTIFIQUE · Boyd, R. L., Blackburn, K. G. et Pennebaker, J. W. (2020). The Narrative Arc: Revealing Core Narrative Structures Through Text Analysis. Science Advances, 6(32). Structure narrative universelle en trois phases confirmée sur 40 000 récits et 20 000 textes non fictionnels.
OUVRAGE · Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press. Cadre théorique fondateur de la dissonance cognitive — la tension entre croyances contradictoires est un signal psychologique mesurable.
OUVRAGE · Giles, H., Coupland, J. et Coupland, N. (1991). Accommodation Theory: Communication, Context, and Consequence. In Contexts of Accommodation. Cambridge University Press. Théorie de l'accommodation communicationnelle — le mécanisme de convergence lexicale entre interlocuteurs, fondement du miroir linguistique de Boris.
ARTICLE SCIENTIFIQUE · Niederhoffer, K. G. et Pennebaker, J. W. (2002). Linguistic Style Matching in Social Interaction. Journal of Language and Social Psychology, 21(4), 337-360. Mesure quantitative du matching linguistique entre interlocuteurs en situation d'entrevue.
ARTICLE SCIENTIFIQUE · Borgatti, S. P., Mehra, A., Brass, D. J. et Labianca, G. (2009). Network Analysis in the Social Sciences. Science, 323, 892-895. Synthèse fondatrice de l'analyse de réseaux sociaux — le cadre théorique de la cartographie relationnelle de Boris.
OUVRAGE · Brinkmann, S. et Kvale, S. (2015). InterViews: Learning the Craft of Qualitative Research Interviewing (3e éd.). Sage. Ouvrage de référence en méthodologie d'entrevue qualitative — l'évitement thématique comme signal d'analyse.
L’observation participante, c’est trois actions: « percevoir, mémoriser et noter »¹. Sa valeur ajoutée réside dans le fait que l’ethnographe prend part aux activités du groupe dans lequel il s’insère. En effet, « en participant au même titre que les acteurs, le chercheur a un accès privilégié à des informations inaccessibles au moyen d’autres méthodes empiriques »².
Sur le terrain, les ethnographes s’intéressent à l’environnement physique, aux interactions (personne à personne et personne à objet) ainsi qu’aux comportements. Ils y recueillent donc des informations sur les contextes d’utilisation de l’espace et des objets, des pratiques socioculturelles, des dynamiques de groupe, etc.
L’observation participante peut donc poursuivre trois objectifs ³:
1. La grille d’observation
La grille d’observation est un outil qui peut vous aider à cadrer votre recherche terrain afin de ne pas vous sentir submergé par une trop grande quantité d’éléments à observer. Vous y noterez des informations sur le déroulement de l’événement, la description des lieux, les personnes que vous aurez rencontrées, vos biais, vos pistes d’analyse, etc.
2. Le téléphone intelligent
Votre téléphone peut servir d’enregistreur, d’appareil photo et de caméra pour filmer. Son usage peut impliquer d’obtenir le consentement verbal ou écrit des personnes que vous enregistrerez et devrait toujours se prêter au contexte du terrain d’observation.
Depuis plusieurs décennies, les départements de marketing et de design se sont emparés d'un vieux terme pour décrire leurs types de clients : le fameux persona. Le persona est un personnage fictif représentant un groupe spécifique de personnes, que l'on va "incarner" par un individu créé de toutes pièces. Il sert de modèle pour comprendre les caractéristiques, les besoins, les préférences et les comportements de ce groupe. Les personas sont souvent créés à partir de recherches et de données sur les utilisateurs réels. Typiquement, on y retrouve les éléments tels que :
De planification stratégique en plan marketing, on voit les départements s'accrocher à leurs personas et en faire de véritables cibles marketing. La raison est facile à comprendre : d'abord, la simplicité. Il est plus facile de nommer Julien ou Marie que "les hommes 25-40 ans en couple, en banlieue" ou "les femmes professionnelles urbaines". Ensuite, une sorte de sentiment d'attachement se crée dans l'organisation. On va plus facilement prendre soin de Claude ou de Carole que d'un "public cible". Quel est le problème alors?
Il en existe plusieurs. D'abord, on voit souvent des contradictions ou des aberrations qui créent des personnages fictionnels, voire des superhéros du quotidien qui finissent par ne représenter personne. "Julie a 35 ans, 3 enfants en bas âge, elle vit en banlieue et travaille en centre-ville, elle fait du sport trois fois par semaine et voit ses amies souvent. Elle est très sensible aux changements climatiques. Elle a un chalet et un VUS, etc." À part dans les agences marketing, Julie n'existe pas.
Ensuite, ce persona représente la moyenne. Or nous l'avons déjà écrit dans un article, la moyenne n'existe pas. La création d'un persona moyen va pousser les départements marketing à créer une sorte de porte-parole d'un groupe, qui ne représente pas les disparités de celui-ci. Les différences sont effacées. Les incongruités sont ignorées. On dessine à grands traits un portrait idéal, uniforme, alors que c'est justement dans les subtilités de nos différences que l'innovation se cache. C'est aussi l'avis de Dan Formosa, un grand designer industriel interrogé dans le documentaire Objectified:
Certains de nos clients nous disent notre usager moyen est une femme, 42 ans, 2.3 enfants... Nous, on écoute poliment, mais... on s'en fout de cette personne. Ce qu'on a vraiment besoin de savoir pour designer, c'est le comportement des usagers extrêmes. Les plus forts ou les plus faibles, les athlètes, les plus rapides ou les moins agiles. On innove pour eux. La moyenne, elle... Elle va pouvoir s'arranger toute seule.

Cependant, il demeure un dernier problème qui nous oblige à faire un petit tour dans le passé.
L'étymologie du mot "persona" remonte au latin. Le mot latin "persona" signifiait initialement "masque" ou "visage" et était utilisé pour décrire les masques portés par les acteurs sur scène dans les théâtres romains et grecs antiques. Ces masques étaient souvent conçus pour représenter des caractères ou des types de personnages spécifiques, permettant ainsi au public de comprendre instantanément le rôle de l'acteur dans la pièce.
Au fil du temps, le sens du mot "persona" a évolué pour inclure non seulement le masque lui-même, mais aussi le personnage ou le rôle représenté par l'acteur. En fin de compte, il en est venu à représenter une identité ou un ensemble de caractéristiques adoptées par une personne dans un contexte particulier. Si on s'en tient aux origines, le persona est un personnage, pas une personne. On est donc passé du masque au personnage à la moyenne d'un groupe. Et c'est dommage...
Il existait déjà un mot pour décrire un groupe de personnes : un profil. C'est exactement la même définition — certains vous diront que le profil décrit "une personne" alors que le persona décrit un "ensemble de personnes". Mais alors on se prive d'une subtilité qui a beaucoup de valeur en anthropologie. Si le profil décrit la réalité et que le persona décrit un personnage fictif, alors on crée un écart entre ce que la personne est et ce que la personne pense ou aimerait être.
Chez Perrier Jablonski, nous sommes à la recherche d'insights en permanence, et sans trahir de secret professionnel, la vérité se cache souvent entre la réalité et le fantasme. Entre le profil et le persona. Par exemple, voici le profil d'Aurélien : il a 37 ans. Il a deux enfants et vit à Sherbrooke. Il travaille en construction. Voici le persona d'Aurélien: Aurélien se voit comme un gars de plein air qui pourrait vivre sur la route, à escalader les plus belles montagnes du pays et à vivre en pleine nature à l'année. On voit bien que ces deux Aurélien sont compatibles. On imagine bien le potentiel des insights cachés entre le profil et le persona d'Aurélien. Pourquoi Aurélien n'a-t-il pas fait le choix de vivre son rêve? Est-ce seulement un rêve ou un projet? Existe-t-il des empêchements à la réalisation de cette vie rêvée? Aurélien vit-il avec nostalgie? Comment fait-il cohabiter ces deux vies dans sa tête? Vit-il comme si il avait réalisé son rêve? Ces incohérences sont autant de questions qui pourraient nous aider à résoudre "l'énigme Aurélien". Pour faire cela, nous avons besoin d'un cadre plus solide, plus profond, et plus sérieux.
C'est à Carl Gustav Jung, un immense psychologue du XXe, que l'on doit l'idée d'archétype. Ce sont des modèles de comportement — ou de personnalité — qui ont un caractère universel et intemporel. On les retrouve dans les mythes, les légendes, les religions, la littérature et même le cinéma ou la télévision. Ils peuvent servir dans la création d'un persona, dans le sens qu'ils représentent une sorte de "caricature inspirante" — qui aurait l'avantage d'être compréhensible par tous. L'archétype devient alors un "super-persona" caricatural, certes, mais universel.
En voici quelques-uns :

Ils sont très pratiques à plusieurs égards. D'abord parce qu'ils sont clairs, évidents. Ensuite, parce qu'ils représentent la psyché humaine, qui est riche et complexe. Enfin parce qu'ils peuvent s'additionner dans la composition de votre persona. L'archétype nous permet alors d'assumer que l'humain en face de nous n'est pas simple... et l'insight peut nous permettre de résoudre notre énigme. Si Aurélien (avec son profil) n'agit pas conformément aux principes qu'il déclare (son persona), c'est sans doute qu'il a une personnalité complexe (son archétype).
Ainsi, pour éviter le piège du persona, on aurait avantage à décrire notre Julie comme un mélange de "profil-persona-archétype" — que nous avons renommé le P.A.P par convenance. Par exemple comme une femme de 42 ans, professionnelle, d'un niveau universitaire, qui habite en banlieue et travaille en centre-ville, qui aime le plein air et habite un 5½. Elle se voit comme une femme libre et proche de la nature, mais elle ne vit pas ce rêve. Pourquoi? Parce qu'elle a deux enfants, et que son rôle de mère passe avant tout. Mi-figure maternelle, mi-héroïne, elle a besoin d'être encouragée, supportée et valorisée. Elle n'a pas mérité de nouvelles injonctions ou des leçons de morale. Nous allons donc devenir la marque qui va faciliter sa vie, l'encourager et la soutenir, en faisant ceci ou cela.
Imaginez que vous entrez dans un supermarché avec une liste d'articles de première nécessité. Pourtant, en flânant dans les allées, un panneau lumineux attire votre attention : "Achetez-en un, obtenez-en un gratuit". Intrigué, vous commencez à examiner des produits que vous n'aviez pas l'intention d'acheter. Votre cerveau analyse rapidement cette "opportunité", et bientôt, vous trouvez votre panier rempli d'articles non essentiels. Comment expliquer ce comportement ? C'est là que les biais psychologiques entrent en jeu. Les marques, armées des découvertes de l'économie comportementale, utilisent ces biais pour influencer nos choix de manière quasi irrationnelle.
Ces mécanismes ont été étudiés en profondeur par Dan Ariely, professeur de psychologie et d'économie comportementale à l'Université Duke. Ariely est un expert reconnu pour ses travaux sur les erreurs systématiques dans nos prises de décision. Sa fascination pour la complexité de l'esprit humain provient de son expérience personnelle : une grave brûlure l'a plongé dans un long rétablissement, ce qui lui a donné une perspective unique sur les comportements irrationnels. De ses recherches, il a écrit plusieurs livres qui montrent que nos décisions, loin d'être rationnelles, sont souvent guidées par des influences subtiles que nous ne percevons même pas. Explorons 12 biais majeurs qui façonnent nos décisions d'achat.

Le mot "gratuit" exerce une emprise étonnante sur nos esprits. Même si un produit gratuit a peu de valeur intrinsèque, nous nous sentons irrésistiblement attirés par l'idée de ne rien payer. Cela fait partie de la nature humaine de privilégier l'absence de coût, même si cette décision n'est pas rationnelle. Par exemple, des offres comme "achetez-en un, obtenez-en un gratuit" ou "livraison gratuite" suscitent souvent une excitation disproportionnée. Une personne peut se retrouver à dépenser 10 $ de plus pour bénéficier d'une livraison gratuite sur un achat de 40 $, même si économiquement cela ne fait aucun sens.
Lorsque nous prenons des décisions, nous le faisons rarement en absolu. Au lieu de cela, nous les comparons avec les autres options disponibles, même si ces comparaisons sont parfois absurdes. Par exemple, une montre à 80 $ paraît raisonnable lorsqu'elle est placée à côté d'une montre de luxe à 400 $, même si 80 $ représente encore une somme importante. Les magasins organisent leurs étalages en sachant très bien que ces comparaisons augmentent la probabilité que vous choisissiez un produit qui semble être une "bonne affaire". Cette manipulation subtile de nos perceptions peut pousser les consommateurs à dépenser plus que prévu, simplement parce que la comparaison les rend moins soucieux de la valeur réelle de l'argent.
L'ancrage est un biais qui influence notre jugement en utilisant la première information que nous recevons comme point de référence. Cela se produit souvent avec les prix. Par exemple, si un téléviseur est initialement affiché à 2000 $ avant d'être soldé à 1500 $, ce dernier prix semble être une bonne affaire, même s'il est encore cher par rapport aux autres modèles du marché. Notre cerveau se focalise sur le prix d'origine, ce qui biaise notre évaluation de la valeur réelle du produit. Les entreprises exploitent ce biais de manière stratégique dans les soldes ou les campagnes de réduction pour inciter les consommateurs à penser qu'ils obtiennent un produit de grande valeur à un prix réduit.
Dès que nous commençons à envisager qu'un objet est "le nôtre", il prend une valeur émotionnelle plus élevée. Cette idée explique pourquoi les essais gratuits, comme la conduite d'une voiture neuve ou les périodes d'essai pour des abonnements, sont des outils de marketing puissants. Une fois qu'on a une connexion émotionnelle avec un produit, il devient difficile de le rendre. L'attachement se crée très vite : par exemple, tester un matelas pendant 30 jours fait que beaucoup de consommateurs finissent par l'acheter, même s'ils pourraient trouver mieux ou moins cher ailleurs. L'idée de le rendre semble être une perte, et ce sentiment amplifie notre désir d'achat.
Nos attentes ont un pouvoir surprenant sur notre perception des produits. Si l'on vous dit qu'un vin coûte 100 $ et qu'il est hautement recommandé, vous serez prédisposé à penser qu'il a un goût exceptionnel, même si un vin similaire à 10 $ pourrait être tout aussi bon. Ce phénomène est exploité par les marques de luxe, qui justifient leurs prix élevés par une image de qualité supérieure. Les consommateurs, influencés par ces attentes, éprouvent alors une satisfaction accrue, ce qui renforce leur perception de la valeur. Ainsi, des produits cosmétiques, des voitures ou des vêtements de créateurs sont vendus à des prix exorbitants grâce à ce simple biais.
Les consommateurs aiment sentir qu'ils contrôlent leurs choix, même si ce contrôle est une illusion. Cela se voit dans des situations où nous avons de nombreuses options, comme dans un menu de café proposant 15 variétés de café. Même si la plupart des options sont similaires, le simple fait de pouvoir choisir nous rend plus satisfaits. Les entreprises ajoutent délibérément des options pour donner cette illusion de contrôle, ce qui augmente la probabilité que nous ressentions une plus grande satisfaction avec notre décision. Cela renforce l'engagement et encourage des dépenses plus élevées.
Nous cherchons des informations qui valident nos croyances existantes et ignorons celles qui les contredisent. Cela se manifeste dans le comportement des consommateurs qui préfèrent des marques qu'ils ont déjà adoptées. Par exemple, un fan de Toyota cherchera des avis positifs sur les voitures Toyota, tout en minimisant les critiques. Les campagnes de marketing exploitent ce biais en envoyant des messages qui renforcent les préférences de leurs consommateurs cibles, créant un sentiment de confort et de validation qui encourage la fidélité à la marque.
Nous détestons perdre plus que nous aimons gagner, et c'est un fait psychologique exploité par les stratégies marketing. Des phrases telles que "dernière chance" ou "offre exclusive, bientôt expirée" suscitent un sentiment de peur de manquer quelque chose. Les consommateurs se sentent poussés à agir rapidement pour éviter la douleur de la perte, même si l'offre n'est pas réellement avantageuse. Cela peut se traduire par des achats impulsifs de produits dont ils n'ont pas vraiment besoin, simplement pour éviter le regret de ne pas avoir saisi l'occasion.
Plus nous voyons un produit ou une marque, plus nous avons tendance à l'apprécier. C'est un biais que les marketeurs exploitent en multipliant les publicités. Même si nous n'achetons pas un produit dès le départ, le fait de le voir fréquemment augmente sa familiarité et, donc, son attractivité. Par exemple, après avoir vu des publicités pour une voiture plusieurs fois, nous sommes plus enclins à la considérer favorablement, même sans en savoir plus sur ses performances. Ce biais de familiarité joue un rôle clé dans la construction de la notoriété des marques.
Nous valorisons davantage les objets que nous avons contribué à créer ou assembler nous-mêmes, même si le produit final n'est pas parfait. Ce phénomène est appelé l'effet IKEA, d'après le géant suédois de l'ameublement. Construire une étagère IKEA génère un attachement émotionnel, rendant le meuble plus précieux à nos yeux. Les entreprises exploitent ce biais pour augmenter la satisfaction client et l'attachement à leurs produits. Cela peut aussi s'appliquer aux expériences de personnalisation, comme choisir les composants d'un ordinateur ou créer son propre parfum.
La rareté rend les objets plus désirables. Quand un produit est présenté comme "édition limitée" ou "quantité restante : 5", les consommateurs ressentent une urgence qui les pousse à acheter. Même si l'objet n'est pas vraiment nécessaire, l'idée qu'il pourrait bientôt disparaître provoque un sentiment de peur de manquer une opportunité unique. Cette technique est courante dans les ventes flash et les enchères en ligne, où la pression temporelle joue sur nos émotions.
Une fois que nous avons investi du temps, de l'argent ou des émotions dans un produit ou un service, nous avons du mal à abandonner cet investissement, même si cela devient irrationnel. Par exemple, après avoir dépensé 500 $ pour une collection de figurines, il devient difficile de ne pas continuer à acheter les nouvelles pièces, même si cela compromet votre budget. Ce biais nous pousse à persévérer dans des dépenses qui ne sont plus justifiées, simplement parce que l'abandon serait ressenti comme une perte.
À la fois science et méthode de recherche, l’ethnographie s’intéresse aux manières dont les gens vivent leur vie et interagissent avec leur environnement. Autrefois utilisée en anthropologie pour étudier les cultures et les sociétés, elle sert aujourd’hui à appréhender et comprendre les expériences des individus. Souvent qualifiée de fieldwork et de recherche in situ, l’ethnographie se distingue par son ancrage au terrain. En effet, les chercheur.e.s, par l’observation, les entrevues et le journal de bord, s’immergent dans l’environnement des enquêté.e.s qui deviennent partie intégrale du processus de recherche.
Fait intéressant, nous observons une hybridation de l’ethnographie à d’autres disciplines. Nous pouvons donc parler d’ethnomarketing (l’ethno appliquée aux comportements de consommation), de netnographie (l’ethno en ligne) et d’ethnographie multisites (l’ethno qui connecte plusieurs lieux).¹
IKEA utilise l’ethnographie pour comprendre les gens à la maison en les situant dans leurs contextes socioculturels, politiques, environnementaux et économiques. «Dans nos recherches, nous voulons nous rapprocher de la vie de tous les jours des personne, de leur réalité »², explique Mikael Ydholm, directeur de la recherche chez IKEA.
Alliant ethnographie et créativité, les recherches d’IKEA vont de la création d’environnements ponctuels aux visites à domicile, de l’observation de la maison par caméras 24/7 à l’observation de communautés en ligne. D’ailleurs, Marcus Engman, chargé de l’équipe de design chez IKEA, explique que le développement de produits doit toujours débuter à la maison. C’est pourquoi son équipe réalise des visites à domicile avant même d’entamer le design d’un produit par le biais du Programme de visite à domicile de l’entreprise³. L’ethnographie appliquée au design consiste donc en « un passage des données provenant du terrain vers un travail de création ».⁴
Tout commence par une question que IKEA ne pose pas : « Comment utilisez-vous votre sofa ? ». C’est une mauvaise question. Parce qu’elle suppose que vous savez. Et vous ne savez pas. Vous direz que vous vous asseyez dessus pour lire, discuter, regarder Netflix. Et pourtant… vous vous y allongez. Vous y dormez. Vos enfants le renversent. Votre chien le dévore. Votre culture le détourne. En Asie, on l’utilise comme dossier pour s’asseoir au sol.
C’est là qu’intervient l’ethnographie. Elle révèle ce que vous auriez censuré, oublié ou ignoré. Elle transforme un objet standardisé en réponse contextuelle. Et elle fait du design non pas un geste artistique, mais une traduction socioculturelle. L’approche IKEA repose sur une conviction simple : les idées ne naissent pas dans les brainstormings, elles naissent dans les salons, les cuisines, les entrées mal rangées.
IKEA se démarque sur le plan de la recherche et du design de plusieurs autres façons.
D’abord, depuis 2014, IKEA publie le Life at Home Report. Ce rapport annuel, accessible au public, aborde divers enjeux qui influencent le quotidien et la vie à la maison des gens à travers le monde. De Mumbai à Toronto, IKEA s’intéresse aux multiples conceptions de l’intimité, aux causes de la frustration à la maison, aux émotions que l’on y vit, etc.
En 2015, IKEA lance un projet singulier et volontairement discret : SPACE10. Installé à Copenhague, ce laboratoire indépendant, entièrement financé par l’entreprise, ne produit ni meubles ni services commerciaux. Il observe. Il enquête. Il interprète. Son terrain n’est pas le marché, mais les modes de vie.
Au cœur de SPACE10 se trouve une pratique ethnographique élargie. Les équipes s’intéressent aux gestes quotidiens, aux routines domestiques, aux contraintes invisibles et aux aspirations émergentes. Comment mange-t-on demain ? Comment partage-t-on l’espace ? Comment cohabitent humains, technologies et environnements ? Ces enquêtes ne visent pas à produire des données exploitables à court terme, mais à faire émerger des cadres d’interprétation.
En 2023, IKEA met fin à SPACE10 et intègre les apprentissages et les fonctions du laboratoire aux équipes internes. À l’image de certaines démarches ethnographiques, SPACE10 n’avait pas vocation à s’institutionnaliser, mais à transformer les manières de voir et de faire.
La quête de la productivité ne date pas d’hier. Au tournant du 20e siècle, des monuments de la recherche en management tels que Fred Taylor et Henri Fayol se penchaient déjà sur la question. Henri Ford a lui-même inventé la recette de la productivité manufacturière, qui a profondément marqué le monde industriel du 20e siècle. Mais une série d’études en particulier, menées par l’équipe d’Elton Mayo, révèle que l’écoute est l’élément clé de la productivité.
Bâtie en 1905, Hawthorne Works, une immense usine située en Illinois, a souvent servi de laboratoire aux scientifiques voulant étudier les comportements des travailleurs. Et avec raison : à son apogée, près de 45 000 employés y travaillaient, ce qui représentait un échantillon très intéressant pour les chercheurs.
Au cours de trois études conduites entre 1924 et 1927, l’équipe de Mayo a tenté d’observer les facteurs qui influençaient la productivité, de la disposition des espaces de travail aux incitatifs monétaires. Mais l’exemple qui a marqué l’imaginaire est celui de l’éclairage. Les chercheurs ont voulu évaluer l’impact de l’augmentation de l’éclairage sur la productivité, et ont constaté que plus ils augmentaient l’éclairage, plus la productivité augmentait! La satisfaction d’avoir découvert un filon intéressant fut cependant de courte durée : lorsqu’ils ont réduit l’éclairage à un niveau normal, ils ont observé la même augmentation de productivité.
Plusieurs études ont depuis révélé que l’effet du changement des conditions de travail, et plus spécifiquement de l’éclairage, ne peut être démontré scientifiquement en raison du trop grand nombre de variables à contrôler. Toutefois, un facteur précis semble avoir eu un effet réel sur la productivité des employés.
Plusieurs chercheurs ayant revisité les études de l’équipe de Mayo ont noté un fait intéressant. Alors que les équipes étudiées travaillaient auparavant sous le contrôle serré de leurs gestionnaires, les chercheurs ont pris le relais pour la durée du projet de recherche. Ces derniers avaient donc comme mandat de dialoguer et d’écouter les besoins des employés. Selon Mayo, « le plus grand changement s’est produit lorsque les responsables de l’étude ont cherché à obtenir la coopération des travailleurs en comprenant leurs besoins humains ».
L’un des plus grands défis que traversent les entreprises est de parvenir à maintenir un haut niveau de productivité avec une demande plus qu’incertaine, des effectifs réduits et les difficultés liées au télétravail. Il n’existe pas de solution miracle, et nous devrons tous développer la capacité de s’adapter à cette nouvelle réalité.
Cependant, une chose est certaine. Les entreprises ne doivent pas tomber dans la « trappe de la disponibilité infinie » : puisque les employés sont théoriquement toujours disponibles, leur agenda se remplit à une vitesse vertigineuse. Impossible de dire que l’on doit être ailleurs, ou que l’on a un autre rendez-vous, simplement parce que nous sommes tous confinés. Il n’y a pas d’échappatoires. Si on laisse cette pression s’accumuler, nous fonçons tous vers le surmenage.
Un employé productif n’est pas un employé qui a un agenda rempli. Un employé productif est un employé qui produit. Point. Et comme le démontrent les expériences réalisées à Hawthorne il y a près de 100 ans, la productivité survient généralement lorsqu’on écoute plus et que l’on demande moins.