




C’est en 2016 que Perrier Jablonski a embauché sa première ethnographe. Sabrina Tremblay, d’abord venue observer « L’émergence d’une nouvelle organisation créative » chez nous (le nom de son mémoire de maîtrise) pour HEC. Mais Sabrina avait été envoyée chez nous par Jean-Sébastien Marcoux, le plus grand anthropologue de la consommation au Québec. Il allait devenir (sans le savoir), le parrain influent et bienveillant de notre jeune firme.
Une expérience si bouleversante pour nous qu’elle allait changer le cours de notre jeune histoire, et réorganiser le travail en équipes-trios : ethnographe, stratège, chargée de projets. C’est encore le modèle que nous utilisons aujourd’hui.
Pour chaque projet, on sélectionnait un groupe de participants, on menait des entrevues d’une heure, puis on transcrivait à la main. Pour une heure d’entrevue, il fallait compter une heure et demie de transcription. Donc… 2h30 par entrevue. C’était cher et laborieux, mais la qualité des observations que nous faisions comblait largement l’investissement.
Il fallait cependant avouer qu’au fil des projets qui grandissaient, ce temps de traitement devenait colossal. À l’époque, nous avions cherché des outils commerciaux de transcription. Les plus fiables — les mêmes utilisés par les tribunaux — coûtaient des milliers de dollars par licence. Hors de portée pour notre usage. Puis est arrivé… Whisper.
En septembre 2022, OpenAI publie Whisper — un modèle de transcription automatique entraîné sur 680 000 heures d’audio multilingue. Open source, sous licence MIT : gratuit, modifiable, installable localement sur n’importe quel ordinateur. Quiconque voulait transcrire un fichier audio sans l’envoyer dans le cloud, pouvait le faire gratuitement.
Pour Perrier Jablonski, ç’a été un basculement. Les heures passées à transcrire mécaniquement ont pu être réparties dans ce qui compte vraiment : plus d’entrevues, plus d’analyse, plus de livrables. L’ethnographie que nous pratiquions de façon presque artisanale s'est largement professionalisée… Et nos projets se sont multipliés. Le plus beau? Cette automatisation a permis à Perrier Jablonski de démocratiser l’anthropologie. Elle est devenue accessible à des organisations qui n’en n’auraient jamais eu les moyens auparavant. Les PME, les OBNL, les équipes à petit budget pouvaient enfin s’offrir du vrai terrain, de vraies observations, de vrais insights.
Une vraie révolution, je vous dis ! Mais...
Pendant plus de trois ans, nous avons utilisé le modèle Whisper via l’application MacWhisper. Un bon outil. Fiable, local, économique, rapide. Mais au fil des projets, ses limites sont devenues évidentes pour notre usage.
D’abord, la précision dans le temps. MacWhisper place les mots dans des blocs de quelques secondes. Pour lire une transcription, c’est suffisant. Pour analyser une entrevue précisément, il faut savoir où chaque mot commence et finit… à la milliseconde.
Ensuite, il ne sait pas qui parle. Deux voix pendant 45 minutes produisent un seul bloc de texte. La diarisation — séparer les voix — est arrivée en bêta fin 2025, tard et encore imparfaite. Dans une entrevue qualitative, savoir qui dit quoi est la condition minimale.
Enfin, les voix séparées restent étiquetées « Speaker 1 / Speaker 2 ». Des numéros anonymes. Pour une firme qui conduit des centaines d’entrevues par année, avec les mêmes ethnographes, renommer à la main chaque fichier est un travail que la machine devrait faire seule.
Ça, c’est sans parler des bugs importants qui nous forçaient à repasser à travers chaque entrevue méticuleusement. Nous avions besoin d’un meilleur outil, alors nous l’avons construit.
La première version de Boris était donc un outil de transcription. Nous sommes partis d’un modèle plus récent que Whisper, WhisperX, développé par l’équipe Visual Geometry Group d’Oxford (Bain et al., 2023), dont nous avons utilisé les nouvelles fonctionnalités à fond, avant de lui adjoindre des fonctionnalités-maison.
D’abord, la diarisation : séparer les voix avant même de transcrire. Un modèle analyse le signal pour repérer qui parle quand, en comparant les empreintes acoustiques au fil de l’enregistrement — sans comprendre les mots. Résultat : un bloc de texte par personne, au lieu d’un monologue mélangé.
Ensuite, l’alignement forcé. Whisper transcrit par phrases de quelques secondes ; Boris ajoute une deuxième passe qui recale chaque mot à la milliseconde exacte d’apparition dans l’audio. On peut alors retrouver, dans le signal brut, le moment précis où un mot a été prononcé — et tout ce qui l’entoure : intonation, pause, hésitation.
Enfin, l’identification nominative. Les voix des ethnographes de Perrier Jablonski sont stockées une fois dans l’application. À chaque nouvelle entrevue, Boris reconnaît leur empreinte et les étiquette par leur nom réel — puis filtre leurs interventions, parce que ce qui nous intéresse, c’est les propos du participant, pas ceux de l’intervieweur.
Et toutes ces opérations sont effectuées en local, sur nos Mac, sans jamais se promener sur le réseau — pour une confidentialité absolue. Si on devait le commercialiser, Boris battrait déjà tous les outils du commerce :
Nous n’allions pas nous arrêter en si bon chemin. En développant la transcription de Boris, nous avons réalisé qu’on pouvait synchroniser chaque mot avec le signal audio brut. Cela ouvrait deux portes : analyser ce que les gens disent avec une précision inédite, et analyser comment ils le disent — c’est-à-dire leur voix elle-même.
Nous avions construit le meilleur moteur de transcription disponible sur le marché… Mais venions d’ouvrir la voie à un tout nouveau type d’analyse…
Quand on termine 20 entrevues sur le même sujet, on a besoin d’un outil visuel pour illustrer ce que les participants nous ont dit. Un outil que vous connaissez bien : le nuage de mots. Les mots les plus fréquents apparaissent en gros, les plus rares en petit. En un regard, on voit le territoire lexical du groupe. Mais pour qu’un nuage de mots soit lisible — et utile — il faut toujours faire un peu de ménage.

Le premier geste, c’est d’écarter les mots qui n’apportent rien : « de », « que », « est », « avoir », « chose ». Les linguistes les appellent des stopwords — des mots vides. Ils sont partout, ils noient tout. Les retirer, c’est déjà voir plus clair.
Le deuxième geste, c’est la lemmatisation : ramener chaque mot à sa racine. « Méritaient », « méritera », « méritent », « mériterait » deviennent tous « mériter ». Sans ça, chaque variante compte pour un mot distinct et le signal s’éparpille. Après ce nettoyage, une entrevue de 45 minutes qui contenait 3 800 mots bruts en contient environ 1 700 analysables. Sur un projet de 20 entrevues, on passe de 76 000 à 34 000.
Le nuage de mots obtenu est un portrait lexical du groupe : ce qui habite leurs pensées, ce qui revient dans leurs bouches, ce qui tient le terrain mental.
Mais un nuage seul ne dit pas tout. Les mots qui reviennent le plus souvent sont souvent les plus attendus — « mission », « culture », « équipe » dans un mandat organisationnel. Pour aller plus loin, il fallait chercher ailleurs : d’abord identifier le champ lexical vraiment spécifique à chaque participant, et ensuite… les mots qu’on aurait attendus mais qu’on n’a pas entendus…
Analyser les mots à ce niveau de précision est totalement inédit. Pour un client, c’est comme passer du 720P au 8K d’un seul coup. Cerise sur le sundae, à ce stade de l’analyse, aucune donnée n’a quitté nos machines, tout se fait 100 % en local, tout 100 % confidentiel.
Pendant une entrevue, la voix d’un participant transporte bien plus que des mots. Elle accélère quand un sujet devient sensible. Elle baisse d’un ton quand la confiance s’installe. Elle tremble imperceptiblement quand une émotion remonte. Admettons que ces signaux soient identifiables, peut-on réellement les interpréter?
L’étude de ces signaux s’appelle la prosodie. Jusqu’ici, elle appartenait à d’autres mondes : les phonéticiens qui décrivent les langues, les cliniciens qui diagnostiquent la dépression par le timbre de la voix, les ingénieurs qui entraînent des assistants vocaux. En 2023, Van Rijn et Larrouy-Maestri ont publié dans Nature Human Behaviour une analyse portant sur plus de 3 000 minutes d’enregistrements issus de corpus mondiaux. Leur conclusion : sept facteurs acoustiques — qualité vocale, intensité, hauteur, rythme, fluctuations rapides et aléatoires (shimmer), variation du pitch et spectre fréquentiel — expliquent à eux seuls 57 % de la variance émotionnelle dans la voix humaine. Sept facteurs mesurables? Parfait! C’était notre nouveau brief!
C’est la deuxième révolution proposée par Boris. L’application échantillonne chacun de ces signaux toutes les 500 millisecondes, en continu, sur toute la durée de l’entrevue. Le résultat : 7 signaux mesurés toutes les 0.5 secondes, pendant 45 minutes — plus de 37 800 points de données signaux potentiels par entrevue. Une véritable mine d’informations !
Chaque mesure est comparée à la ligne de base propre au locuteur — ses propres moyennes de débit, d’intensité, de hauteur. Boris ne confond pas quelqu’un qui parle naturellement fort avec quelqu’un qui s’emballe en parlant fort tout à coup. Un signal n’est pertinent que s’il est inhabituel pour cette personne en particulier.
Un raclement de gorge avant de répondre à une question sur la direction ? Un chuchotement au moment où le participant mentionne un collègue ? Un soupir presque inaudible quand l’ethnographe aborde le sujet de la gouvernance ? Ces événements, qui ne sont ni des mots, ni de la prosodie… Mais sont aussi des données précieuses pour un ethnographe.
Alors nous avons implémenté la détection de 18 types d’événements paralinguistiques : plusieurs niveaux de rire, les soupirs, les sanglots, les applaudissements, les exclamations, les chuchotements — c’est un système semblable à celui d’Apple, qui détecte les sons environnants pour les personnes malentendantes (réglages > accessibilité). Nous avons simplement utilisé le modèle de Google YAMNet, entraîné sur plus de 2 millions de clips audio. Il contient 521 classes sonores, mais nous n’avons choisi que les 18 qui étaient pertinentes pour Boris.
Chaque événement est horodaté, scoré, filtré et intégré à l’analyse comme signal à part entière.
Cette analyse ultra fine se fait au même rythme que l’analyse prosodique, toutes les 500 millisecondes.

La mémoire de travail humaine traite entre 5 et 9 éléments à la fois — psychologie cognitive (Miller, 1956). Un ethnographe qui conduit une entrevue, doit maintenir le lien avec le participant, formuler des hypothèses, réorienter ses questions ou son enquête, prendre des notes… il a déjà beaucoup de travail et il ne peut pas traiter 139 000 signaux. Maintenant… il peut.
En d’autres termes, Boris analyse 25 types d’événements (7 signaux prosodiques et 18 sons) deux fois par seconde. Ces 139 000 points de données par entrevue représentent plus de 2 700 000 mesures traitées, comparées entre elles, et interprétées pour un projet de 20 entrevues chez Perrier Jablonski.
Souvenons-nous que dans le passé (hum… il y a 3 ans), un ethnographe avait besoin de 1h30 pour transcrire 1h d’entrevue. Non seulement, ce temps est désormais réduit à néant, mais en plus, il offre une précision d’analyse totalement inédite dans notre milieu.
Chez Perrier Jablonski, nous avons toujours séparé les observations ethnographiques et les observations éditoriales, faites par le stratège. L’un écoute et analyse. L’autre propose des pistes réflexions, identifie des tensions à dénouer, formule… L’un est un radiologue qui scanne, l’autre est un médecin de famille qui interprète.
Mais avec Boris, nous avons inventé une troisième voie. Un nouveau genre d’observations que nous avons appelées synthétiques, qui consiste en une analyse croisée des couches sémantiques, prosodiques et sonores.
Ces croisements permettent des observations impossibles jusque-là, qui s’ajoutent aux précédentes :
L’arc émotionnel. Boris agrège les signaux prosodiques et les événements sonores par fenêtres de deux minutes, et trace la courbe d’intensité de la conversation. L’ethnographe voit d’un coup d’œil où l’entrevue a basculé. En superposant les 20 courbes d’un projet, on voit si un même moment du guide fait réagir tout le monde.
Les contradictions internes. Boris repère les moments où un participant dit une chose en début d’entrevue et son contraire en fin. Il met les deux énoncés côte à côte, avec leur signature prosodique, et on identifie quel énoncé porte la charge émotionnelle la plus forte (travaux de Festinger sur la dissonance cognitive, 1957).
Le non-répondu. Boris croise le guide d’entrevue avec les verbatims pour repérer les questions esquivées, contournées, ou restées sans réponse. Une matrice montre, d’un coup d’œil, quelles questions ont été évitées par quels participants. La prosodie autour du moment d’esquive — silence, raclement de gorge, accélération du débit — enrichit le diagnostic.
Les verbatims marquants. Boris sélectionne les 15 à 20 citations les plus puissantes du corpus en combinant trois critères : la richesse sémantique du segment, l’intensité prosodique par rapport à la baseline du participant, et la présence d’un événement sonore. Les citations sortent prêtes pour une présentation client, avec leur contexte et leur score.
Le miroir linguistique. Boris mesure si un participant commence à utiliser les mots de l’ethnographe au fil de l’entrevue — un indicateur classique d’accommodation linguistique (Niederhoffer et Pennebaker, 2002). Il trace la convergence lexicale dans le temps et signale les entrevues où le participant semble s’aligner sur le langage de l’intervieweur plutôt que de parler avec ses propres mots. C’est un outil d’auto-critique : l’ethnographe voit son propre effet sur le participant et peut disqualifier une entrevue (mais ce n’est jamais arrivé encore).
Si Boris mesure tout, il ne signale pas tout. Cela représenterait un volume d’information délirant, contreproductif pour l’équipe. Alors il filtre. Seuls les signaux qui dépassent un seuil de significativité — une variation suffisamment inhabituelle pour ne pas être attribuable au hasard — sont retenus et présentés à l’ethnographe.
Une observation synthétique est une observation que seule la machine peut détecter, mais que seul un humain peut interpréter. C’est le mariage parfait humain-machine.
Boris croise les données prosodiques, sémantiques et paralinguistiques de chaque participant pour le positionner sur une matrice comportementale. Les axes de cette matrice naissent d’une conversation entre l’ethnographe et la machine.
Parfois, c’est l’ethnographe qui initie. Après avoir conduit les entrevues, après avoir senti le terrain, il formule une hypothèse : « Je crois que ce groupe se divise entre ceux qui résistent par loyauté et ceux qui résistent par épuisement. » Boris va chercher dans ses données les marqueurs qui correspondent, et positionne chaque participant.
Parfois, c’est Boris qui propose. À partir de l’ensemble des données qu’il a analysées — prosodie, sémantique, événements sonores — il formule une hypothèse sur les deux variables fondamentales qui structurent le groupe. L’ethnographe examine, ajuste, affine.
Dans les deux cas, le profil émerge de cette conversation — ni purement intuitif, ni purement algorithmique. L’ethnographe ressent. La machine détecte.

Pour la couche d’analyse en langage naturel, nous avons choisi Claude, d’Anthropic (après de nombreux tests). Mais un modèle de langage, aussi performant soit-il, reste généraliste. Livré à lui-même, il identifie admirablement, il organise parfaitement, il synthétise merveilleusement, il rédige efficacement… mais il ne pense ni comme un ethnographe, ni comme un stratège…
C’est pourquoi nous avons entraîné Boris sur notre propre corpus de connaissances. Plus de 200 articles et des centaines de références bibliographiques que Perrier Jablonski a accumulés au fil des dix dernières années sur les sujets qui préoccupent nos clients. Le modèle a appris comment nous formulions une observation, comment nous structurions une tension, comment nous nommions un paradoxe.
J’ai déjà insisté sur l’importance des corpus de connaissances des organisations. J’en parle dans mon deuxième bouquin (Les défis) publié en 2024, mais aussi dans l’article « Corpus, cursus, campus, caucus. Apprendre, fois quatre. »… Maintenant, vous comprenez pourquoi un corpus bien organisé a une valeur inestimable quand on se lance dans un projet technologique…
Pour poursuivre métaphore de la radiologie, Boris est un peu comme un IRM. Une machine d’une précision redoutable, capable de voir ce que l’œil nu ne voit pas. Mais un IRM ne pose pas de diagnostic. Il faut un radiologue pour lire les images, un médecin pour interpréter les résultats, et un patient qui a été orienté par les bonnes questions cliniques. Sans ça, l’IRM produit des images, mais pas des réponses.
C’est la même chose avec Boris. Si vous menez une entrevue sans méthode, que vous ne savez pas formuler une question ouverte, si vous orientez les réponses ou que vous ne savez pas créer un climat de confiance — Boris va quand même nous sortir une analyse. Il va produire des chiffres, des courbes, des observations. Mais elles ne vaudront rien.
C’est pourquoi nous avons décidé de ne pas commercialiser Boris, et de le garder pour nous… pour l’instant.
Il restait un dernier détail — et non des moindres — à régler. On l’a vu plus haut, la plupart des logiciels de transcription envoient vos fichiers audio sur des serveurs distants — c’est-à-dire sur internet, sur des ordinateurs qui appartiennent à d’autres entreprises, souvent aux États-Unis. Pour nous, impossible d’accepter une telle entorse à l’éthique et à la confidentialité qui nous chérissons tant chez Perrier Jablonski. Il fallait régler ça.
Avec Boris tout le traitement se fait directement sur notre ordinateur, dans nos bureaux… à une limite près : l’envoi des données à Claude. Nous avions besoin de contourner cet obstacle, alors nous avons inventé une méthode que nous avons appelé l’anonymisation de bout en bout.
Avant chaque envoi — sans exception — tous les noms de personnes, d’entreprises, de lieux, les montants et les coordonnées sont automatiquement remplacés par des codes incompréhensibles. Ainsi, tout ce qui est envoyé sur le réseau est crypté. Le modèle reçoit « P-x7k2m9 travaille chez O-m4r7x2 depuis T-w8k3 ans » au lieu de « Marie travaille chez Bombardier depuis 12 ans ». Claude analyse donc les bonnes situations, mais sans savoir de qui il s’agit. Quand il nous renvoie ses conclusions, notre moteur remplace les codes par les bonnes entités, et le tour est joué!
Aucun autre outil d’analyse qualitative sur le marché ne propose ce niveau de protection.
Grâce à Boris, des organisations qui n’avaient pas les moyens de financer une ethnographie complète peuvent maintenant y accéder. Boris traite une entrevue en deux fois moins de temps qu’elle n’a duré, avec une précision d’analyse totalement inédite. Des signaux faibles — ceux qui se cachent dans les silences, dans les tremblements, dans les mots qu’on ne prononce pas — deviennent visibles, mesurables, actionnables. Et pour nos clients, ça veut dire des projets plus ambitieux, plus accessibles, et des résultats d’une profondeur qui n’existait tout simplement pas avant.

On aurait pu se payer un trip techno, et faire de Boris notre joujou à nous — mais à chaque étape de sa conception nous nous sommes posé la question de l’utilité pour vous, pour nos clients.
Pendant une entrevue, un ethnographe écoute les mots. Mais il ne peut pas — physiquement — entendre les 139 000 signaux que contient une conversation de 45 minutes : les micro-variations de la voix, les soupirs à peine perceptibles, les accélérations de débit au moment précis où un sujet devient sensible. Boris, l'application développée par Perrier Jablonski, entend tout ça. Il transcrit chaque mot à la milliseconde, sépare et identifie les voix, analyse la prosodie sur sept paramètres continus, détecte 18 types de sons révélateurs, puis croise toutes ces couches pour produire des observations qu'aucun humain ne pourrait formuler seul — des contradictions inconscientes, des questions esquivées, des émotions qui contredisent le discours. Sur un projet de 20 entrevues, Boris croise près de 3 millions de mesures. Pour nos clients, ça change tout : des projets plus rapides, des corpus plus ambitieux (60, 80, 100 entrevues), des budgets plus accessibles, et surtout des recommandations stratégiques fondées sur une profondeur d'analyse qui n'existait pas avant Boris. Avec Boris, Perrier Jablonski concrétise son positionnement "Ethno, sapio, techno", mais surtout, propose une longueur d'avance à tous ses clients.
ARTICLE SCIENTIFIQUE · van Rijn, P. et Larrouy-Maestri, P. (2023). Modelling Individual and Cross-Cultural Variation in the Mapping of Emotions to Speech Prosody. Nature Human Behaviour, 7, 386–396. Étude menée au Max Planck Institute for Empirical Aesthetics (Francfort). À partir de modèles bayésiens appliqués à plus de 3 000 minutes d'enregistrements multilingues, les auteurs identifient sept facteurs acoustiques — qualité vocale (12 %), intensité (11 %), hauteur et formants (10 %), rythme et tempo (10 %), shimmer (6 %), variation du pitch (4 %) et MFCC 3 (4 %) — qui expliquent 57 % de la variance émotionnelle dans la prosodie. C'est l'étude qui a inspiré les sept signaux prosodiques de Boris.
ARTICLE SCIENTIFIQUE · Miller, G. A. (1956). The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information. Psychological Review, 63(2), 81–97. L'un des articles les plus cités de l'histoire de la psychologie. Miller démontre que la mémoire de travail humaine ne peut traiter simultanément qu'entre 5 et 9 éléments d'information — la raison pour laquelle un ethnographe ne peut pas, seul, traiter les 139 000 signaux que Boris génère par entrevue.
OUVRAGE · Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press. Cadre théorique fondateur de la dissonance cognitive : la tension psychologique créée par des croyances ou des énoncés contradictoires. Boris l'applique en repérant les moments où un participant dit une chose en début d'entrevue et son contraire à la fin, puis en comparant la charge prosodique des deux énoncés.
ARTICLE SCIENTIFIQUE · Niederhoffer, K. G. et Pennebaker, J. W. (2002). Linguistic Style Matching in Social Interaction. Journal of Language and Social Psychology, 21(4), 337–360. Trois expériences — dont l'analyse des transcriptions du Watergate — démontrent que les interlocuteurs coordonnent inconsciemment leur usage des mots au fil d'une conversation. Les auteurs proposent une hypothèse de coordination-engagement plutôt que de rapport. Boris utilise cette mesure pour détecter la convergence lexicale : quand un participant adopte progressivement le vocabulaire de l'ethnographe, cela peut signaler une forme d'accommodation plutôt qu'une expression authentique.
ARTICLE SCIENTIFIQUE · Bain, M., Huh, J., Han, T. et Zisserman, A. (2023). WhisperX: Time-Accurate Speech Transcription of Long-Form Audio. Interspeech 2023. Développé par le Visual Geometry Group de l'Université d'Oxford, WhisperX ajoute à Whisper un alignement forcé au mot et une diarisation par empreinte vocale. C'est le moteur de transcription sur lequel Boris est construit.
MODÈLE · Gemmeke, J. F., Ellis, D. P. W., Freedman, D., Jansen, A., Lawrence, W., Moore, R. C., Plakal, M. et Ritter, M. (2017). Audio Set: An Ontology and Human-Labeled Dataset for Audio Events. IEEE ICASSP, 776–780. Le jeu de données de référence en classification audio : plus de 2 millions de clips de 10 secondes, 521 classes sonores, étiquetés par des humains. YAMNet (Yet Another Mobile Network), le modèle de Google entraîné sur AudioSet, est utilisé par Boris pour la détection des 18 classes d'événements paralinguistiques.
OUVRAGE · Brinkmann, S. et Kvale, S. (2015). InterViews: Learning the Craft of Qualitative Research Interviewing (3e éd.). Sage. L'ouvrage de référence mondiale en méthodologie d'entrevue qualitative. Brinkmann et Kvale y documentent les dynamiques de l'entrevue semi-structurée, les biais de l'intervieweur, et les stratégies d'évitement thématique — le cadre méthodologique dans lequel Boris opère.
NOTE DE CALCUL · Chiffres Boris (entrevue de 45 min). 7 signaux prosodiques + 18 classes d'événements sonores = 25 mesures échantillonnées toutes les 0,5 seconde sur 2 700 secondes = 5 400 fenêtres × 25 = 135 000 points par entrevue. Sur 20 entrevues : ≈ 2 700 000 mesures croisées et interprétées.
Il existe trois types d’empathie et chacun de ces types agit sur une partie différente du cerveau. Il faut bien se comprendre, ici: les types d’empathie ne sont pas interdépendants et chaque personne a un degré d’habilité différent par rapport à ceux-ci.
C’est l’empathie que l’on connait tous: le fait de comprendre et de reconnaitre ce que l’autre personne ressent. Quand ton meilleur ami t’appelle pour te dire qu’il a décroché son emploi de rêve et que tu lui dis : « Wow, je suis tellement content pour toi ! » (et que vous êtes sincère), c’est ce qu’on appelle de l’empathie cognitive.
On l'appelle aussi l'empathie contagieuse. Avec ce type d’empathie, nous ressentons physiologiquement et physiquement ce que l’autre ressent grâce à des signaux verbaux et non verbaux. Ici, on parle ni plus ni moins de faire l’expérience des sentiments de l’autre. Oui, c’est celle-ci qui nous permet de ressentir un bon vieux malaise lors de nos vidéoconférences.
Cette empathie peut être définie comme une réponse émotionnelle de compassion et/ou d'inquiétude provoquée par le fait de ressentir que quelqu'un d’autre est dans le besoin. En d’autres mots, c’est l’empathie qui fait agir, c’est grâce à celle-ci que les gens passent à l’action pour remédier aux problèmes des autres. Sur le plan anthropologique, il a déjà été suggéré que l’empathie compassionnelle ferait partie du mécanisme évolutif qui permettrait à l’humain de posséder la grande motivation d'aider ses enfants en cas de besoin. Si les humains n'étaient pas si intéressés à aider leurs rejetons, notre espèce ne serait pas allée très loin…
Avoir une grande habileté par rapport aux types d’empathies cognitives permet de voir le monde à travers un oeil différent et de comprendre plus simplement un point de vue. En d’autres mots, quand on reconnait que notre interlocuteur a des émotions, nous pouvons mieux communiquer avec lui, car nous avons l’habileté de comprendre sa perspective des choses. C’est ça, la beauté de l’empathie: la capacité de « voir » le cadre de pensée des autres. Selon le Center of Creative Leadership, plus notre capacité à comprendre différents cadres de pensées est grande, plus notre performance au travail sera grande. Tout ça, grâce à la communication !
Tout comme nos muscles nécessitent un entraînement régulier afin de se développer et de devenir plus forts, l'empathie se perfectionne par des exercices assidus. En effet, bien que nous ayons tous des degrés différents d’empathies selon nos expériences de vie et notre environnement socioculturel, il est possible de pratiquer nos « muscles empathiques ». Pour ce faire, plusieurs psychologues proposent la pratique de l’écoute profonde (deep listening), ce qui consiste à écouter les gens de manière sincère et authentique. Mais qu’est-ce que ça veut dire ? Les expériences démontrent que plus nous écoutons les propos de l’autre sans préparer notre réponse, plus ils ''s'ancreront'' dans la partie de notre système cognitif responsable du traitement de l'information, et plus notre cerveau s’habituera à recevoir de l’information nouvelle et étonnante de manière détendue, réceptive et calme.
Chaque type d’empathie a un bénéfice différent selon les situations. Prenons l'exemple d'un travailleur social. Celui-ci n'a pas avantage à avoir une empathie émotionnelle grandement développée (comme pleurer quand un individu pleure). Cependant, une bonne empathie compassionnelle (celle qui fait agir) est une habileté qui caractérise un bon travailleur social, car celui-ci ne doit pas seulement comprendre les émotions d'autrui, il doit aussi avoir le désir profond d'aider les gens.
Oui, l'empathie est utile dans votre vie professionnelle, mais pas n'importe laquelle dans n'importe quelles circonstances: vous devez être précis par rapport au type d'empathie que vous voulez développer.
Nous devons comprendre que... nous ne comprenons pas. L’empathie ne nous permet pas de jouer les psychologues, elle ne nous permet pas non plus de reconnaître les intentions ni même les motivations des gens face à leurs émotions. Ainsi, nous pouvons ressentir une émotion, mais cela ne veut pas dire que nous savons pourquoi la personne ressent cette émotion. En fait, plus nous comprenons nos propres émotions, plus nous pouvons comprendre leur complexité. Aussi, il peut être risqué de déduire à partir des émotions d'autrui des intentions précises, car nous pouvons nous tromper complètement, et cela affectera grandement la communication. L’écart empathique est un bel exemple de ce risque !
Dans des cas de résolution de problème, les gens iront instinctivement discuter avec la personne qui a des expériences similaires. Ce choix est basé sur le réflexe empathique. Étonnamment, selon les recherches du Harvard Business Review, ceux qui ont subi des défis dans le passé étaient moins susceptibles de faire preuve d'empathie pour quelqu'un confrontée aux mêmes défis. C’est ce qu’on appelle l'écart d’empathie. Comprendre ce phénomène est d’une importance capitale pour notre communication avec autrui, surtout en situation de résolution de problème. L’écart empathique est un phénomène psychologique qui tend à diminuer le souvenir de la gravité de certaines situations passées.
L’observation participante, c’est trois actions: « percevoir, mémoriser et noter »¹. Sa valeur ajoutée réside dans le fait que l’ethnographe prend part aux activités du groupe dans lequel il s’insère. En effet, « en participant au même titre que les acteurs, le chercheur a un accès privilégié à des informations inaccessibles au moyen d’autres méthodes empiriques »².
Sur le terrain, les ethnographes s’intéressent à l’environnement physique, aux interactions (personne à personne et personne à objet) ainsi qu’aux comportements. Ils y recueillent donc des informations sur les contextes d’utilisation de l’espace et des objets, des pratiques socioculturelles, des dynamiques de groupe, etc.
L’observation participante peut donc poursuivre trois objectifs ³:
1. La grille d’observation
La grille d’observation est un outil qui peut vous aider à cadrer votre recherche terrain afin de ne pas vous sentir submergé par une trop grande quantité d’éléments à observer. Vous y noterez des informations sur le déroulement de l’événement, la description des lieux, les personnes que vous aurez rencontrées, vos biais, vos pistes d’analyse, etc.
2. Le téléphone intelligent
Votre téléphone peut servir d’enregistreur, d’appareil photo et de caméra pour filmer. Son usage peut impliquer d’obtenir le consentement verbal ou écrit des personnes que vous enregistrerez et devrait toujours se prêter au contexte du terrain d’observation.
C’est l’un des plus célèbres contes de la psychologie organisationnelle.
Dans les années 1920, des chercheurs observent les comportements de milliers d’ouvrières à l’usine Hawthorne Works, en banlieue de Chicago. En changeant la lumière, les pauses, ou l’encadrement, ils constatent : à chaque fois, la productivité grimpe. Et ce, peu importe si les conditions s’améliorent… ou se détériorent.
On en déduit une théorie séduisante : ce n’est pas le changement qui compte, mais l’attention portée. Le simple fait d’être observé suffirait à améliorer les performances. C’est le début de ce que l’on appellera, des années plus tard, « l’effet Hawthorne ». Ce qui le rend célèbre : sa capacité à réconcilier management et humanité, à transformer la psychologie en outil de performance, à prouver (enfin) que l’humain compte.
Mais il y a un problème. Plusieurs, même…
Dès les années 1930, un homme s’empare des résultats d’Hawthorne : Elton Mayo, professeur à Harvard, pionnier des sciences du travail. Il réinterprète les données, oriente les conclusions, et met en scène un récit puissant : les relations humaines sont plus déterminantes que les conditions matérielles. Son ouvrage de 1945, Social Problems of an Industrial Civilization, pose les bases de ce qu’on appellera la psychologie industrielle. Il écrit notamment :
L’effet Hawthorne devient une vérité institutionnelle.
Le problème, c’est que les données ne montrent pas ça. Elles sont désorganisées, les protocoles changent en cours d’étude, les biais sont omniprésents et l’analyse statistique est bancale.
Mais personne ne s’en soucie. Parce que Mayo, lui, a compris l’essentiel : ce que ces expériences révèlent, ce n’est pas un effet mesurable. C’est une transformation invisible.
En 2022, l’épidémiologiste Hilda Bastian publie un article corrosif dans Scientific American, intitulé The Hawthorne Effect: An Old Scientist's Tale. Elle démonte l’édifice point par point. Son constat est clair : L’effet Hawthorne n’est pas une preuve, c’est un mythe. Elle le qualifie de « conte de scientifiques », transmis d’université en université, rarement sourcé, souvent erroné. Elle explique que l’idée d’un « effet de l’attention » a été recyclée dans des dizaines d’études sans jamais être démontrée de manière rigoureuse.
Et pourtant, on continue à y croire. Pourquoi ?
Parce que l’intuition de Mayo reste juste. Parce qu’au-delà des chiffres mal rangés, il y a une vérité humaine que la science a du mal à capturer :
Quand on écoute les gens, ils changent. Et nous aussi.
Ce que les recherches à Hawthorne ont déclenché, c’est une révolution silencieuse. Pour la première fois, des ouvrières se voyaient accorder du temps, de l’attention, de la parole. Elles n’étaient plus des opératrices, mais des interlocutrices.
C’est là que réside l’effet Hawthorne réel : dans la transformation des rapports sociaux, plus que dans l’évolution de la productivité. Les chercheuses et chercheurs modernes, dont la psychologue sociale Barbara M. Means ou encore l’économiste Stephen G. Jones, insistent : ce qui importe n’est pas l’observation, mais la relation. Et dans le contexte d’Hawthorne, cette relation était asymétrique, mais nouvelle. Les travailleuses étaient écoutées et, parfois, entendues.
Capsule métho-anthropo : de « oui/non » à « raconte-moi »
À l’origine, les entrevues menées à l’usine Hawthorne (1928–1930) par Elton Mayo et Fritz Roethlisberger étaient simples. Trop simples. Une batterie de questions fermées, réponses brèves, souvent un « oui », parfois un « non ». Rapide, efficace, stérile. Très vite, les chercheurs réalisent que cette mécanique ne révèle rien. Les travailleurs ne parlent pas, ils répondent. Et quand on répond, on se protège. Alors, ils changent de posture. Abandonnent les scripts. Ouvrent les questions. Et ferment leur bouche. Résultat : les réponses deviennent des récits. Les récits deviennent des révélations. Le protocole d'entrevue se transforme en une méthode fondée sur l’écoute libre, sans direction ni interruption:
— The Interview Process – The Human Relations Movement, Harvard Business School, Baker Library, Historical Collections
Nous vivons dans un monde saturé d’outils de mesure, de KPIs, de dashboards. Le moindre comportement peut être tracé, stocké, analysé. On parle de performance, de QVT, d’expérience employé. Mais on écoute encore très mal.
Écouter n’est pas entendre. Ce n’est pas sonder. Ce n’est pas cocher une case. C’est créer une situation de réciprocité émotionnelle. Et dans un contexte où tout s’automatise, l’écoute devient subversive. Elle suppose du temps, de l’attention, du doute. Elle rend visible ce que les outils quantitatifs invisibilisent : les résistances, les ambiguïtés, les aspirations non formulées.
On croyait que l’effet Hawthorne démontrait l’importance de l’observation. En réalité, il démontre l’irréductibilité du lien humain.
Essayons autre chose.
Et si l’effet Hawthorne ne révélait pas la psychologie des ouvriers… mais celle des observateurs ?
Si ce que l’on appelle "effet" n’était qu’un déplacement du regard : en prenant le temps d’observer, on se transforme. On devient plus attentif, plus nuancé, plus ouvert. Et cette transformation nous rend meilleurs gestionnaires, meilleurs collègues, meilleurs humains.
Ce n’est donc pas l’ouvrière observée qui produit plus. C’est l’observateur devenu plus humain qui produit mieux. C’est ça, peut-être, le vrai legs d’Hawthorne.
On dit que la politique municipale est « la plus concrète », « la plus proche ». C’est vrai, dans un sens très littéral. On croise son maire ou sa mairesse à l’épicerie. On passe devant l’hôtel de ville. Mais cette proximité crée une illusion. Car ce n’est pas parce qu’on est proche… que l’on comprend mieux ce qui s’y passe.
Chez Perrier Jablonski, on travaille depuis de nombreuses années avec des municipalités de différentes tailles et niveaux – de Montréal à Terrebonne en passant par la région Chaleur (Nouveau-Brunswick) ou encore l’arrondissement CDG-NDG – et notre collègue Alex y joue un rôle clé. Il est ethnographe. Il s’intéresse aux comportements, aux perceptions, aux dynamiques cachées entre les citoyens et les élus.
Et dans sa vie perso ? Il écoute les conseils municipaux des villes proches de lui… pour le fun. Oui, pour le plaisir et la curiosité d’observer et de comprendre les comportements entre les citoyens. Je l’ai donc interrogé pour répondre aux question suivantes : comment mieux outiller les villes pour comprendre vraiment leurs citoyens ? Et comment l’ethnographie peut-elle devenir un levier d’action concret, là où les sondages, les consultations publiques et les séances des conseils municipaux atteignent leurs limites ?
Parce qu’il est à la fois invisible et omniprésent. C’est le palier de gouvernement le plus accessible : tu peux interpeller ton maire en pleine rue, ou même t’inscrire à la période de questions du conseil. Et pourtant, dans les faits, très peu de citoyens s’y intéressent. Et ceux qui s’y intéressent, souvent, ne comprennent pas bien comment ça fonctionne. On voit une proximité spatiale… mais une distance cognitive. Et ça crée des décalages assez puissants. Les citoyens pensent connaître leur municipalité, mais quand on gratte un peu, on découvre une connaissance très partielle, souvent biaisée ou émotive. Ce n’est pas un jugement : c’est un fait.
Complètement. Les élus vivent un phénomène que j’appelle le « biais du centre d’appel ». Ils reçoivent le plus souvent, de la part des citoyens, des critiques, des plaintes et des doléances. Rarement des félicitations. Très peu de gens se déplace au conseil municipal pour dire : « Bravo, la rue a été bien déneigée cette semaine ». Résultat, les élus développent une vision partielle — et souvent pessimiste — de leur population.
Et comme les élus sont des gens issus du citoyen ordinaire, ils apportent avec eux leurs propres perceptions, leurs propres “blessures” civiques. Beaucoup d’élus municipaux que j’ai rencontrés sont entrés en politique parce qu’un enjeu les a touchés personnellement — un terrain mal géré, une école déplacée, un développement contesté. C’est souvent un point de friction qui déclenche l’engagement, pas une vocation « générale ».
Je donne toujours cet exemple issu d’un de nos mandats avec la ville de Montréal : on demande à des citoyens s’ils connaissent la politique municipale. Ils disent oui. Mais en entrevue, quand je leur demande le nom de leur maire d’arrondissement, ils répondent un député provincial. Donc ils croient savoir. Mais ils ne savent pas. Et c’est là que l’ethnographie devient précieuse.
C’est une méthode. On écoute. On regarde. On entre dans le quotidien des gens pour comprendre ce qu’ils perçoivent, ce qu’ils vivent. Une entrevue semi-dirigée d’une heure m’en dit plus qu’un sondage à 10 000 répondants. Parce qu’on peut gratter. Aller au-delà de la première réponse. Chercher les contradictions. Et ça, c’est de l’or pour construire des stratégies solides. En se basant sur ce que les gens pensent réellement — et non pas ce qu’ils pensent savoir — on élabore et on met en oeuvre des stratégies plus justes.
Non, on travaille avec ce qu’on appelle des usagers extrêmes. Ce sont des gens qui interagissent de manière atypique avec le système — très fort, très peu, très mal, ou très bien. Ce n’est pas représentatif au sens statistique, mais c’est super éclairant. On cherche les écarts, les angles morts.
Par exemple, on a rencontré un citoyen qui assiste à toutes les séances du conseil depuis dix ans, mais qui n’a jamais utilisé le site Web de la ville. À l’inverse, une jeune mère très bien informée suit tout sur un groupe Facebook de quartier, sans jamais passer par les canaux officiels. Ces deux profils différents nous aident à comprendre ce qui bloque, ce qui marche… et où on doit creuser.
Oui… avec des limites. Le sondage te dit ce que les gens pensent qu’ils pensent. L’entrevue te montre ce qu’ils font réellement. Et surtout, beaucoup de sondages reposent sur des questions d’intention — Voteriez-vous ? Participeriez-vous ? — qui n’ont pas beaucoup de valeur prédictive. Ces réponses sont souvent trop fragiles pour fonder une stratégie.
Quant aux consultations publiques, si elles ne sont pas préparées en amont, elles deviennent du bruit. On entend tout, mais on ne comprend rien. Ce qu’on recommande : faire des entrevues d’abord, puis consulter, avec un cadre clair et une lecture comportementale solide. L’anthropologie permet cette analyse fine des comportements — chose que les élus n’ont pas toujours le temps de faire, ni les ressources pour se faire bien accompagner.
Et je ne suis pas le seul à le penser. Dans le documentaire récent Qui veut encore faire de la politique ? (Radio-Canada), plusieurs élus municipaux — dont Régis Labeaume, ex-maire de Québec — partagent ce constat : les consultations classiques ne suffisent plus. Ce documentaire mérite d’être vu par tous ceux qui veulent comprendre la politique locale… de l’intérieur.
(Rires) Oui, vraiment. J’ai commencé parce qu’un enjeu environnemental touchait le lac où je vis. Je me suis mis à écouter les séances pour comprendre comment les décisions se prenaient. Et puis je me suis découvert une fascination pour la période de questions. Ce n’est pas juste une formalité : c’est un moment brut, authentique, où les citoyens s’expriment. Tu y vois des dynamiques incroyables. De la tension, du malaise, de la lucidité parfois. J’appelle ça un focus group non sollicité. C’est une mine d’or pour comprendre les profils citoyens, qu’on a créés chez Perrier Jablonski pour nos mandats municipaux.
Chez Perrier Jablonski, nous avons collaboré avec une dizaine de municipalités québécoises, comme Saint-Jean-Sur-Richelieu, Beaconsfield et Laval — et réalisés plus d’une centaine d’entrevues avec des élus, équipes municipales et citoyens. Cela nous a permis de développer ce qu’on appelle la matrice de la responsabilisation citoyenne. Elle repose sur deux variables : le niveau de connaissance du fonctionnement municipal, et le niveau de réactivité face aux enjeux. Ça donne quatre grands profils :
Par exemple, le non-connaissant actif est une personne engagée, souvent bruyante, qui agit avec une compréhension floue des règles et du fonctionnement municipal. À l’inverse, le connaissant passif connaît très bien le fonctionnement municipal, mais ne participe quasiment jamais. Pas par désintérêt, mais par prudence ou scepticisme. Il faut bien comprendre que ce ne sont pas des personas. Ce sont des profils comportementaux. Et ça nous permet de bâtir des stratégies ciblées.

Les personas sont utiles pour raconter une histoire. Ils sont basés sur la socio-démographie : Ginette, 64 ans, retraitée, donc “engagée”. Mais non, pas forcément. L’engagement ne dépend ni de l’âge ni du revenu. Il dépend du vécu, de la perception, de la réactivité face aux enjeux locaux. C’est ce que nos profils permettent de révéler. Ils ne racontent pas une fiction : ils servent à comprendre, puis à agir sur les comportements citoyens.
Pour une grande ville québécoise, on a réalisé un mandat pour mieux rejoindre les citoyens issus de l’immigration. À première vue, tout le monde pensait que la langue était le principal obstacle. Mais après nos recherches et entrevues, on a constaté que plus de 90 % des citoyens de cette ville étaient capables de soutenir une conversation en français. Ce n’était pas un enjeu de compréhension, c’était plutôt un enjeu d’accès et d’intérêt.
Ces citoyens n’étaient pas contre la ville, ni fermés à l’information : ils étaient tout simplement non-connaissants passifs. Notre objectif, c’était donc de les faire évoluer le plus possible vers un profil connaissant actif. Et les leviers sont les mêmes, peu importe l’origine culturelle : il faut créer un sentiment d’appartenance à la municipalité, et diffuser les messages municipaux au bon endroit, au bon moment — en s’appuyant sur une compréhension des citoyens aussi fine et objective que possible.
Je cite souvent un célèbre anthropologue américain :
Les découvertes ethnographiques ne sont pas exceptionnelles, elles sont seulement particulières.En discutant avec Alex, j’ai réalisé à quel point on confond souvent proximité et connaissance. Moi-même, je croyais avoir une bonne idée de la politique municipale — jusqu’à ce qu’on parle de biais, de profils citoyens, d’usagers extrêmes. Ce que j’en retiens, c’est que comprendre les citoyens, ce n’est pas leur poser une question une fois : c’est aller voir ce qui se répète, ce qui coince, ce qui active ou éteint leur engagement. Et pour ça, l’anthropologie ouvre une porte que les méthodes classiques n’ouvrent pas toujours.
À la fois science et méthode de recherche, l’ethnographie s’intéresse aux manières dont les gens vivent leur vie et interagissent avec leur environnement. Autrefois utilisée en anthropologie pour étudier les cultures et les sociétés, elle sert aujourd’hui à appréhender et comprendre les expériences des individus. Souvent qualifiée de fieldwork et de recherche in situ, l’ethnographie se distingue par son ancrage au terrain. En effet, les chercheur.e.s, par l’observation, les entrevues et le journal de bord, s’immergent dans l’environnement des enquêté.e.s qui deviennent partie intégrale du processus de recherche.
Fait intéressant, nous observons une hybridation de l’ethnographie à d’autres disciplines. Nous pouvons donc parler d’ethnomarketing (l’ethno appliquée aux comportements de consommation), de netnographie (l’ethno en ligne) et d’ethnographie multisites (l’ethno qui connecte plusieurs lieux).¹
IKEA utilise l’ethnographie pour comprendre les gens à la maison en les situant dans leurs contextes socioculturels, politiques, environnementaux et économiques. «Dans nos recherches, nous voulons nous rapprocher de la vie de tous les jours des personne, de leur réalité »², explique Mikael Ydholm, directeur de la recherche chez IKEA.
Alliant ethnographie et créativité, les recherches d’IKEA vont de la création d’environnements ponctuels aux visites à domicile, de l’observation de la maison par caméras 24/7 à l’observation de communautés en ligne. D’ailleurs, Marcus Engman, chargé de l’équipe de design chez IKEA, explique que le développement de produits doit toujours débuter à la maison. C’est pourquoi son équipe réalise des visites à domicile avant même d’entamer le design d’un produit par le biais du Programme de visite à domicile de l’entreprise³. L’ethnographie appliquée au design consiste donc en « un passage des données provenant du terrain vers un travail de création ».⁴
Tout commence par une question que IKEA ne pose pas : « Comment utilisez-vous votre sofa ? ». C’est une mauvaise question. Parce qu’elle suppose que vous savez. Et vous ne savez pas. Vous direz que vous vous asseyez dessus pour lire, discuter, regarder Netflix. Et pourtant… vous vous y allongez. Vous y dormez. Vos enfants le renversent. Votre chien le dévore. Votre culture le détourne. En Asie, on l’utilise comme dossier pour s’asseoir au sol.
C’est là qu’intervient l’ethnographie. Elle révèle ce que vous auriez censuré, oublié ou ignoré. Elle transforme un objet standardisé en réponse contextuelle. Et elle fait du design non pas un geste artistique, mais une traduction socioculturelle. L’approche IKEA repose sur une conviction simple : les idées ne naissent pas dans les brainstormings, elles naissent dans les salons, les cuisines, les entrées mal rangées.
IKEA se démarque sur le plan de la recherche et du design de plusieurs autres façons.
D’abord, depuis 2014, IKEA publie le Life at Home Report. Ce rapport annuel, accessible au public, aborde divers enjeux qui influencent le quotidien et la vie à la maison des gens à travers le monde. De Mumbai à Toronto, IKEA s’intéresse aux multiples conceptions de l’intimité, aux causes de la frustration à la maison, aux émotions que l’on y vit, etc.
En 2015, IKEA lance un projet singulier et volontairement discret : SPACE10. Installé à Copenhague, ce laboratoire indépendant, entièrement financé par l’entreprise, ne produit ni meubles ni services commerciaux. Il observe. Il enquête. Il interprète. Son terrain n’est pas le marché, mais les modes de vie.
Au cœur de SPACE10 se trouve une pratique ethnographique élargie. Les équipes s’intéressent aux gestes quotidiens, aux routines domestiques, aux contraintes invisibles et aux aspirations émergentes. Comment mange-t-on demain ? Comment partage-t-on l’espace ? Comment cohabitent humains, technologies et environnements ? Ces enquêtes ne visent pas à produire des données exploitables à court terme, mais à faire émerger des cadres d’interprétation.
En 2023, IKEA met fin à SPACE10 et intègre les apprentissages et les fonctions du laboratoire aux équipes internes. À l’image de certaines démarches ethnographiques, SPACE10 n’avait pas vocation à s’institutionnaliser, mais à transformer les manières de voir et de faire.