ChatGPT peut se tromper, et pourtant - L'allaitement et la colonisation microbienne de Bifidobacterium forme le resistome intestinal des enfants - ChatGPT peut-il aider à faire des classifications de réponses dans les sondages à questions ouvertes ?


Le croyons-nous ? Réponse à cette question est l’objectif d'une étude portant sur 186 étudiants de médecine, dont la moitié voyait un message indiquant qu’il peut se tromper au moment d'utiliser ChatGPT.
Le message n’a pas modifié le diagnostic des étudiants utilisant chatGPT (15.3% sans message vs. 15.9% avec le message; OR = 1.09, 95% CI: 0.46–2.59, p = 0.84).
Le “poids du conseil” était de 0.15 (écart-type = 0.36), largement inférieur aux études précédentes autour de 0.30. Parmi les étudiants qui ont maintenu leur diagnostic initial, le groupe ayant reçu un avertissement avait davantage tendance à expliquer pourquoi ils n'étaient pas d'accord avec le conseiller IA (60 % contre 51 %, p = 0,059 donc non significative).
Autrement dit, les étudiants accordent peu de crédit aux conseils diagnostiques de l'IA. La mention de mise en garde n'a pas modifié la manière dont les étudiants ont utilisé ces conseils, ce qui laisse penser que la crédibilité qu'ils attribuaient à ChatGPT avait déjà atteint un seuil minimal en termes de comportement. Le message d’erreur n’a pas changé le diagnostic des étudiants précisément parce que les étudiants n’ont pas modifié leur diagnostic suivant les recommandation de l’IA.
C’est plutôt positif de penser que des étudiants en médecine ne croient pas aveuglément aux résultats des LLM.
Pré-enregistrement : Non
Données accessibles : Non
Kıyak, Y. S., Coşkun, Ö., & Budakoğlu, I. İ. (2025). ‘ChatGPT can make mistakes’ warnings fail: A randomized controlled trial. Medical Education, 60(2), 138–142. https://doi.org/10.1111/medu.70056
À partir de 265 métagénomes intestinaux longitudinaux (aucune idée de ce que ça veut dire mais c’est très stylé) provenant de 66 couples mère-enfant, les chercheurs ont étudié comment les facteurs périnataux influencent l'acquisition et la dynamique des gènes de résistance aux antibiotiques (ARG) au cours de la première année de vie. L'allaitement maternel exclusif pendant le premier mois de vie accélère la réduction des ARG et garantit une charge de résistome plus faible à six mois. De plus, l'arrêt précoce de l'allaitement maternel est corrélé à une charge plus élevée en ARG, ce qui souligne son influence à long terme sur la résilience microbienne.
L'allaitement maternel peut donc être vu comme une intervention naturelle pour façonner le microbiome et le résistome du nourrisson. Le soutien à l'allaitement maternel par le biais de politiques de santé publique pourrait contribuer à limiter la propagation de la résistance aux antimicrobiens au cours des premières années de vie.
Pré-enregistrement : Non
Données accessibles : Oui
Samarra, A., Alcañiz, A.J., Martínez-Costa, C. et al. Breastfeeding and early Bifidobacterium-driven microbial colonization shape the infant gut resistome. Nat Commun 16, 6099 (2025). https://doi.org/10.1038/s41467-025-61154-w
La question se pose : est-ce que les modèles de langage arrivent à comprendre suffisamment les réponses aux questions ouvertes pour pouvoir les coder dans des catégories ? En utilisant les réponses de 400 répondants à 3 questions plus ou moins complexes, et en formant 2 étudiants de sociologie pour qu'ils les codent manuellement, les chercheurs ont trouvé que ces étudiants avaient entre 95 et 100% de leur codage identique, et que pour les modèles de langage (ChatGPT, Claude, Llama et Mistral), on allait d'un très beau 97% pour les questions courtes et simples à 59% pour les questions complexes. La vaste majorité des erreurs sont des faux positifs, les modèles ayant largement tendance à classifier des mots qu'il ne faut pas plutôt que de rater des classifications.
En somme, utiliser ChatGPT pour classifier des textes peut être possible si les questions sont conçues pour être simples avec des réponses rapides et claires, mais pas quand les réponses peuvent être sémantiquement ambiguës ou complexes.
> et ça c’est une très bonne nouvelle pour les chercheurs qui souhaitent faire des longs entretiens et trouver des catégories. On rappelle que s’il y a un avantage aux LLM, c’est de faire des associations entre les mots, il est donc assez logique que cela soit une tâche dans laquelle ils excellent.
Pré-enregistrement : Non
Données accessibles : Oui
Soria, C. (2025). An Empirical Investigation into the Utility of Large Language Models in Open-Ended Survey Data Categorization. Center for Open Science. https://doi.org/10.31235/osf.io/wv6tk_v5
C'est le cri d'alerte d'un groupe de chercheurs qui se rendent compte qu'une partie importante des psychologues sociaux (et pas que) s'intéressant au changement climatique ne fait que de s'intéresser aux intentions vis-à-vis de l’environnement, et pas aux comportements en tant que tels.
Nous en avions déjà parlé dans la Newsletter 7 (qu'est ce que ça date!) dans laquelle nous rappelions que les jeunes qui se déclarent être les plus engagés pour le climat sont aussi ceux qui polluent largement le plus dans l'achat de textile, notamment via les applications d'achat-vente de vêtements et la fast-fashion.
Les chercheurs nous rappellent que le lien entre intention et comportement est extrêmement faible, et dans les méta-analyses dans le domaine du réchauffement climatique, l'intention explique environ 18 à 28% du comportement. C’est un taux probablement trop faible pour qu’en agissant dessus, on change vraiment les comportements écologiques.
Dans l'une des rares études sur l'action climatique ayant évalué les comportements, une intervention vidéo a entraîné une augmentation significative de la conviction en sa propre efficacité, mais seuls 2 % des participants ont pris, et de manière éphémère, des mesures concrètes pour le climat. Une autre étude a révélé que seuls 12,8 % des ménages qui avaient l'intention de mettre en œuvre des mesures de réduction du stress thermique chez eux l'ont effectivement fait.
Dablander, F., Lange, F., Brick, C., & Aron, A. R. (2025). Expressing intentions is not climate action. Proceedings of the National Academy of Sciences, 122(28). https://doi.org/10.1073/pnas.2512457122
Un article publié en 2026 indique que la majorité des problèmes des données issues des études en ligne provient des participants vraiment humains, mais qui viennent d'Inde et pas des USA ou d'Europe. Ces participants indiens feraient rapidement les questionnaires en ligne, sans vraiment lire les questions. Mais est-ce vrai ?
En effet, en lisant les données, on constate qu’elles ont été récoltées entre 2018 et 2020. Les LLM, eux, sont utilisés largement depuis 2024. Donc ce qu’ils disent est probablement déjà totalement daté.
À l’inverse, un article récent portant sur 1443 participants de MTURK indique un taux d’utilisation des LLM de 63% par les répondants, mais je n’ai pas vu de filtre de région, donc possiblement des participants majoritairement hors USA.
EN fusionnant les deux articles, je pense qu’on peut en conclure que vraiment, les études en ligne ça pue.
Jaffe, S. N., Moss, A. J., Hartman, R., Rosenzweig, C., Gautam, R., Robinson, J., & Litman, L. (2026). The Bots Ruining Social Science Are Not Bots at All. Perspectives on Psychological Science, 21(2), 127–137. https://doi.org/10.1177/17456916251404872
Peterson, T. (2025). The impact of AI-generated responses on environmental survey data from MTurk. Journal of Applied Statistics: Environmental Statistics and Data Science, 1–16. https://doi.org/10.1080/29984688.2025.2545754
Figure 1 de l’article suivant : https://www.nature.com/articles/s41598-025-24662-9. L’article a finalement été rétracté après avoir été publié, étant clairement créé par ChatGPT. Vous pouvez lire des faux mots, des graphiques inventés et même un vélo??? avec écrit autism dessus. Et avant que vous me demandiez, OUI CET ARTICLE A BIEN ÉTÉ PUBLIÉ CHEZ SPRINGER-NATURE.
On va profiter pour discuter des IG Nobels. L’année 2025 en a vu des belles. Notez que l’année 2026 va se dérouler en Europe, parce que visiblement les US c’est chaud.
Si vous les avez loupés,
Le co-lauréat du prix de conception technique de cette année a été donné à des chercheurs pour avoir créé des étagères à chaussures qui réduisent les odeurs de pieds : https://link.springer.com/chapter/10.1007/978-981-16-2229-8_33
...