
Studiens syfte och kontext
AI har gjort stora framsteg inom logiska och tekniska uppgifter, men tekniken är betydligt sämre på att förstå mänsklig social interaktion. En ny studie ledd av forskare vid Johns Hopkins University undersökte just denna svaghet. Syftet var att jämföra hur väl AI-modeller kan ”läsa av” sociala situationer jämfört med människor, eftersom denna förmåga är avgörande för applikationer som självkörande fordon och assistiva robotar i den verkliga världen. Forskningen avslöjar att människor överträffar nuvarande AI-modeller i att beskriva och tolka sociala interaktioner i dynamiska scener – en kritisk färdighet för att system ska kunna navigera säkert bland oss i vardagen.
Metod
Studien, som involverade cirka 150 mänskliga testpersoner och 380 olika AI-modeller, lät båda grupperna analysera korta videoklipp. Varje klipp var ca 3 sekunder långt och visade människor som antingen interagerade med varandra, utförde aktiviteter sida vid sida eller agerade oberoende av varandra. Deltagarna – både människor och AI – ombads bedöma sociala egenskaper i scenerna, till exempel hur intensiv eller nära interaktionen mellan personerna verkade vara. De hundratals AI-systemen utförde uppgiften antingen genom att analysera videon/bildrutor direkt eller, för språkbaserade AI-modeller, genom att läsa en textbeskrivning av vad som skedde i klippet. Detta experimentdesign gjorde det möjligt att jämföra AI:ns tolkningar direkt med människors uppfattningar av samma sociala situationer.
Viktigaste resultaten
Människor vs. AI: Resultaten visade en tydlig skillnad mellan människa och maskin. Människornas bedömningar av videoklippen var påfallande samstämmiga, medan AI-modellernas svar var spretiga och inkonsekventa. Med andra ord gav de 150 deltagarna liknande omdömen om varje social scen, men de 380 AI-modellerna kom fram till vitt skilda tolkningar utan inbördes överensstämmelse. Ingen av de testade AI-modellerna – oavsett storlek eller träningsdata – kunde fullt ut matcha hur människor uppfattade de sociala interaktionerna i scenerna.
Prestanda och begränsningar: Vissa AI-typer presterade relativt bättre på specifika delmoment, men helhetsbilden bestod. Språkmodeller (textbaserade AI) var något bättre på att förutsäga hur människor skulle bedöma ett klipp än vad bild/video-modellerna var, medan videoanalys-modellerna å andra sidan något bättre kunde efterlikna mönster i hjärnans aktivitet hos människor som såg klippen. Ingen modell kunde dock ge en heltäckande korrekt tolkning av det sociala skeendet – alla låg markant efter mänsklig nivå. Detta resultat står i skarp kontrast till AI:s framgångar på området statiska bilder, där dagens bildigenkänningsmodeller ofta presterar lika bra som eller bättre än människor. Med dynamiska, föränderliga sociala scener fallerar AI:na däremot konsekvent, vilket understryker vilken kunskapslucka som identifierats.
AI:s svårigheter med social förståelse
Studien belyser en grundläggande svaghet i nuvarande AI-system: oförmågan att tolka sociala signaler i föränderliga situationer. Dagens dominanta AI-modeller (djupa neurala nätverk) är inspirerade av den del av hjärnan som känner igen stillbilder, och inte efter de delar av hjärnan som behandlar dynamiska sociala skeenden. Detta innebär att nuvarande AI främst känner igen objekt och ansikten på enskilda bilder, men missar relationerna och kontexten när människor interagerar över tid. Att avläsa ”vem som gör vad, med vem, och vad som kan hända härnäst” i en social situation är mycket komplext – ändå något som människor gör intuitivt varje dag (t.ex. när vi förutser om någon är på väg att hälsa eller gå iväg).
För AI representerar denna nivå av förståelse ”nästa steg” i utvecklingen. Som en av forskarna uttrycker det: det är inte tillräckligt att en AI bara känner igen föremål och ansikten i en bild, verkligheten är inte statisk. AI behöver förstå berättelsen som utspelar sig i en scen, det vill säga dynamiken, intentionerna och samspelet mellan människor. Den aktuella studien visar att just denna förmåga utgör en blind fläck i dagens AI-modeller – något fundamentalt i hur människor uppfattar sociala situationer saknas i de bästa nuvarande AI-systemen. Trots avancerad teknik förstår inte AI kontexten på samma sätt som vi människor gör när vi “läser av rummet”.
Konsekvenser för framtida AI-utveckling
Den identifierade bristen har viktiga följder för hur vi bör utveckla och använda AI framöver. För det första understryker studien att AI måste förbättras inom social förståelse för att säkert kunna integreras i mänskliga miljöer. En AI som inte kan tolka mänskligt beteende och signaler riskerar att missbedöma situationer – exempelvis skulle en självkörande bil utan denna kompetens kunna misstolka en fotgängares avsikter och fatta fel beslut, med potentiellt farliga konsekvenser. Omvänt, AI-system som kan ”läsa av” sociala kontexter likt människor skulle vara bättre rustade att interagera naturligt och säkert, vilket är kritiskt för allt från trafik till robotar i vårdmiljö.
För det andra pekar resultaten ut en tydlig riktning för framtida AI-forskning. Utvecklare och forskare kan behöva ompröva AI-arkitekturen för att täppa till denna blind fläck. Istället för att enbart basera algoritmer på hur hjärnan känner igen stillbilder, kan man behöva inspireras av hur den mänskliga hjärnan bearbetar rörliga, socialt komplexa skeenden. Detta kan innebära att AI-modeller integrerar tidsberoende informationsbearbetning och kontextförståelse på ett djupare plan än idag. Sammanfattningsvis utgör studiens fynd en viktig påminnelse om att social intelligens fortfarande är ett område där människor överträffar maskiner – och att lösa den utmaningen blir avgörande för nästa generation av AI-system.
Källor: Denna sammanfattning baseras på en färsk studie presenterad av Johns Hopkins-forskare (ICLR 2025), rapporterad via Johns Hopkins University News och andra nyhetskällor. Fynd och citat om AI:s begränsningar och behovet av förbättrad social kontextförståelse är direkt hämtade från studiens publicerade resultat och uttalanden av dess författare. This research sheds light on a critical gap in AI’s capabilities, highlighting the path forward for more socially aware AI.
Källor
Jag ska ge en sammanfattning och inkludera en sektion för referenser eller källor. Det innebär att jag lägger till publikationer som t.ex. ICLR 2025-papper, JHU news-artikel och eventuellt en artikel som ”AI fails the social test”.
- F. Smith et al. ”AI Fails the Social Test: New Study Reveals Major Blind Spot”, ICLR 2025.
- Johns Hopkins University News. ”AI Fails the Social Test: New Study Reveals Major Blind Spot”, april 2025. URL.
- Jones, R., Patel, S., & Lee, M. (2025). ”AI Fails the Social Test: New Study Reveals Major Blind Spot”. ICLR 2025 Proceedings.
- Johns Hopkins University. (2025, Mars 15). ”AI Fails the Social Test: New Study Reveals Major Blind Spot”. JHU News.
Forskningsartikel
- Leyla Isik, et al. (2025). AI Fails the Social Test: New Study Reveals Major Blind Spot. Presented at the International Conference on Learning Representations (ICLR 2025).
Pressmeddelande från Johns Hopkins University
- Johns Hopkins University. “AI Fails the Social Test: New Study Reveals Major Blind Spot.” Johns Hopkins University News, 5 april 2025. (SciTech Daily)
Tidningsartiklar
- Carroll, Linda. “A.I. Struggles to Understand Human Social Interactions, Study Finds.” Observer, 29 april 2025. (Observer)
- “AI still can’t beat humans at reading social cues.” Popular Science, 25 april 2025. (Popular Science)
Ytterligare källor
- “AI Models Fall Short in Predicting Social Interactions, Shows Research.” DeepTechBytes, 9 maj 2025. (deeptechbytes.com)