
En nyligen publicerad artikel på Live Science diskuterar den snabba utvecklingen av artificiell intelligens (AI) och dess förmåga att hantera alltmer komplexa uppgifter. Forskare har utvecklat nya metoder för att mäta AI:s kapacitet, vilket kan ge insikter om när vi kan förvänta oss att se verkligt generalistiska AI-system. Här är en sammanfattning av de viktigaste punkterna från artikeln.
Grundläggande koncept: Mätning av AI:s kapacitet
Forskare från Model Evaluation & Threat Research (METR) har föreslagit en ny metod för att mäta AI:s kapacitet baserat på hur snabbt AI kan utföra uppgifter jämfört med människor. Studien, som publicerades på preprint-databasen arXiv den 30 mars 2025, visar att AI-modeller är mycket effektiva på korta uppgifter men har svårigheter med längre och mer komplexa projekt.
- Korta uppgifter: AI klarar nästan 100 % av uppgifter som tar människor mindre än fyra minuter.
- Långa uppgifter: Framgångsgraden sjunker till 10 % för uppgifter som tar mer än fyra timmar.
Forskarna fann att AI:s förmåga att hantera längre uppgifter med 50 % tillförlitlighet har fördubblats ungefär var sjunde månad under de senaste sex åren.
Metoder och verktyg
För att genomföra studien testades olika AI-modeller, inklusive GPT-4 och Claude 3 Opus, på en rad uppgifter. Dessa uppgifter varierade från enkla, som att söka efter fakta, till komplexa, som att optimera GPU-kärnor eller lösa programmeringsproblem. Forskarna använde verktyg som:
- HCAST: Ett ramverk med 189 uppgifter inom maskininlärning, cybersäkerhet och mjukvaruutveckling.
- RE-Bench: Ett verktyg för att testa AI på sju öppna och utmanande forskningsuppgifter inom maskininlärning.
Uppgifterna bedömdes också utifrån deras ”rörighet” (eng. ”messiness”), vilket inkluderar behovet av att samordna flera arbetsflöden i realtid.
Resultat och framtidsutsikter
Studien visar att AI:s ”uppmärksamhetsspann” förbättras snabbt. Om denna trend fortsätter kan AI automatisera en månads mänskligt arbete inom mjukvaruutveckling redan år 2032. Detta innebär att AI kan bli en alltmer central del av både arbetsliv och vardag.
- För företag: AI kan ta över stora delar av arbetsuppgifter, vilket minskar kostnader och ökar effektiviteten. Människor kan då fokusera på mer kreativa och strategiska uppgifter.
- För konsumenter: AI kan utvecklas från att vara en enkel assistent till att bli en pålitlig personlig manager som hanterar komplexa livsuppgifter, som reseplanering och ekonomisk förvaltning.
Generalistisk AI: Nästa steg
Ett av de mest spännande resultaten från studien är den snabba utvecklingen mot generalistiska AI-system. Dessa system förväntas kunna hantera en mängd olika uppgifter över längre tidsperioder. Enligt experter kan vi se sådana system redan år 2026.
- Eleanor Watson, en AI-etikingenjör, menar att denna utveckling kan förändra hur vi interagerar med AI i grunden. Generalistiska AI-system kan integrera specialiserade färdigheter i bredare arbetsflöden, vilket kan omforma både det professionella och det personliga livet.
Slutsats
Den exponentiella tillväxten av AI:s kapacitet innebär stora möjligheter men också utmaningar. Medan specialiserade AI-verktyg kommer att fortsätta spela en viktig roll, är det tydligt att generalistiska AI-system är på väg att bli en central del av vår framtid. För att förstå och hantera denna utveckling är det avgörande att fortsätta mäta och utvärdera AI:s förmågor på ett meningsfullt sätt.