San Francisco, USA

Sammanfattning: OpenAI:s o3-system har nått mänskliga resultat i ett test för allmän intelligens, vilket tyder på ett steg mot AGI. Systemet visar hög anpassningsförmåga och förmåga att generalisera från få exempel. Det är dock oklart om detta verkligen betyder ett steg närmare AGI eller om det bara är en mer generaliserbar tankekedja. När o3 släpps kommer vi att få en bättre förståelse för dess potential.
Ett nytt artificiellt intelligens (AI) system har nått mänskliga resultat i ett test designat för att mäta ”allmän intelligens”. Den 20 december uppnådde OpenAI:s o3-system 85% på ARC-AGI-benchmarken, vilket är betydligt högre än det tidigare AI-bästa resultatet på 55% och jämnställt med det genomsnittliga mänskliga resultatet. Systemet presterade även väl på ett mycket svårt matematiktest.
Skapandet av artificiell allmän intelligens (AGI) är ett uttalat mål för alla större AI-forskningslaboratorier. På första anblicken verkar OpenAI ha gjort ett betydande steg mot detta mål. Även om skepticism fortfarande finns, känner många AI-forskare och utvecklare att något har förändrats. För många verkar utsikten för AGI nu mer verklig, brådskande och närmare än förväntat. Har de rätt?
Generalisering och intelligens
För att förstå vad o3-resultatet innebär, måste man förstå vad ARC-AGI-testet handlar om. Tekniskt sett är det ett test av ett AI-systems ”sampleffektivitet” i att anpassa sig till något nytt – hur många exempel på en ny situation systemet behöver se för att förstå hur det fungerar.
Ett AI-system som ChatGPT (GPT-4) är inte särskilt sampleffektivt. Det ”tränades” på miljontals exempel på mänsklig text, vilket konstruerade sannolikhetsbaserade ”regler” om vilka kombinationer av ord som är mest troliga.
Resultatet är ganska bra på vanliga uppgifter. Det är dåligt på ovanliga uppgifter, eftersom det har mindre data (färre exempel) om dessa uppgifter.
Tills AI-system kan lära sig från små antal exempel och anpassa sig med mer sampleffektivitet, kommer de bara att användas för mycket repetitiva jobb och sådana där ett ockasionellt misslyckande är tolerabelt.
Förmågan att lösa tidigare okända eller nya problem från begränsade dataprov kallas förmågan att generalisera. Det anses allmänt vara ett nödvändigt, ja grundläggande, element av intelligens.
Rutnät och mönster
ARC-AGI-benchmarken testar för sampleffektiv anpassning med små rutnätsproblem. AI:n måste lista ut mönstret som förvandlar rutnätet till vänster till rutnätet till höger.
Varje fråga ger tre exempel att lära sig från. AI-systemet måste sedan lista ut reglerna som ”generalisera” från de tre exemplen till det fjärde.
Dessa liknar de IQ-test som du kanske minns från skolan.
Svaga regler och anpassning
Vi vet inte exakt hur OpenAI har gjort det, men resultaten tyder på att o3-modellen är mycket anpassningsbar. Från bara några få exempel hittar den regler som kan generaliseras.
För att lista ut ett mönster bör vi inte göra några onödiga antaganden eller vara mer specifika än vi verkligen behöver vara. I teorin, om du kan identifiera de ”svagaste” reglerna som gör vad du vill, har du då maximiserat din förmåga att anpassa dig till nya situationer.
Vad menar vi med de svagaste reglerna? Den tekniska definitionen är komplicerad, men svagare regler är vanligtvis de som kan beskrivas i enklare påståenden.
I exemplet ovan kan ett enkelt engelskt uttryck av regeln vara något som ”Varje form med en utstickande linje kommer att flytta till slutet av den linjen och ’täcka över’ alla andra former den överlappar med.”
Söker efter tankekedjor?
Även om vi inte vet hur OpenAI uppnådde detta resultat ännu, verkar det osannolikt att de medvetet optimerade o3-systemet för att hitta svaga regler. Dock måste det finnas dem för att lyckas med ARC-AGI-uppgifterna.
Vi vet att OpenAI började med en allmän version av o3-modellen (som skiljer sig från de flesta andra modellerna, eftersom den kan tillbringa mer tid med att ”tänka” om svåra frågor) och sedan tränade den specifikt för ARC-AGI-testet.
Den franska AI-forskaren Francois Chollet, som designade benchmarken, tror att o3 söker igenom olika ”tankekedjor” som beskriver steg för att lösa uppgiften. Den skulle sedan välja den ”bästa” enligt någon löst definierad regel eller ”heuristik”.
Detta skulle vara ”inte olikt” hur Googles AlphaGo-system sökte igenom olika möjliga sekvenser av drag för att besegra världsmästaren i Go.
Du kan tänka på dessa tankekedjor som program som passar exemplen. Om det är som Go-spelande AI, då behöver den en heuristik eller lös regel för att avgöra vilket program som är bäst.
Det skulle kunna finnas tusentals olika verksamma program som genereras. Den heuristiken skulle kunna vara ”välj den svagaste” eller ”välj den enklaste”.
Dock, om det är som AlphaGo, skulle de enbart ha låtit en AI skapa en heuristik. Detta var processen för AlphaGo. Google tränade en modell för att betygsätta olika dragsekvenser som bättre eller sämre än andra.
Vad vi fortfarande inte vet
Frågan är då, är detta verkligen närmare AGI? Om det är så som o3 fungerar, då kan den underliggande modellen inte vara mycket bättre än tidigare modeller.
Begreppen som modellen lär sig från språket kanske inte är mer lämpliga för generalisering än förr. Istället kan vi bara se en mer generaliserbar ”tankekedja” som hittats genom de extra träningsstegen för en heuristik specialanpassad för detta test. Beviset, som alltid, kommer att ligga i puddingen.
Nästan allt om o3 förblir okänt. OpenAI har begränsat avslöjandet till några mediepresentationer och tidig testning till en handfull forskare, laboratorier och AI-säkerhetsinstitutioner.
Att verkligen förstå potentialen hos o3 kommer att kräva omfattande arbete, inklusive utvärderingar, förståelse för distributionen av dess kapaciteter, hur ofta det misslyckas och hur ofta det lyckas.
När o3 slutligen släpps kommer vi att ha en mycket bättre uppfattning om huruvida det är ungefär lika anpassningsbart som en genomsnittlig människa.
Om så är fallet, skulle det kunna ha en enorm, revolutionerande, ekonomisk effekt, och inleda en ny era av självförbättrande accelererad intelligens. Vi kommer att behöva nya benchmarks för AGI självt och allvarlig övervägande av hur det bör styras.
Annars, då kommer detta fortfarande att vara ett imponerande resultat. Dock kommer vardagslivet att förbli mycket detsamma.
Källa: The Conversation
Taggar: AI, artificiell intelligens, OpenAI, ARC-AGI, general intelligens, AGI, teknologi, innovation, forskning, utveckling