Publicerad: 12 december 2024
Artificiell intelligens (AI) har nått stora framsteg genom att använda enorma mängder data från internet, men den strategin står inför en kris. Enligt en ny rapport kan de offentliga datamängder som används för att träna stora språkmodeller (LLM:er), såsom de bakom ChatGPT, vara uttömda redan år 2028. Detta ställer AI-utvecklare inför utmaningen att hitta nya sätt att driva teknikens utveckling framåt.
Begränsade resurser
Den snabba ökningen av datakrav har överträffat tillväxten av nytt, användbart innehåll på internet. Forskare uppskattar att AI redan använder stora delar av det tillgängliga offentliga textmaterialet online, och nya restriktioner från innehållsleverantörer minskar tillgången ytterligare. Dessutom pågår rättstvister där dataägare, som tidningar och andra organisationer, kräver kompensation för att deras innehåll används i AI-träning.
Shayne Longpre, forskare vid Massachusetts Institute of Technology och ledare för Data Provenance Initiative, framhåller att restriktioner och juridiska utmaningar kan hämma akademiska studier och tillgången till data för samhällsnyttiga ändamål.
Alternativa lösningar
AI-utvecklare söker nu nya vägar för att möta databehovet. Möjliga strategier inkluderar:
- Generera syntetisk data: Skapa nya datamängder med hjälp av befintliga AI-system.
- Specialiserade datamängder: Utnyttja snabbt växande data från områden som astronomi, medicin och genetik.
- Nya datatyper: Träna modeller med andra typer av data, som bilder, video eller ljud, istället för att enbart fokusera på text.
Fei-Fei Li, en ledande AI-forskare vid Stanford University, har förespråkat en bredare syn på dataanvändning, med fokus på områden som hälsa, miljö och utbildning.
Framtidens AI
Trots utmaningarna tror experter att AI-utvecklingen inte kommer att stanna av, utan snarare omformas. Fokus kan skifta från stora, generella modeller till mindre, mer specialiserade system. Yann LeCun, en av de ledande figurerna inom modern AI, har föreslagit att träna AI på mer komplexa data, liknande den mängd information som små barn absorberar genom sin omgivning.
Medan lösningarna fortfarande utforskas, är det klart att AI-utvecklare måste anpassa sig till en framtid där data blir en alltmer begränsad resurs.
Källa: Nature
#vetenskap #teknik #humanvetenskap-och-samhälle