A new AI image generator operates with 10 times fewer steps than current leading models, and it's set to be available on smartphones and laptops.

Forskare har utvecklat en AI-bildgenerator som producerar bilder på bara fyra steg, istället för dussintals. Detta kan ge snabb, privat bildgenerering direkt till konsumentenheter.

Ett urval av bilder genererade med den nya fyrstegs SD3.5-Flash AI-modellen.(Bildkälla: University of Surrey)Prenumerera på vårt nyhetsbrev

AI-bildgeneratorer blir allt kraftfullare, och de förlitar sig vanligtvis på tunga stora språkmodeller (LLM) som körs i molnet. Men forskare säger att de har byggt ett nytt system som kan generera högkvalitativa bilder med ungefär 10 gånger färre bearbetningssteg.

Resultatet är AI som är tillräckligt snabb och effektiv för att köras lokalt på telefoner och bärbara datorer, samtidigt som den är säkrare och mer miljövänlig än AI som körs på energikrävande datacenter.

De beskrev hur den nya modellen fungerar i en studie som laddades upp 25 september 2025, till preprint-databasen arXiv och meddelades 4 mars i ett uttalande att Lenovo har licensierat modellen för integration i sin kommande on-device AI-plattform. Det innebär att detta system snart kommer att dyka upp i kommande smartphones, surfplattor och bärbara datorer.

Målet är enkelt men ambitiöst: att flytta kraftfull generativ AI från avlägsna datacenter till de enheter som folk faktiskt använder. Detta har inte bara konsekvenser för miljöpåverkan och integritet, utan kan också göra AI-baserad bildgenerering snabbare än någonsin.

Varför de flesta AI-bildgeneratorer är långsamma

De flesta moderna text-till-bild-system bygger på en teknik som kallas diffusion. Dessa AI-modeller börjar med slumpmässigt brus – i grunden ett rutnät av pixlar fyllda med slumpmässiga värden – och förfinar det gradvis till en bild genom en lång sekvens av steg.

Vanligtvis tar den processen 30 till 50 iterationer för att producera en färdig bild, där varje steg kräver betydande datorkraft. Det är därför många populära AI-verktyg för bildgenerering körs på stora kluster av grafiska processorer (GPU:er) i fjärrservrar via molnet, snarare än lokalt på en telefon eller bärbar dator.

Att uppnå denna nivå av effektivitet är tekniskt utmanande, eftersom det kräver komprimering av en diffusionsmodell för att köras i bara några få steg samtidigt som kvaliteten bibehålls

Hmrishav Bandyopadhyay, doktorandforskare vid University of Surrey

Den arkitekturen fungerar bra för att producera högkvalitativa bilder, men den skapar också praktiska begränsningar. Modellerna är långsammare och energikrävande, och de måste skicka prompter eller bilder till fjärrservrar innan de väntar på ett svar.

I den nya studien satte sig forskarna för att lösa den flaskhalsen. SD3.5-Flash förkortar genereringspipelinen dramatiskt. Istället för dussintals iterationer kan modellen producera en bild på bara fyra bearbetningssteg, sade forskarna.

Detta uppnås genom att komprimera diffusionsprocessen till en mer effektiv form samtidigt som bildkvaliteten bevaras. I huvudsak lär sig systemet att “hoppa” genom finjusteringsprocessen i större kliv istället för att krypa fram steg för steg. Enligt studien är dock att bibehålla visuell kvalitet samtidigt som antalet steg minskas den centrala tekniska utmaningen.

“Vår SD3.5-Flash-modell tillåter användare att skapa bilder från textbeskrivningar helt på sin enhet, utan att data lämnar deras hårdvara”, sade Hmrishav Bandyopadhyay, en doktorandforskare vid University of Surrey som utvecklade modellen under en praktikplats på Stability AI, i uttalandet. “Att uppnå denna nivå av effektivitet är tekniskt utmanande, eftersom det kräver komprimering av en diffusionsmodell för att köras i bara några få steg samtidigt som kvaliteten bibehålls.”

Att minska antalet inferenssteg innebär att modellen kräver betydligt färre beräkningsresurser, vilket gör det möjligt att köra den på konsumentklassad hårdvara.

Ökad integritet, hastighet och AI-hållbarhet

Att köra generativ AI lokalt istället för i molnet kan ha flera fördelar. Den första är integritet: om en AI-modell körs helt på en enhet, behöver prompter och genererade bilder inte skickas till fjärrservrar, vilket minskar risken för dataexponering, avlyssning eller missbruk.

Den andra är hastighet: Med färre bearbetningssteg och ingen nätverkslatens kan bildgenerering bli nästan omedelbar.

Slutligen finns det en miljöaspekt. Stora molnbaserade AI-modeller förbrukar betydande mängder energi och vatten genom datacenteroperationer, men lätta modeller som körs lokalt kan dramatiskt minska dessa krav.

AI-center kräver betydande energi för att fungera. (Bildkälla: Oleksiy Mark / Shutterstock.com)

Yi-Zhe Song, chef för SketchX Lab vid University of Surrey, sade att det bredare målet är att göra AI mer tillgänglig och praktisk: “SD3.5-Flash placerar ett kraftfullt kreativt verktyg direkt i användarnas händer samtidigt som deras data hålls privat och minskar energikraven i samband med molnbearbetning.”

I studien testade teamet SD3.5-Flash mot traditionella diffusionspipelines för att mäta om den drastiska minskningen av bearbetningssteg påverkade bildernas kvalitet. De utvärderade systemet med standardriktmärken för generativa modeller, inklusive bildtrohet och i vilken utsträckning utdata matchar textprompter. Dessa mått används i stor utsträckning inom maskininlärningsforskning för att jämföra olika metoder för bildgenerering.

Tester på standardriktmärken för bildgenerering visade att modellen kunde leverera resultat som liknade traditionella diffusionssystem, trots att antalet bearbetningssteg minskades från cirka 30–50 till endast fyra.

Mest anmärkningsvärt är att tekniken redan är på väg mot verkliga produkter. Lenovo har licensierat modellen för integration i sin kommande Personal Ambient Intelligence-plattform, kallad Qira, som syftar till att föra AI-funktioner direkt till konsumentenheter.

Detta skulle kunna möjliggöra funktioner som AI-bildgenerering på bärbara datorer, surfplattor och smartphones utan behov av en internetanslutning. I mars introducerade företaget sina första uppsättningar av Qira-kompatibla enheter, inklusive nya konceptenheter, vilket tyder på att det inte dröjer länge innan vi ser detta nya AI-system integrerat i bärbara datorer, surfplattor och smartphones.

Om det lyckas skulle det representera en bredare förändring i hur generativ AI levereras. Istället för att förlita sig på centraliserad infrastruktur kan framtida AI-verktyg i allt högre grad köras lokalt på kanten – inbyggda direkt i vardagliga enheter. Det är något som forskarna ser som en del av en större ansträngning för att göra generativ AI mer effektiv och praktisk.

Att komprimera stora modeller utan att offra kvalitet förblir ett aktivt forskningsområde, men SD3.5-Flash tyder på att gapet mellan kraftfulla AI-system och konsumenthårdvara kan krympa snabbt. Om företag som Lenovo fullföljer enhetsintegrationer, kanske nästa våg av AI-kreativitetsverktyg inte finns i molnet, utan i din ficka.

Sourse: www.livescience.com

A new AI image generator operates with 10 times fewer steps than current leading models, and it’s set to be available on smartphones and laptops.

Leave a ReplyCancel Reply