Ģeneratīvā AI aparatūras diska pieejamība un efektivitāte

Inovācijas ģeneratīvās mākslīgā intelekta aparatūrā virzās uz priekšu cenas ziņā, pieejamību un efektivitāti, izaicinot ierobežojumus, ko rada lielo valodu modeļu (LLM) apjoma eksponenciālais pieaugums. Nesenajā paneļdiskusijā nozares vadītāji dalījās ieskatos par savām stratēģijām šo neatliekamo izaicinājumu risināšanai.

Māršals Čojs, SambaNova Systems produktu vecākais viceprezidents, uzsvēra atmiņas arhitektūras būtisko lomu LLM lietošanas izmaksu samazināšanā. Tā kā LLM var lepoties ar parametru skaitu, kas sasniedz miljardus vai triljonus, uzmanība ir pievērsta atmiņai kā vājajai vietai. SambaNova Systems ir pieņēmusi trīs līmeņu atmiņas arhitektūru, kas attiecas uz latentumu, joslas platumu un kapacitāti vienā sistēmā. Šīs novatoriskās pieejas mērķis ir ekonomiski palielināt LLM izmantošanu, kur galvenais ir atmiņas efektivitāte.

Lielo modeļu demokratizēšana

LLM lielais lielums rada ievērojamu pieejamības problēmu. Kad modelis pārsniedz triljonu parametru, saistītās aparatūras un ekspluatācijas izmaksas kļūst pārmērīgas, atstājot to izmantošanu tikai dažiem atlasītajiem. Lai padarītu lielus modeļus pieejamus plašākai auditorijai, SambaNova Systems ir ieviesusi jaunu koncepciju, kas pazīstama kā “ekspertu sastāvs”.

Šī pieeja atšķiras no parastās “ekspertu kombinācijas” paradigmas, kur sarežģītas prognozēšanas modelēšanas problēmas ir sadalītas apakšuzdevumos. Tā vietā SambaNova apmāca domēna ekspertu modeļus, lai nodrošinātu precizitāti un uzdevumu atbilstību, apkopojot triljonu parametru ekspertu sastāva modeli. Šo modeli var pastāvīgi apmācīt par jauniem datiem, nezaudējot iepriekšējo mācīšanos, vienlaikus samazinot skaitļošanas latentumu un samazinot izmaksas, kas saistītas ar apmācību, precizēšanu un secinājumu izdarīšanu.

Efektivitāte, izmantojot modeļu metodes

Ģeneratīvās AI aparatūras efektivitāte pārsniedz pašu aparatūru; tas attiecas uz attiecībām starp modeļa arhitektūru un aparatūru, kurā tas darbojas. Mets Mattina, Tenstorrent mākslīgā intelekta aparatūras un modeļu viceprezidents, uzsvēra, cik svarīgi ir pārtraukt atgriezeniskās saites cilpu, kur modeļa arhitektūru veido aparatūra, uz kuras tas ir apmācīts.

Tenstorrent izmanto tādas metodes kā tīkla arhitektūras meklēšana ar aparatūru, kas ļauj treneriem norādīt aparatūru, lai apmācības laikā izdarītu secinājumus. Šī paradigmas maiņa nodrošina, ka modeļi ir pielāgoti nevis treniņu mašīnai, bet gan galīgajai secinājumu mašīnai, tādējādi radot efektīvākus modeļus praktiskai lietošanai.

Specializācija sistēmas līmenī

AI ir nepārtraukti mainīga joma, kas rada problēmas, līdzsvarojot īpašas mikroshēmas un pielāgotu silīciju ar sistēmas elastību. Džefs Vitičs, Ampere Computing galvenais produktu vadītājs, piedāvā perspektīvu, kas veicina specializāciju sistēmas līmenī. Viņš apgalvo, ka šī pieeja nodrošina elastību, lai sajauktu un saskaņotu komponentus, radot daudzpusīgus risinājumus, kas spēj pielāgoties strauji mainīgajai AI aparatūras ainavai.

Tradicionāli jaunas aparatūras izveide un komercializācija prasa vairākus gadus. Ampere partnerattiecības ar uzņēmumiem, kas izstrādā dažādus apmācību un secinājumu paātrinātājus, ir vērsti uz pareizo līdzsvaru. Ampere paredz uzlabotu veiktspēju un efektivitāti, savienojot vispārējas nozīmes centrālos procesorus ar paātrinātājiem, kas specializējas īpašos uzdevumos.

Integrācijas priekšrocības un elastība

Wittich uzsver integrācijas nozīmi, kurai ideālā gadījumā vajadzētu uzlabot veiktspēju un efektivitāti, nezaudējot elastību. Universālu CPU apvienošana ar specializētiem paātrinātājiem tiek uzskatīta par daudzsološu ceļu. Paredzams, ka laika gaitā šo paātrinātāju ciešā integrācija ar centrālajiem procesoriem vēl vairāk optimizēs AI darba slodzi. Galvenais princips paliek spēkā: integrācijai ir jāuzlabo spējas, neuzliekot ierobežojumus.

Avots: https://www.cryptopolitan.com/generative-ai-hardware-efficiency/