Mewn gwirionedd mae “Sglodion Poeth” NVIDIA fel y'u gelwir yn “Llwyfannau Poeth”

Sep 03, 2024

Gadewch neges

Mae NVIDIA yn canolbwyntio ar brosiectau peirianneg lefel system a chanolfan ddata gyda'r nod o greu systemau a llwyfannau uwch sy'n gallu delio â heriau AI cynhyrchiol cymhleth.

Yn gynharach y mis hwn, daeth NVIDIA ar draws newyddion drwg prin pan ddaeth adroddiadau i'r amlwg y gallai cyflymwyr GPU “Blackwell” y cwmni a ddisgwyliwyd yn fawr gael eu gohirio cymaint â thri mis oherwydd diffygion dylunio. Fodd bynnag, dywedodd llefarydd ar ran NVIDIA fod popeth yn mynd rhagddo fel y cynlluniwyd. Dywedodd rhai cyflenwyr nad oes dim wedi newid, tra bod eraill wedi nodi rhywfaint o oedi arferol.

Mae mewnwyr diwydiant yn disgwyl, pan fydd NVIDIA yn adrodd ar ei ganlyniadau ariannol Q2 FY2025 ddydd Mercher nesaf, y bydd defnyddwyr yn cael mwy o fewnwelediad i statws Blackwell.

Dywedir y bydd Blackwell chips-B100, B200, a GB200-yn uchafbwynt i gynhadledd Hot Chips eleni, a gynhelir yr wythnos nesaf ym Mhrifysgol Stanford yng Nghaliffornia. Bydd NVIDIA yn cyflwyno ei bensaernïaeth, gan fanylu ar rai datblygiadau newydd, gan amlinellu'r defnydd o AI mewn dylunio sglodion, a thrafod ymchwil oeri hylif mewn canolfannau data a ddefnyddir i redeg y llwythi gwaith AI cynyddol hyn. Yn ôl Cyfarwyddwr Cynhyrchion Cyfrifiadura Cyflymedig NVIDIA, Dave Salvator, bydd y cwmni hefyd yn arddangos sglodion Blackwell sydd eisoes yn gweithredu yn un o'i ganolfannau data.

Blackwell chips

▲ Sglodion Blackwell

Mae llawer o'r hyn y mae NVIDIA yn ei drafod am Blackwell eisoes yn hysbys, fel y GPU Blackwell Ultra yn cael ei lansio y flwyddyn nesaf, a'r genhedlaeth nesaf Rubin GPU a Vera CPU yn dechrau cael ei gyflwyno yn 2026. Fodd bynnag, pwysleisiodd Salvator, wrth siarad am Blackwell, mae'n hollbwysig ei weld fel llwyfan yn hytrach nag un sglodyn. Gwnaeth Salvator y pwynt hwn mewn sesiwn friffio i newyddiadurwyr a dadansoddwyr yr wythnos hon fel rhan o'r paratoadau ar gyfer Hot Chips.

“Pan fyddwch chi'n meddwl am NVIDIA a'r llwyfannau rydyn ni'n eu hadeiladu, dim ond y dechrau yw'r GPU, rhwydweithio, a hyd yn oed ein CPU,” meddai. "Rydym yn gwneud peirianneg lefel system a chanolfan ddata i adeiladu'r systemau a'r llwyfannau hyn a all fynd i'r afael â'r heriau AI cynhyrchiol iawn hynny. Rydym wedi gweld maint y modelau'n tyfu dros amser, a'r rhan fwyaf o gymwysiadau AI cynhyrchiol Mae angen rhedeg mewn amser real, gyda'r galw am gasgliad yn cynyddu'n aruthrol dros yr ychydig flynyddoedd diwethaf.

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

Mae hyn yn cynnwys nid yn unig GPUs Blackwell a Grace CPUs, ond hefyd sglodion NVLink Switch, Bluefield{0}} DPUs, ConnextX-7 a ConnectX-8 NICs, switshis Ethernet Spectrum-4, a Quantum -3 switshis InfiniBand. Darparodd Salvator hefyd wahanol fewnwelediadau ar gyfer NVLink Switch (isod), cyfrifiannu, Spectrum-X800, a Quantum-X800.

Cyflwynodd NVIDIA bensaernïaeth Blackwell y bu disgwyl mawr amdani yn ei chynhadledd GTC 2024 ym mis Mawrth eleni, gyda gwerthwyr hyperscale ac OEMs yn arwyddo ymlaen yn gyflym. Mae'r cwmni'n targedu'r maes AI cynhyrchiol sy'n ehangu'n gyflym, lle mae modelau iaith mawr (LLMs) yn dod yn fwy enfawr fyth. Mae Meta's Llama 3.1, a lansiwyd ym mis Mehefin, yn dyst i'r duedd hon, sy'n cynnwys model gyda pharamedrau 4.05 triliwn. Nododd Salvator, wrth i LLMs dyfu'n fwy, bod y galw am gasgliadau amser real yn parhau, sy'n golygu bod angen mwy o gyfrifiannu a hwyrni is, sy'n galw am ddull platfform.

'Fel gyda'r rhan fwyaf o LLMs eraill, disgwylir i'r gwasanaethau a bwerir gan y model hwn redeg mewn amser real. I gyflawni hyn, mae angen GPUs lluosog arnoch chi. Yr her yw sut i gael cydbwysedd enfawr rhwng perfformiad uchel y GPUs, y defnydd uchel o'r GPUs, a darparu profiad defnyddiwr da i'r defnyddwyr terfynol sy'n defnyddio'r gwasanaethau hyn sy'n cael eu gyrru gan AI," meddai.

Yr Angen am Gyflymder

Gyda Blackwell, mae NVIDIA wedi dyblu lled band pob switsh, gan ei gynyddu o 900 GB / s i 1.8 TB / s. Mae technoleg Protocol Cydgasglu a Lleihau Hierarchaidd Graddadwy (SHARP) y cwmni yn dod â mwy o gyfrifiadura i mewn i'r systemau sydd mewn gwirionedd yn byw o fewn y switshis. Mae'n caniatáu inni ddadlwytho rhai tasgau o'r GPU i helpu i gyflymu perfformiad a hefyd yn helpu i lyfnhau traffig rhwydwaith dros ffabrig NVLink. Mae’r rhain yn ddatblygiadau arloesol yr ydym yn parhau i’w hysgogi ar lefel platfform.

Mae'r aml-nôd GB200 NVL72 yn siasi wedi'i oeri gan hylif sy'n cysylltu 72 GPU Blackwell a 36 CPUs Grace mewn dyluniad graddfa rac. Mae NVIDIA yn honni ei fod yn darparu perfformiad casgliad uwch ar gyfer LLMs triliwn-paramedr fel GPT-MoE-1.8T, gan weithredu i bob pwrpas fel GPU sengl. Mae ei berfformiad 30 gwaith yn fwy na'r system HGX H100, gyda chyflymder hyfforddi bedair gwaith yn gyflymach na'r H100.

Mae NVIDIA hefyd wedi ychwanegu cefnogaeth frodorol ar gyfer FP4, gan ddefnyddio System Quantization Quasar y cwmni, sy'n darparu'r un manwl gywirdeb â FP16 wrth leihau'r defnydd o led band 75%. Mae'r Quasar Quantization System yn feddalwedd sy'n trosoledd Blackwell's Transformer Engine i sicrhau cywirdeb. Dangosodd Salvator hyn trwy gymharu delweddau AI cynhyrchiol a grëwyd gan ddefnyddio FP4 a FP16, heb fawr ddim gwahaniaeth canfyddadwy rhwng y ddau.

Gan ddefnyddio FP4, gall modelau ddefnyddio llai o gof a pherfformio hyd yn oed yn well na FP8 yn y GPU Hopper.

Systemau Oeri Hylif

O ran oeri hylif, bydd NVIDIA yn cyflwyno dull sglodion-i-sglodyn uniongyrchol dŵr cynnes, a all leihau defnydd pŵer canolfan ddata 28%.

Dywedodd Salvator, "Yr hyn sy'n ddiddorol am y dull hwn yw rhai o'i fanteision, sy'n cynnwys mwy o effeithlonrwydd oeri, costau gweithredu is, bywyd gweinydd estynedig, a'r potensial i ailddefnyddio gwres wedi'i ddal at ddefnyddiau eraill. Mae'n bendant yn helpu i wella effeithlonrwydd oeri. Un o'r y ffyrdd y cyflawnir hyn, fel y mae'r enw'n ei awgrymu, yw nad yw'r system hon yn defnyddio oeryddion mewn gwirionedd. Os ydych chi'n meddwl sut mae oergell yn gweithio, mae'n gweithio'n eithaf da Does dim rhaid i ni ddefnyddio oeryddion, sy'n arbed rhywfaint o ynni i ni ac yn lleihau costau gweithredu."

Pwnc arall yw sut mae NVIDIA yn defnyddio AI i ddylunio ei sglodion AI gan ddefnyddio Verilog, iaith disgrifio caledwedd sydd wedi'i defnyddio ers deugain mlynedd i ddisgrifio cylchedau mewn cod. Mae NVIDIA yn hyrwyddo'r ymdrech hon trwy asiant Verilog ymreolaethol o'r enw VerilogCoder.

AI chips

Meddai, "Mae ein hymchwilwyr wedi datblygu model iaith mawr a all gyflymu'r broses o greu cod Verilog sy'n disgrifio ein systemau. Byddwn yn ei ddefnyddio mewn cenedlaethau cynnyrch y dyfodol i helpu i adeiladu'r codau hyn. Gall wneud llawer o bethau. Gall helpu cyflymu'r broses ddylunio a dilysu. Gall gyflymu gweithrediadau llaw y dyluniad ac awtomeiddio llawer o dasgau yn sylfaenol."