ROCm for Windows Treningskurs
ROCm er en åpen kildekode-plattform for GPU programmering som støtter AMD GPUs, og som også gir kompatibilitet med CUDA og OpenCL. ROCm utsetter programmereren for maskinvaredetaljene og gir full kontroll over parallelliseringsprosessen. Dette krever imidlertid også en god forståelse av enhetsarkitekturen, minnemodellen, utførelsesmodellen og optimaliseringsteknikker.
ROCm for Windows er en nyere utvikling som lar brukere installere og bruke ROCm på Windows-operativsystemet, som er mye brukt til personlige og profesjonelle formål. ROCm for Windows gjør det mulig for brukere å utnytte kraften til AMD GPU for ulike applikasjoner, som kunstig intelligens, spill, grafikk og vitenskapelig databehandling.
Denne instruktørledede, live-opplæringen (online eller på stedet) er rettet mot utviklere på nybegynnernivå til mellomnivå som ønsker å installere og bruke ROCm på Windows for å programmere AMD GPUer og utnytte parallelliteten deres.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp et utviklingsmiljø som inkluderer ROCm Platform, en AMD GPU og Visual Studio kode på Windows.
- Lag et grunnleggende ROCm-program som utfører vektoraddisjon på GPU og henter resultatene fra GPU-minnet.
- Bruk ROCm API til å spørre etter enhetsinformasjon, allokere og deallokere enhetsminne, kopiere data mellom vert og enhet, starte kjerner og synkronisere tråder.
- Bruk HIP-språket til å skrive kjerner som kjøres på GPU og manipulere data.
- Bruk HIP innebygde funksjoner, variabler og biblioteker for å utføre vanlige oppgaver og operasjoner.
- Bruk ROCm- og HIP-minneplasser, for eksempel globale, delte, konstante og lokale, for å optimalisere dataoverføringer og minnetilganger.
- Bruk ROCm- og HIP-utførelsesmodeller for å kontrollere trådene, blokkene og rutenettene som definerer parallelliteten.
- Feilsøk og test ROCm- og HIP-programmer ved hjelp av verktøy som ROCm Debugger og ROCm Profiler.
- Optimaliser ROCm- og HIP-programmer ved å bruke teknikker som koalescing, caching, forhåndshenting og profilering.
Kursets format
- Interaktivt foredrag og diskusjon.
- Mye øvelser og trening.
- Praktisk implementering i et live-lab-miljø.
Alternativer for kurstilpasning
- For å be om en tilpasset opplæring for dette kurset, vennligst kontakt oss for å avtale.
Kursplan
Introduksjon
- Hva er ROCm?
- Hva er HIP?
- ROCm vs CUDA vs OpenCL
- Oversikt over ROCm og HIP funksjoner og arkitektur
- ROCm for Windows vs ROCm for Linux
Installasjon
- Installere ROCm på Windows
- Verifiserer installasjonen og kontroller enhetens kompatibilitet
- Oppdatere eller avinstallere ROCm på Windows
- Feilsøking av vanlige installasjonsproblemer
Starter
- Opprette et nytt ROCm-prosjekt ved å bruke Visual Studio-kode på Windows
- Utforske prosjektstrukturen og filene
- Kompilere og kjøre programmet
- Viser utdata ved hjelp av printf og fprintf
ROCm API
- Bruker ROCm API i vertsprogrammet
- Spørre enhetsinformasjon og -funksjoner
- Tildele og deallokere enhetsminne
- Kopiering av data mellom vert og enhet
- Starte kjerner og synkronisere tråder
- Håndtering av feil og unntak
HIP-språk
- Bruke HIP-språk i enhetsprogrammet
- Skrive kjerner som kjører på GPU og manipulerer data
- Bruke datatyper, kvalifikatorer, operatorer og uttrykk
- Bruke innebygde funksjoner, variabler og biblioteker
ROCm og HIP minnemodell
- Bruk av forskjellige minneplasser, for eksempel global, delt, konstant og lokal
- Bruke forskjellige minneobjekter, for eksempel pekere, matriser, teksturer og overflater
- Bruk av forskjellige minnetilgangsmoduser, for eksempel skrivebeskyttet, skrivebeskyttet, lese-skrive osv.
- Bruke minnekonsistensmodell og synkroniseringsmekanismer
ROCm og HIP utførelsesmodell
- Bruke forskjellige utførelsesmodeller, som tråder, blokker og rutenett
- Bruke trådfunksjoner, for eksempel hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x, etc.
- Bruke blokkfunksjoner, for eksempel __syncthreads, __threadfence_block, etc.
- Bruke rutenettfunksjoner, som hipGridDim_x, hipGridSync, samarbeidsgrupper, etc.
Feilsøking
- Feilsøking av ROCm- og HIP-programmer på Windows
- Bruke Visual Studio Kodefeilsøker for å inspisere variabler, bruddpunkter, anropsstack, etc.
- Bruke ROCm Debugger til å feilsøke ROCm- og HIP-programmer på AMD-enheter
- Bruke ROCm Profiler til å analysere ROCm- og HIP-programmer på AMD-enheter
Optimalisering
- Optimalisering av ROCm- og HIP-programmer på Windows
- Bruke koalesceringsteknikker for å forbedre minnegjennomstrømningen
- Bruke bufrings- og forhåndshentingsteknikker for å redusere minneforsinkelse
- Bruke delt minne og lokale minneteknikker for å optimalisere minnetilgang og båndbredde
- Bruke profilerings- og profileringsverktøy for å måle og forbedre gjennomføringstiden og ressursutnyttelsen
Sammendrag og neste trinn
Krav
- En forståelse av C/C++ språk og parallellprogrammeringskonsepter
- Grunnleggende kunnskap om dataarkitektur og minnehierarki
- Erfaring med kommandolinjeverktøy og koderedigerere
- Kjennskap til Windows-operativsystemet og PowerShell
Publikum
- Utviklere som ønsker å lære å installere og bruke ROCm på Windows for å programmere AMD GPU og utnytte deres parallellitet
- Utviklere som ønsker å skrive høyytelses og skalerbar kode som kan kjøres på forskjellige AMD-enheter
- Programmerere som ønsker å utforske lavnivåaspektene ved GPU programmering og optimalisere kodeytelsen
Åpne kurs krever 5+ deltakere.
ROCm for Windows Treningskurs - Bestilling
ROCm for Windows Treningskurs - Forespørsel
ROCm for Windows - Konsulentforespørsel
Kommende kurs
Relaterte kurs
Utvikle AI-applikasjoner med Huawei Ascend og CANN
21 TimerHuawei Ascend er en familie av AI-prosessorer som er utformet for høy ytelse i inferens og trening.
Dette instruktørbaserte, live-treningen (online eller på stedet) er rettet mot mellomnivå-AI-ingeniører og datavitenskapsfolk som ønsker å utvikle og optimere neurale nettverksmodeller ved hjelp av Huawei’s Ascend-platform og CANN-verktøysett.
Ved slutten av denne treningen vil deltakerne kunne:
- Sette opp og konfigurere CANN-utviklingsmiljøet.
- Utvikle AI-applikasjoner ved hjelp av MindSpore- og CloudMatrix-arbeidsflyter.
- Optimalisere ytelse på Ascend NPUs ved å bruke egendefinerte operatører og tiling.
- Distribuere modeller til edge- eller skymiljøer.
Kursformat
- Interaktiv forelesning og diskusjon.
- Hånd-onn-bruk av Huawei Ascend og CANN-verktøysett i eksempelapplikasjoner.
- Veiledede øvelser fokusert på modellbygging, trening og distribusjon.
Kursoppsprringsoptsjoner
- For å be om en tilpasset trening for dette kurset basert på din infrastruktur eller datasett, vennligst kontakt oss for å ordne det.
Deploying AI Models with CANN og Ascend AI-prosessorer
14 TimerCANN (Regningsarkitektur for Neural Networks) er Huaweis AI-regningsstabel for å implementere og optimalisere AI-modeller på Ascend AI-prosessorer.
Denne instruktørledede, live-treningen (online eller på stedet) er rettet mot AI-utviklere og ingeniører på mellomnivå som ønsker å effektivt implementere trente AI-modeller på Huawei Ascend-hardware ved hjelp av CANN-verktøykassen og verktøy som MindSpore, TensorFlow, eller PyTorch.
Ved avslutningen av denne treningen vil deltakerne være i stand til å:
- Forstå CANN-arkitekturen og dens rolle i AI-implementeringspipeline.
- Konvertere og tilpasse modeller fra populære rammeverk til Ascend-kompatible formater.
- Bruke verktøy som ATC, OM modellkonvertering og MindSpore for kant- og skyinferens.
- Diagnostisere implementeringsproblemer og optimalisere ytelse på Ascend-hardware.
Format på kurset
- Interaktiv forelesning og demonstrasjon.
- Hånds-på labarbeid ved bruk av CANN-verktøy og Ascend-simulatorer eller enheter.
- Praktiske implementeringsscenarier basert på virkelige AI-modeller.
Tilhørende valgmuligheter for kurset
- For å be om et tilpasset treningskurs for dette kurset, vennligst kontakt oss for å avtale.
AI Inference og Deployering med CloudMatrix
21 TimerCloudMatrix er Huaweis enhetlige plattform for utvikling og distribusjon av AI, som er designet for å støtte skalerbare, produksjonskvalitetsinferenspipeliner.
Denne instruktørledede, levende opplæringen (online eller på stedet) er rettet mot AI-profesjonelle på begynnernivå til mellomnivå som ønsker å distribuere og overvåke AI-modeller ved hjelp av CloudMatrix plattformen med CANN og MindSpore-integrering.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Bruke CloudMatrix for modellpakking, distribusjon og levertjeneste.
- Konvertere og optimalisere modeller for Ascend-chipsett.
- Opprette pipelines for sanntids- og batch-inferensoppgaver.
- Overvåke distribusjoner og justere ytelse i produksjonsmiljøer.
Kursets format
- Interaktiv forelesning og diskusjon.
- Hånds-på bruk av CloudMatrix med virkelige distribusjonsscenarier.
- Veiledede øvelser som fokuserer på konvertering, optimalisering og skalerbarhet.
Tilpasningsalternativer for kurs
- For å be om en tilpasset opplæring for dette kurset basert på din AI-infrastruktur eller sky-miljø, kontakt oss for å avtale.
GPU Programming på Biren AI Acceleratorer
21 TimerBiren AI-akseleratorer er høyytelsesorienterte GPUs designet for AI- og HPC-laster med støtte for stort volum trenings- og inferensarbeid.
Dette ledede, live-treningen (online eller på stedet) er rettet mot mellomnivå- og avanserte utviklere som ønsker å programmere og optimalisere applikasjoner ved hjelp av Biren sitt proprietære GPU-stakk, med praktiske sammenligninger med CUDA-baserte miljøer.
Til slutt vil deltakerne kunne:
- Forstå Biren GPU-arkitektur og minnehierarki.
- Opprette utviklingsmiljø og bruke Biren sitt programmeringsmodell.
- Oversette og optimalisere CUDA-stilkode for Biren-plattformer.
- Bruke prestasjonsjustering og feilsøkingsmetoder.
Format på kurset
- Interaktiv forelesning og diskusjon.
- Hender-på bruk av Biren SDK i eksempler på GPU-laster.
- Guidede øvelser fokusert på porting og prestasjonsjustering.
Muligheter for tilpassing av kurset
- For å be om tilpasset trening for dette kurset basert på din applikasjonsstakk eller integrasjonsbehov, ta kontakt med oss for å avtale.
Cambricon MLU Development with BANGPy and Neuware
21 TimerCambricon MLUs (Machine Learning Units) er spesialiserte AI-kretser som er optimalisert for inferens og opplæring i edge- og datasenter-scenarier.
Denne instruktørlede, live-undervisningen (online eller på sted) er rettet mot mellomnivåutviklere som ønsker å bygge og distribuere AI-modeller ved bruk av BANGPy-rammeverket og Neuware SDK på Cambricon MLU-hardware.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sette opp og konfigurere BANGPy- og Neuware-utviklingsmiljøene.
- Utvikle og optimalisere Python- og C++-baserte modeller for Cambricon MLUs.
- Distribuere modeller til edge- og datasenter-enheter som kjører Neuware-runtime.
- Integere ML-arbeidsflyter med MLU-spesifikke akselerasjonsfunksjoner.
Kursets format
- Interaktiv forelesning og diskusjon.
- Hånds-on bruk av BANGPy og Neuware for utvikling og distribuering.
- Veiledede øvelser som fokuserer på optimalisering, integrering og testing.
Kursets tilpassingsmuligheter
- For å bestille en tilpasset opplæring for dette kurset basert på din Cambricon-enhetsmodell eller bruksområde, kontakt oss for å avtale.
Introduksjon til CANN for AI-rammeverkutviklere
7 TimerCANN (Compute Architecture for Neural Networks) er Huaweis AI-beregningssverktøy som brukes til å kompilere, optimalisere og distribuere AI-modeller på Ascend AI-prosessorer.
Dette instruktørledede, live-trainingen (online eller på stedet) er rettet mot AI-utviklere på begynnernivå som ønsker å forstå hvordan CANN passer inn i modelllevesyklusen fra trening til distribusjon, og hvordan det fungerer sammen med rammeverk som MindSpore, TensorFlow, og PyTorch.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Forstå formålet og arkitekturen til CANN verktøysettet.
- Opprette en utviklingsmiljø med CANN og MindSpore.
- Konvertere og distribuere en enkel AI-modell til Ascend-hardware.
- Oppnå grunnleggende kunnskap for fremtidige CANN optimaliserings- eller integreringsprosjekter.
Format på kurset
- Interaktiv forelesning og diskusjon.
- Hånds-på-lab med enkel modelldistribusjon.
- Trinn-for-trinn gjennomgang av CANN verktøykjeden og integrasjonspunkter.
Tilpasningsmuligheter for kurset
- For å be om tilpasset opplæring for dette kurset, vennligst kontakt oss for å avtale.
CANN for Edge AI Deployment
14 TimerHuaweis Ascend CANN-verktøykasse muliggjør kraftig AI-inferens på edge-enheter som Ascend 310. CANN gir essensielle verktøy for å kompilere, optimere og deploye modeller der beregningskraft og minne er begrenset.
Denne instruktørlede live-treningen (online eller på sted) er rettet mot AI-utviklere og integratorer på mellomnivå som ønsker å deploye og optimere modeller på Ascend-edge-enheter ved hjelp av CANN-verktøykjeden.
Ved avslutningen av denne treningen vil deltakerne kunne:
- Forberede og konvertere AI-modeller for Ascend 310 ved hjelp av CANN-verktøy.
- Bygge lette inferens-pipelines ved hjelp av MindSpore Lite og AscendCL.
- Optimerer modellytelse for begrensede beregnings- og minne-miljøer.
- Deployere og overvåke AI-applikasjoner i virkelige edge-brukstilfeller.
Formatet på kurset
- Interaktiv forelesning og demonstrasjon.
- Hånds-på-laboratorium med edge-spesifikke modeller og scenarier.
- Live-deployereksempler på virtuell eller fysisk edge-hardware.
Kurskustomiseringsalternativer
- For å be om en tilpasset trening for dette kurset, vennligst kontakt oss for å avtale.
Forståelse av Huaweis AI-regneark: Fra CANN til MindSpore
14 TimerHuaweis AI-stakk — fra lavnivå-CANN SDK til høy-nivå MindSpore-rammeverket — tilbyr et tett integrert AI-utviklings- og distribusjonsmiljø som er optimalisert for Ascend-hardware.
Denne instruktørledede, live-treningen (online eller på stedet) er rettet mot tekniske fagfolk på begynnernivå til mellomnivå som ønsker å forstå hvordan CANN og MindSpore-komponentene samarbeider for å støtte AI-livssyklushåndtering og infrastrukturbeslutninger.
Ved kursets slutt vil deltakerne kunne:
- Forstå den lagdelte arkitekturen i Huaweis AI-beregningsstakk.
- Identifisere hvordan CANN støtter modelloptimalisering og distribusjon på hardwarenivå.
- Vurdere MindSpore-rammeverket og verktøykjeden i forhold til alternativene i industrien.
- Plassere Huaweis AI-stakk i bedrifts- eller cloud/on-prem-miljøer.
Kursformat
- Interaktiv forelesning og diskusjon.
- Live systemdemonstrasjoner og tilfellebaserte gjennomganger.
- Valgfrie veiledede laboratorier på modellflyt fra MindSpore til CANN.
Tilpasningsmuligheter for kurs
- For å be om en tilpasset trening for dette kurset, vennligst kontakt oss for å ordne.
Optimering av Neural Network Ytelse med CANN SDK
14 TimerCANN SDK (Compute Architecture for Neural Networks) er Huaweis grunnlag for AI-regning som lar utviklere finjustere og optimalisere ytelsen til nydelte nevrale nettverk på Ascend AI-prosessorer.
Denne instruktørledede, live-treningen (online eller på sted) er rettet mot avanserte AI-utviklere og systemingeniører som ønsker å optimalisere inferensytelse ved hjelp av CANN’s avanserte verktøyoppsett, inkludert Graph Engine, TIK, og utvikling av tilpassede operatører.
Ved slutten av denne treningen vil deltakerne være i stand til å:
- Forstå CANN’s kjørbararkitektur og ytelseslivssyklus.
- Bruk profileringsverktøy og Graph Engine for ytelsesanalyse og optimalisering.
- Opprette og optimalisere tilpassede operatører ved hjelp av TIK og TVM.
- Løse hukommelsesflaskhalser og forbedre modellgjennomstrømning.
Kursformat
- Interaktiv forelesning og diskusjon.
- Pratiske laboratorier med sanstidsprofilering og operatørjustering.
- Optimaliseringsøvelser ved bruk av ekstremtilfeller for innsetting.
Tilpassingsmuligheter for kurset
- For å be om en tilpasset trening for dette kurset, vennligst kontakt oss for å avtale.
CANN SDK for Computer Vision and NLP Pipelines
14 TimerCANN SDK (Compute Architecture for Neural Networks) tilbyr kraftige verktøy for implementering og optimalisering av realtid AI-applikasjoner i computer vision og NLP, spesielt på Huawei Ascend-hardware.
Denne instruktørførte, live-kurs (online eller på stedet) er rettet mot mellemnivå AI-praktikere som ønsker å bygge, implementere og optimalisere visjons- og språkmodeller ved hjelp av CANN SDK for produksjonsbruk.
Ved slutten av dette kurset vil deltakerne kunne:
- Implementere og optimalisere CV- og NLP-modeller ved hjelp av CANN og AscendCL.
- Bruke CANN-verktøy til å konvertere modeller og integrere dem i live-pipelines.
- Optimalisere inferensprestasjon for oppgaver som deteksjon, klassifisering og sentimentanalyse.
- Bygge realtid CV/NLP-pipelines for edge- eller skybaserte implementerings-scenarier.
Kursformat
- Interaktiv forelesning og demonstrasjon.
- Håndson laboratorium med modellimplementering og prestasjonsprofiling.
- Live-pipeline-design ved hjelp av reelle CV- og NLP-anvendelsesområder.
Kursjusteringsoptsjoner
- For å be om et tilpasset kurs, kontakt oss for å ordne det.
Bygging av Tilpassede AI-Operatorer med CANN TIK og TVM
14 TimerCANN TIK (Tensor Instruction Kernel) og Apache TVM gjør det mulig å optimere og tilpasse AI-modelloperatører for Huawei Ascend maskinvare.
Denne opplæringskurset ledet av instruktør (online eller på stedet) er rettet mot systemutviklere på avansert nivå som ønsker å bygge, distribuere og justere egendefinerte operatører for AI-modeller ved hjelp av CANN’s TIK-programmeringsmodell og TVM-kompilatorintegrasjon.
Ved avslutning av denne opplæringen vil deltakerne kunne:
- Skrive og teste egendefinerte AI-operatører ved hjelp av TIK DSL for Ascend-prosessorer.
- Integrere egendefinerte operatører i CANN køringsmiljø og utførelsesgraf.
- Bruke TVM for operatørplanlegging, autotuning og benchmarking.
- Feilsøke og optimere instruksjonsnivåprestasjon for egendefinerte beregningsmønstre.
Kursform
- Interaktiv forelesning og demonstrasjon.
- Praktisk programmering av operatører ved hjelp av TIK- og TVM-pipeliner.
- Testing og justering på Ascend-maskinvare eller simuleringer.
Tilpassingsmuligheter for kurset
- For å be om et tilpasset opplæringskurs for dette kurset, vennligst kontakt oss for å avtale.
Overføre CUDA-applikasjoner til kinesiske GPU-arkitekturer
21 TimerKinesiske GPU-arkitekturer som Huawei Ascend, Biren, og Cambricon MLUs tilbyr CUDA-alternativer tilpasset for lokale AI- og HPC-marked.
Denne instruktørledede, live-trening (online eller på stedet) er rettet mot avanserte GPU-programmerere og infrastrukturspesialister som ønsker å migrere og optimalisere eksisterende CUDA-applikasjoner for deployering på kinesiske hardwarplattformer.
Ved slutten av denne treningen vil deltakerne kunne:
- Vurdere kompatibiliteten til eksisterende CUDA-arbeidsbelastninger med kinesiske chip-alternativer.
- Flytte CUDA-kodebaser til Huawei CANN, Biren SDK, og Cambricon BANGPy-miljøer.
- Sammenligne ytelse og identifisere optimaliseringspunkter over plattformer.
- Behandle praktiske utfordringer med kryssarkitekturstøtte og deployering.
Kursets format
- Interaktiv forelesning og diskusjon.
- Praktiske kodeoversettings- og ytelsessammenligningslaboratorier.
- Veiledede øvelser fokusert på fler-GPU-tilpasningsstrategier.
Tilpasningsmuligheter for kurset
- For å be om en tilpasset trening for dette kurset basert på din plattform eller CUDA-prosjekt, vennligst kontakt oss for å avtale.
Performance Optimization on Ascend, Biren, and Cambricon
21 TimerAscend, Biren og Cambricon er ledende AI-hardwareplattformer i Kina, og hver av dem tilbyr unike akselerasjon- og profileringverktøy for AI-belastninger på produksjonsnivå.
Denne instruktørledede, live-utdanningen (online eller på stedet) er rettet mot avanserte AI-infrastruktur- og ytelsesingeniører som ønsker å optimalisere modellinferens og treningarbeidsflyter over flere kinesiske AI-chipplattformer.
Ved slutten av denne utdanningen vil deltakerne kunne:
- Benkmark-modeller på Ascend, Biren og Cambricon-plattformer.
- Identifisere systemflaskehalser og minne-/beregningsineffektiviteter.
- Bruke grafnivå-, kjerne-nivå- og operatørnivå-optimaliseringer.
- Tune deploymentsrørledninger for å forbedre gjennomstrømning og latens.
Kursformat
- Interaktiv forelesning og diskusjon.
- Prøving av profilering- og optimaliseringsverktøy på hver plattform.
- Veiledede øvelser som fokuserer på praktisk tuning.
Kursets tilpasningsmuligheter
- For å be om en tilpasset utdanning for dette kurset basert på din ytelsesmiljø eller modelltype, vennligst kontakt oss for å ordne.