சுருக்கமான பதில்: AI பயிற்சிக்காக NVIDIA GPU-களைப் பயன்படுத்தி, முதலில் nvidia-smi , பின்னர் இணக்கமான கட்டமைப்பு/CUDA அடுக்கை நிறுவி, ஒரு சிறிய "model + batch on cuda" சோதனையை இயக்கவும். நீங்கள் நினைவகத்தை இழந்தால், தொகுதி அளவைக் குறைத்து, பயன்பாடு, நினைவகம் மற்றும் வெப்பநிலையைக் கண்காணிக்கும் அதே வேளையில், கலப்பு துல்லியத்தைப் பயன்படுத்தவும்.
முக்கிய குறிப்புகள்:
அடிப்படை சரிபார்ப்புகள் : nvidia-smi ; கட்டமைப்புகளை நிறுவுவதற்கு முன் இயக்கி தெரிவுநிலையை சரிசெய்யவும்.
அடுக்கு இணக்கத்தன்மை : செயலிழப்புகள் மற்றும் உடையக்கூடிய நிறுவல்களைத் தடுக்க இயக்கி, CUDA இயக்க நேரம் மற்றும் கட்டமைப்பு பதிப்புகளை சீரமைக்கவும்.
சிறிய வெற்றி : சோதனைகளை அதிகரிப்பதற்கு முன், CUDA-வில் ஒற்றை முன்னோக்கி பாஸ் ஓட்டங்களை உறுதிப்படுத்தவும்.
VRAM துறை : பெரிய மாதிரிகளைப் பொருத்துவதற்கு கலப்பு துல்லியம், சாய்வு குவிப்பு மற்றும் சோதனைச் சாவடி ஆகியவற்றில் சாய்ந்து கொள்ளுங்கள்.
கண்காணிப்பு பழக்கம் : பயன்பாடு, நினைவக முறைகள், சக்தி மற்றும் வெப்பநிலைகளைக் கண்காணிக்கவும், இதன் மூலம் நீங்கள் தடைகளை முன்கூட்டியே கண்டறியலாம்.

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:
🔗 ஒரு AI முகவரை எவ்வாறு உருவாக்குவது
உங்கள் முகவரின் பணிப்பாய்வு, கருவிகள், நினைவகம் மற்றும் பாதுகாப்புக் காவலர்கள் ஆகியவற்றை வடிவமைக்கவும்.
🔗 AI மாதிரிகளை எவ்வாறு பயன்படுத்துவது
சூழல்கள், தொகுப்பு மாதிரிகள் ஆகியவற்றை அமைத்து, நம்பகத்தன்மையுடன் உற்பத்திக்கு அனுப்பவும்.
🔗 AI செயல்திறனை எவ்வாறு அளவிடுவது
அளவீடுகளைத் தேர்வுசெய்து, மதிப்பீடுகளை இயக்கி, காலப்போக்கில் செயல்திறனைக் கண்காணிக்கவும்.
🔗 AI உடன் பணிகளை தானியக்கமாக்குவது எப்படி
அறிவுறுத்தல்கள், பணிப்பாய்வுகள் மற்றும் ஒருங்கிணைப்புகள் மூலம் மீண்டும் மீண்டும் வேலை செய்யும் வேலையை தானியங்குபடுத்துங்கள்.
1) பெரிய படம் - நீங்கள் "GPU-வில் பயிற்சி" செய்யும்போது என்ன செய்கிறீர்கள் 🧠⚡
நீங்கள் AI மாதிரிகளைப் பயிற்றுவிக்கும்போது, நீங்கள் பெரும்பாலும் மேட்ரிக்ஸ் கணிதத்தின் ஒரு மலையைச் செய்கிறீர்கள். GPUகள் அந்த வகையான இணையான வேலைக்காக உருவாக்கப்படுகின்றன, எனவே PyTorch, TensorFlow மற்றும் JAX போன்ற கட்டமைப்புகள் GPU க்கு அதிக சுமையை ஏற்ற முடியும். ( PyTorch CUDA ஆவணங்கள் , TensorFlow நிறுவல் (pip) , JAX விரைவுத் தொடக்கம் )
நடைமுறையில், "பயிற்சிக்காக NVIDIA GPUகளைப் பயன்படுத்துதல்" என்பது பொதுவாக:
-
உங்கள் மாதிரி அளவுருக்கள் (பெரும்பாலும்) GPU VRAM இல் உள்ளன
-
உங்கள் தொகுதிகள் ஒவ்வொரு படியிலும் RAM இலிருந்து VRAM க்கு நகர்த்தப்படும்
-
உங்கள் முன்னோக்கி பாஸ் மற்றும் பேக்ப்ராப் CUDA கர்னல்களில் இயங்குகின்றன ( CUDA நிரலாக்க வழிகாட்டி )
-
உங்கள் ஆப்டிமைசர் புதுப்பிப்புகள் GPU-வில் நடக்கும் (சிறந்தது)
-
நீங்கள் எதையும் சமைக்காமல் இருக்க வெப்பநிலை, நினைவகம், பயன்பாடு ஆகியவற்றைக் கண்காணிக்கிறீர்கள் 🔥 ( NVIDIA nvidia-smi docs )
அது அதிகமாகத் தோன்றினால், கவலைப்பட வேண்டாம். இது பெரும்பாலும் ஒரு சரிபார்ப்புப் பட்டியல் மற்றும் காலப்போக்கில் நீங்கள் உருவாக்கும் சில பழக்கவழக்கங்கள்.
2) NVIDIA GPU AI பயிற்சி அமைப்பின் நல்ல பதிப்பை உருவாக்குவது எது 🤌
இது "ஜெல்லியில் வீடு கட்டாதீர்கள்" பிரிவு. AI பயிற்சிக்கு NVIDIA GPU-க்களை எவ்வாறு பயன்படுத்துவது , குறைந்த-டிராமா ஆகும். குறைந்த-டிராமா என்பது நிலையானது. நிலையானது வேகமானது. வேகமானது...சரி, வேகமானது 😄
ஒரு திடமான பயிற்சி அமைப்பு பொதுவாக பின்வருவனவற்றைக் கொண்டுள்ளது:
-
உங்கள் தொகுதி அளவு + மாதிரி + உகப்பாக்கி நிலைகளுக்கு போதுமான VRAM.
-
VRAM என்பது சூட்கேஸ் இடம் போன்றது. நீங்கள் புத்திசாலித்தனமாக பேக் செய்யலாம், ஆனால் நீங்கள் எல்லையற்றதாக பேக் செய்ய முடியாது.
-
-
பொருந்தக்கூடிய மென்பொருள் அடுக்கு (இயக்கி + CUDA இயக்க நேரம் + கட்டமைப்பு இணக்கத்தன்மை) ( PyTorch தொடங்கு (CUDA தேர்வி) , TensorFlow நிறுவல் (pip) )
-
வேகமான சேமிப்பு (பெரிய தரவுத்தொகுப்புகளுக்கு NVMe நிறைய உதவுகிறது)
-
நல்ல CPU + RAM இருப்பதால் தரவு ஏற்றுதல் GPU-வைப் பாதிக்காது ( PyTorch செயல்திறன் சரிப்படுத்தும் வழிகாட்டி )
-
கூலிங் மற்றும் பவர் ஹெட்ரூம் (குறைத்து மதிப்பிடப்பட்டது 😬 வரை)
-
மீண்டும் உருவாக்கக்கூடிய சூழல் (venv/conda அல்லது கொள்கலன்கள்) எனவே மேம்படுத்தல்கள் குழப்பமாக மாறாது ( NVIDIA கொள்கலன் கருவித்தொகுப்பு கண்ணோட்டம் )
மக்கள் தவிர்க்கும் இன்னொரு விஷயம்:
-
ஒரு கண்காணிப்பு பழக்கம் - வாகனம் ஓட்டும்போது கண்ணாடிகளைச் சரிபார்ப்பது போல GPU நினைவகம் மற்றும் பயன்பாட்டைச் சரிபார்க்கிறீர்கள். ( NVIDIA nvidia-smi ஆவணங்கள் )
3) ஒப்பீட்டு அட்டவணை - NVIDIA GPUகளுடன் பயிற்சி பெறுவதற்கான பிரபலமான வழிகள் (சிக்கனங்களுடன்) 📊
கீழே ஒரு விரைவான “எது பொருந்தும்?” ஏமாற்றுத் தாள் உள்ளது. விலைகள் தோராயமானவை (ஏனெனில் யதார்த்தம் மாறுபடும்), ஆம், இந்த செல்களில் ஒன்று வேண்டுமென்றே கொஞ்சம் சீரற்றதாக உள்ளது.
| கருவி / அணுகுமுறை | சிறந்தது | விலை | இது ஏன் வேலை செய்கிறது (பெரும்பாலும்) |
|---|---|---|---|
| பைடார்ச் (வெண்ணிலா) பைடார்ச் | பெரும்பாலான மக்கள், பெரும்பாலான திட்டங்கள் | இலவசம் | நெகிழ்வான, மிகப்பெரிய சுற்றுச்சூழல் அமைப்பு, எளிதான பிழைத்திருத்தம் - மேலும் அனைவருக்கும் கருத்துகள் உள்ளன |
| PyTorch மின்னல் மின்னல் ஆவணங்கள் | அணிகள், கட்டமைக்கப்பட்ட பயிற்சி | இலவசம் | பாய்லர்பிளேட்டைக் குறைக்கிறது, சுழல்களை சுத்தம் செய்கிறது; சில நேரங்களில் அது "மாயாஜாலம்" போல உணர்கிறது, அது உணராத வரை |
| கட்டிப்பிடிக்கும் முக மின்மாற்றிகள் + பயிற்சியாளர் பயிற்சி ஆவணங்கள் | NLP + LLM ஃபைன்-ட்யூனிங் | இலவசம் | பேட்டரிகள் உள்ளிட்ட பயிற்சி, சிறந்த தவறுகள், விரைவான வெற்றிகள் 👍 |
| ஆக்சிலரேட் ஆக்சிலரேட் டாக்ஸ் | வலியற்ற பல-GPU | இலவசம் | DDP-ஐ குறைவான எரிச்சலூட்டும் தன்மையுடையதாக்குகிறது, எல்லாவற்றையும் மீண்டும் எழுதாமல் அளவை அதிகரிப்பதற்கு நல்லது |
| டீப்ஸ்பீட் ஜீரோ ஆவணங்கள் | பெரிய மாதிரிகள், நினைவக தந்திரங்கள் | இலவசம் | ZeRO, ஆஃப்லோட், அளவிடுதல் - கிளிக் செய்யும்போது சற்று சிரமமாக இருந்தாலும் திருப்திகரமாக இருக்கும் |
| டென்சர்ஃப்ளோ + கெராஸ் TF நிறுவல் | உற்பத்தி குழாய்வழிகள் | இலவசம் | வலுவான கருவி, நல்ல வரிசைப்படுத்தல் கதை; சிலர் இதை விரும்புகிறார்கள், சிலர் அமைதியாக விரும்புவதில்லை |
| JAX + Flax JAX விரைவுத் தொடக்கம் / Flax ஆவணங்கள் | ஆராய்ச்சி + வேக வெறியர்கள் | இலவசம் | XLA தொகுப்பு மிக வேகமாக இருக்கலாம், ஆனால் பிழைத்திருத்தம் செய்வது... சுருக்கமாக உணரலாம் |
| NVIDIA NeMo NeMo கண்ணோட்டம் | பேச்சு + எல்.எல்.எம் பணிப்பாய்வுகள் | இலவசம் | NVIDIA- உகந்த ஸ்டாக், நல்ல சமையல் குறிப்புகள் - ஒரு ஆடம்பரமான அடுப்பில் சமைப்பது போன்ற உணர்வு 🍳 |
| டாக்கர் + என்விடியா கொள்கலன் கருவித்தொகுப்பு கருவித்தொகுப்பு கண்ணோட்டம் | மீண்டும் உருவாக்கக்கூடிய சூழல்கள் | இலவசம் | “என் கணினியில் வேலை செய்கிறது” என்பது “எங்கள் கணினிகளில் வேலை செய்கிறது” (பெரும்பாலும், மீண்டும்) ஆகிறது |
4) முதல் படி - உங்கள் GPU சரியாகத் தெரிகிறதா என்பதை உறுதிப்படுத்தவும் 🕵️♂️
ஒரு டஜன் விஷயங்களை நிறுவுவதற்கு முன், அடிப்படைகளைச் சரிபார்க்கவும்.
நீங்கள் உண்மையாக இருக்க விரும்பும் விஷயங்கள்:
-
இயந்திரம் GPU-வைப் பார்க்கிறது
-
NVIDIA இயக்கி சரியாக நிறுவப்பட்டுள்ளது
-
GPU வேறு ஏதாவது செய்வதில் சிக்கிக் கொள்ளவில்லை
-
நீங்கள் அதை நம்பகத்தன்மையுடன் வினவலாம்
கிளாசிக் சரிபார்ப்பு:
-
என்விடியா-எஸ்எம்ஐ( என்விடியா என்விடியா-எஸ்எம்ஐ டாக்ஸ் )
நீங்கள் தேடுவது:
-
GPU பெயர் (எ.கா., RTX, A-தொடர், முதலியன)
-
இயக்கி பதிப்பு
-
நினைவக பயன்பாடு
-
இயங்கும் செயல்முறைகள் ( NVIDIA nvidia-smi ஆவணங்கள் )
என்விடியா-ஸ்மி செயலிழந்தால் , அங்கேயே நிறுத்துங்கள். இன்னும் ஃப்ரேம்வொர்க்குகளை நிறுவ வேண்டாம். இது உங்கள் அடுப்பு செருகப்படாதபோது ரொட்டி சுட முயற்சிப்பது போன்றது. ( என்விடியா சிஸ்டம் மேனேஜ்மென்ட் இன்டர்ஃபேஸ் (என்விஎஸ்எம்ஐ) )
சிறிய மனித குறிப்பு: சில நேரங்களில் nvidia-smi வேலை செய்கிறது, ஆனால் உங்கள் பயிற்சி இன்னும் தோல்வியடைகிறது, ஏனெனில் உங்கள் கட்டமைப்பால் பயன்படுத்தப்படும் CUDA இயக்க நேரம் இயக்கி எதிர்பார்ப்புகளுடன் பொருந்தவில்லை. நீங்கள் முட்டாள் அல்ல. அதுதான்... அது எப்படி இருக்கிறது 😭 ( PyTorch தொடங்கப்பட்டது (CUDA தேர்வாளர்) , TensorFlow நிறுவல் (pip) )
5) மென்பொருள் அடுக்கை உருவாக்குங்கள் - இயக்கிகள், CUDA, cuDNN, மற்றும் “பொருந்தக்கூடிய நடனம்” 💃
இங்குதான் மக்கள் மணிநேரத்தை இழக்கிறார்கள். தந்திரம் என்னவென்றால்: ஒரு பாதையைத் தேர்ந்தெடுத்து அதில் ஒட்டிக்கொள் .
விருப்பம் A: கட்டமைப்பு-தொகுக்கப்பட்ட CUDA (பெரும்பாலும் எளிதானது)
பல PyTorch நிறுவனங்கள் தங்கள் சொந்த CUDA இயக்க நேரத்துடன் உருவாக்கப்படுகின்றன, அதாவது கணினி முழுவதும் முழு CUDA கருவித்தொகுப்பை நிறுவ வேண்டிய அவசியமில்லை. உங்களுக்கு பெரும்பாலும் இணக்கமான NVIDIA இயக்கி மட்டுமே தேவை. ( PyTorch தொடங்கப்பட்டது (CUDA தேர்வாளர்) , முந்தைய PyTorch பதிப்புகள் (CUDA சக்கரங்கள்) )
நன்மை:
-
குறைவான நகரும் பாகங்கள்
-
எளிதான நிறுவல்கள்
-
சூழலுக்கு ஏற்ப அதிகமாக மீண்டும் உருவாக்கக்கூடியது
பாதகம்:
-
நீங்கள் சூழல்களை சாதாரணமாக கலந்தால், நீங்கள் குழப்பமடையலாம்
விருப்பம் B: சிஸ்டம் CUDA கருவித்தொகுப்பு (கூடுதல் கட்டுப்பாடு)
நீங்கள் கணினியில் CUDA கருவித்தொகுப்பை நிறுவி, அதனுடன் அனைத்தையும் சீரமைக்கவும். ( CUDA கருவித்தொகுப்பு ஆவணங்கள் )
நன்மை:
-
தனிப்பயன் கட்டமைப்புகளுக்கு கூடுதல் கட்டுப்பாடு, சில சிறப்பு கருவிகள்
-
சில செயல்பாடுகளைத் தொகுப்பதற்கு வசதியானது
பாதகம்:
-
பதிப்புகளைப் பொருத்தாமல் அமைதியாக அழுவதற்கான கூடுதல் வழிகள்
மனித சொற்களில், cuDNN மற்றும் NCCL
-
cuDNN ஆழமான கற்றல் பழமையானவற்றை (சுழற்சிகள், RNN பிட்கள், முதலியன) துரிதப்படுத்துகிறது ( NVIDIA cuDNN ஆவணங்கள் )
-
NCCL என்பது பல-GPU பயிற்சிக்கான வேகமான "GPU-to-GPU தொடர்பு" நூலகமாகும் ( NCCL கண்ணோட்டம் )
நீங்கள் பல-GPU பயிற்சி பெற்றால், NCCL உங்கள் சிறந்த நண்பர் - சில சமயங்களில், உங்கள் மனநிலை மாற்றும் அறைத் தோழரும். ( NCCL கண்ணோட்டம் )
6) உங்கள் முதல் GPU பயிற்சி ஓட்டம் (PyTorch உதாரண மனநிலை) ✅🔥
AI பயிற்சிக்கு NVIDIA GPU-களை எவ்வாறு பயன்படுத்துவது என்பதைப் பின்பற்ற , முதலில் உங்களுக்கு ஒரு பெரிய திட்டம் தேவையில்லை. உங்களுக்கு ஒரு சிறிய வெற்றி தேவை.
முக்கிய யோசனைகள்:
-
சாதனத்தைக் கண்டறி
-
மாதிரியை GPU க்கு நகர்த்தவும்
-
டென்சர்களை GPU க்கு நகர்த்தவும்
-
முன்னோக்கி பாஸ் ஓட்டங்களை அங்கு உறுதிப்படுத்தவும் ( PyTorch CUDA ஆவணங்கள் )
நான் எப்போதும் சீக்கிரமே நல்லறிவைச் சரிபார்க்கும் விஷயங்கள்:
-
torch.cuda.is_available()True( torch.cuda.is_available ) என்பதைத் திருப்பி அனுப்புகிறது. -
next(model.parameters()).devicecuda-வைக்காட்டுகிறது ( PyTorch Forum: CUDA-வில் மாதிரியைச் சரிபார்க்கவும் ) -
ஒற்றை தொகுதி முன்னோக்கி பாஸ் பிழையை ஏற்படுத்தாது
-
நீங்கள் பயிற்சியைத் தொடங்கும்போது GPU நினைவகம் அதிகரிக்கும் (ஒரு நல்ல அறிகுறி!) ( NVIDIA nvidia-smi ஆவணங்கள் )
"ஏன் மெதுவாக இருக்கிறது?" என்ற பொதுவான கேள்வி
-
உங்கள் டேட்டாலோடர் மிகவும் மெதுவாக உள்ளது (GPU செயலற்ற நிலையில் காத்திருக்கிறது) ( PyTorch செயல்திறன் சரிப்படுத்தும் வழிகாட்டி )
-
நீங்கள் தரவை GPU-க்கு நகர்த்த மறந்துவிட்டீர்கள் (அச்சச்சோ)
-
தொகுதி அளவு சிறியது (GPU குறைவாகப் பயன்படுத்தப்படுகிறது)
-
பயிற்சிப் படியில் நீங்கள் அதிக CPU முன் செயலாக்கத்தைச் செய்கிறீர்கள்
மேலும், ஆம், டேட்டா பிரச்சனையாக இருந்தால் உங்கள் GPU பெரும்பாலும் "அவ்வளவு பரபரப்பாக இல்லை" என்று தோன்றும். இது ஒரு ரேஸ் கார் டிரைவரை வேலைக்கு அமர்த்தி, ஒவ்வொரு சுற்றும் எரிபொருளுக்காக காத்திருக்க வைப்பது போன்றது.
7) VRAM விளையாட்டு - தொகுதி அளவு, கலப்பு துல்லியம், வெடிக்காமல் இருப்பது 💥🧳
பெரும்பாலான நடைமுறை பயிற்சி சிக்கல்கள் நினைவாற்றலுடன் தொடர்புடையவை. நீங்கள் ஒரு திறமையைக் கற்றுக்கொண்டால், VRAM மேலாண்மையைக் கற்றுக்கொள்ளுங்கள்.
நினைவக பயன்பாட்டைக் குறைப்பதற்கான விரைவான வழிகள்
-
கலப்பு துல்லியம் (FP16/BF16)
-
பொதுவாக பெரிய வேக ஊக்கமும் கூட. வெற்றி-வெற்றி 😌 ( PyTorch AMP ஆவணங்கள் , TensorFlow கலப்பு துல்லிய வழிகாட்டி )
-
-
சாய்வு குவிப்பு
-
பல படிகளில் சாய்வுகளைக் குவிப்பதன் மூலம் பெரிய தொகுதி அளவை உருவகப்படுத்துங்கள் ( டிரான்ஸ்ஃபார்மர்கள் பயிற்சி ஆவணங்கள் (சாய்வு குவிப்பு, fp16) )
-
-
சிறிய வரிசை நீளம் / பயிர் அளவு
-
கொடூரமானது ஆனால் பயனுள்ளது
-
-
செயல்படுத்தல் சோதனைச் சாவடி
-
நினைவகத்திற்கான வர்த்தகக் கணக்கீடு (பின்னோக்கிய செயல்பாட்டின் போது செயல்படுத்தல்களை மீண்டும் கணக்கிடுதல்) ( torch.utils.checkpoint )
-
-
இலகுவான உகப்பாக்கியைப் பயன்படுத்தவும்
-
சில உகப்பாக்கிகள் VRAM ஐ மெல்லும் கூடுதல் நிலைகளைச் சேமிக்கின்றன
-
"நான் நிறுத்திய பிறகும் VRAM ஏன் இன்னும் நிரம்பியுள்ளது?" என்ற தருணம்
கட்டமைப்புகள் பெரும்பாலும் நினைவகத்தை கேச் செய்கின்றன . இது இயல்பானது. இது பயமாகத் தெரிகிறது, ஆனால் அது எப்போதும் கசிவு அல்ல. நீங்கள் வடிவங்களைப் படிக்கக் கற்றுக்கொள்கிறீர்கள். ( PyTorch CUDA சொற்பொருள்: கேச்சிங் ஒதுக்கீட்டாளர் )
நடைமுறைப் பழக்கம்:
-
ஒதுக்கப்பட்ட நினைவகத்திற்கு எதிராக ஒதுக்கப்பட்ட நினைவகம் (கட்டமைப்பு சார்ந்தது) ( PyTorch CUDA சொற்பொருள்: கேச்சிங் ஒதுக்குபவர் )
-
முதல் பயங்கரமான எண்ணைக் கேட்டு பதற வேண்டாம் 😅
8) GPU-வை உண்மையாகவே செயல்பட வைக்கவும் - உங்கள் நேரத்திற்கு மதிப்புள்ள செயல்திறன் சரிசெய்தல் 🏎️
"GPU பயிற்சி வேலை செய்ய வைப்பது" முதல் படி. அதை விரைவாகப் இரண்டாவது படி.
உயர்-தாக்க மேம்படுத்தல்கள்
-
தொகுதி அளவை அதிகரிக்கவும் (வலி வரும் வரை, பின்னர் சிறிது பின்வாங்கவும்)
-
டேட்டாலோடர்களில் பின் செய்யப்பட்ட நினைவகத்தைப் பயன்படுத்தவும் PyTorch செயல்திறன் சரிப்படுத்தும் வழிகாட்டி , PyTorch pin_memory/non_blocking பயிற்சி )
-
டேட்டாலோடர் பணியாளர்களை அதிகரிக்கவும் (கவனமாக இருங்கள், அதிகமானவை பின்வாங்கக்கூடும்) ( PyTorch செயல்திறன் சரிப்படுத்தும் வழிகாட்டி )
-
GPU செயலற்றதாக இல்லாதபடி தொகுப்புகளை முன்கூட்டியே பெறுக
-
கிடைக்கும்போது இணைக்கப்பட்ட செயல்பாடுகள் / உகந்ததாக்கப்பட்ட கர்னல்களைப் பயன்படுத்தவும்.
-
கலப்பு துல்லியத்தைப் பயன்படுத்தவும் (மீண்டும், அது மிகவும் நல்லது) ( PyTorch AMP ஆவணங்கள் )
மிகவும் கவனிக்கப்படாத சிக்கல்
உங்கள் சேமிப்பு மற்றும் முன் செயலாக்க குழாய். உங்கள் தரவுத்தொகுப்பு மிகப்பெரியதாகவும், மெதுவான வட்டில் சேமிக்கப்பட்டதாகவும் இருந்தால், உங்கள் GPU ஒரு விலையுயர்ந்த விண்வெளி ஹீட்டராக மாறும். மிகவும் மேம்பட்ட, மிகவும் பளபளப்பான விண்வெளி ஹீட்டராகும்.
மேலும், ஒரு சிறிய ஒப்புதல் வாக்குமூலம்: நான் ஒரு மாதிரியை ஒரு மணி நேரத்திற்கு "உகந்ததாக்கினேன்", அப்போதுதான் பதிவு செய்வது ஒரு தடையாக இருந்தது என்பதை உணர்ந்தேன். அதிகமாக அச்சிடுவது பயிற்சியை மெதுவாக்கும். ஆம், அது முடியும்.
9) மல்டி-ஜிபியு பயிற்சி - டிடிபி, என்சிசிஎல் மற்றும் குழப்பம் இல்லாமல் அளவிடுதல் 🧩🤝
அதிக வேகம் அல்லது பெரிய மாடல்களை நீங்கள் விரும்பினால், நீங்கள் பல-GPU-வைத் தேர்வுசெய்யத் தொடங்குவீர்கள். இங்குதான் விஷயங்கள் காரமாகின்றன.
பொதுவான அணுகுமுறைகள்
-
தரவு இணை (DDP)
-
GPU-களில் தொகுப்புகளைப் பிரித்து, சாய்வுகளை ஒத்திசைக்கவும்
-
பொதுவாக இயல்புநிலை "நல்ல" விருப்பம் ( PyTorch DDP ஆவணங்கள் )
-
-
மாதிரி இணை / டென்சர் இணை
-
மாதிரியை GPU-களில் பிரிக்கவும் (மிகப் பெரிய மாடல்களுக்கு)
-
-
குழாய் இணை
-
மாதிரி அடுக்குகளை நிலைகளாகப் பிரிக்கவும் (அசெம்பிளி லைன் போல, ஆனால் டென்சர்களுக்கு)
-
நீங்கள் தொடங்குகிறீர்கள் என்றால், DDP-பாணி பயிற்சி சிறந்த இடமாகும். ( PyTorch DDP பயிற்சி )
பல-GPU-க்களுக்கான நடைமுறை குறிப்புகள்
-
GPU-களும் இதேபோல் திறன் கொண்டவை என்பதை உறுதிப்படுத்திக் கொள்ளுங்கள் (கலப்பது தடையாக இருக்கும்)
-
இன்டர்கனெக்டைப் பாருங்கள்: ஒத்திசைவு-கனமான பணிச்சுமைகளுக்கு NVLink vs PCIe முக்கியமானது ( NVIDIA NVLink கண்ணோட்டம் , NVIDIA NVLink ஆவணங்கள் )
-
ஒவ்வொரு GPU தொகுதி அளவுகளையும் சமநிலையில் வைத்திருங்கள்
-
CPU மற்றும் சேமிப்பிடத்தைப் புறக்கணிக்காதீர்கள் - பல-GPU தரவு இடையூறுகளைப் பெருக்கும்
ஆம், NCCL பிழைகள் "ஏன் இப்போது" என்று மூடப்பட்ட ஒரு மர்மத்தில் மூடப்பட்ட ஒரு புதிர் போல உணரலாம். நீங்கள் சபிக்கப்பட்டவர் அல்ல. அநேகமாக. ( NCCL கண்ணோட்டம் )
10) கண்காணிப்பு மற்றும் விவரக்குறிப்பு - உங்கள் நேரத்தை மிச்சப்படுத்தும் கவர்ச்சியற்ற விஷயங்கள் 📈🧯
தொடங்குவதற்கு உங்களுக்கு ஆடம்பரமான டேஷ்போர்டுகள் தேவையில்லை. ஏதாவது செயலிழந்தால் நீங்கள் கவனிக்க வேண்டும்.
கவனிக்க வேண்டிய முக்கிய சமிக்ஞைகள்
-
GPU பயன்பாடு : இது தொடர்ந்து அதிகமாக உள்ளதா அல்லது கூர்மையாக உள்ளதா?
-
நினைவக பயன்பாடு : நிலையானதா, ஏறும் வேகமா அல்லது விசித்திரமா?
-
மின் நுகர்வு : வழக்கத்திற்கு மாறாக குறைவாக இருப்பது குறைவான பயன்பாட்டைக் குறிக்கும்.
-
வெப்பநிலை : நீடித்த அதிக வெப்பநிலை செயல்திறனைத் தடுக்கலாம்.
-
CPU பயன்பாடு : தரவு குழாய் சிக்கல்கள் இங்கே காட்டப்படும் ( PyTorch செயல்திறன் சரிப்படுத்தும் வழிகாட்டி )
சுயவிவர மனநிலை (எளிய பதிப்பு)
-
GPU பயன்பாடு குறைவாக இருந்தால் - தரவு அல்லது CPU சிக்கல்
-
GPU அதிகமாக இருந்தாலும் மெதுவாக இருந்தால் - கர்னல் திறமையின்மை, துல்லியம் அல்லது மாதிரி கட்டமைப்பு
-
பயிற்சி வேகம் சீரற்ற முறையில் குறைந்தால் - வெப்ப த்ரோட்லிங், பின்னணி செயல்முறைகள், I/O விக்கல்கள்
எனக்குத் தெரியும், கண்காணிப்பது வேடிக்கையாகத் தெரியவில்லை. ஆனால் அது பல் பல் துலக்குவது போன்றது. எரிச்சலூட்டும், பின்னர் திடீரென்று உங்கள் வாழ்க்கை மேம்படும்.
11) சரிசெய்தல் - வழக்கமான சந்தேக நபர்கள் (மற்றும் குறைவான வழக்கத்திற்கு மாறானவர்கள்) 🧰😵💫
இந்தப் பகுதி அடிப்படையில்: "எப்போதும் அதே ஐந்து இதழ்கள்."
சிக்கல்: CUDA நினைவகத்தில் இல்லை
திருத்தங்கள்:
-
தொகுதி அளவைக் குறைக்கவும்
-
கலப்பு துல்லியத்தைப் பயன்படுத்தவும் ( PyTorch AMP ஆவணங்கள் , TensorFlow கலப்பு துல்லிய வழிகாட்டி )
-
சாய்வு குவிப்பு ( டிரான்ஸ்ஃபார்மர்கள் பயிற்சி ஆவணங்கள் (சாய்வு குவிப்பு, fp16) )
-
சோதனைச் சாவடி செயல்படுத்தல்கள் ( torch.utils.checkpoint )
-
பிற GPU செயல்முறைகளை மூடு
சிக்கல்: பயிற்சி தற்செயலாக CPU-வில் இயங்குகிறது
திருத்தங்கள்:
-
cudaக்கு நகர்த்தப்படுவதை உறுதிசெய்க. -
cudaக்கு நகர்த்தப்படுவதை உறுதிசெய்க. -
கட்டமைப்பு சாதன கட்டமைப்பைச் சரிபார்க்கவும் ( PyTorch CUDA ஆவணங்கள் )
சிக்கல்: வித்தியாசமான செயலிழப்புகள் அல்லது சட்டவிரோத நினைவக அணுகல்
திருத்தங்கள்:
-
இயக்கி + இயக்க நேர இணக்கத்தன்மையை உறுதிப்படுத்தவும் ( PyTorch தொடங்கு (CUDA தேர்வி) , TensorFlow நிறுவல் (pip) )
-
சுத்தமான சூழலை முயற்சிக்கவும்
-
தனிப்பயன் செயல்பாடுகளைக் குறைக்கவும்
-
மீண்டும் உருவாக்க, நிர்ணயிக்கும்-இஷ் அமைப்புகளுடன் மீண்டும் இயக்கவும்
பிரச்சினை: எதிர்பார்த்ததை விட மெதுவாக
திருத்தங்கள்:
-
டேட்டாலோடர் செயல்திறனை சரிபார்க்கவும் ( PyTorch செயல்திறன் சரிப்படுத்தும் வழிகாட்டி )
-
தொகுதி அளவை அதிகரிக்கவும்
-
பதிவு செய்வதைக் குறைத்தல்
-
கலப்பு துல்லியத்தை இயக்கு ( PyTorch AMP ஆவணங்கள் )
-
சுயவிவரப் படி நேர விவரக்குறிப்பு
சிக்கல்: மல்டி-ஜிபியு செயலிழந்தது
திருத்தங்கள்:
-
சரியான பின்தள அமைப்புகளை உறுதிப்படுத்தவும் ( PyTorch விநியோகிக்கப்பட்ட ஆவணங்கள் )
-
NCCL சூழல் உள்ளமைவுகளைச் சரிபார்க்கவும் (கவனமாக) ( NCCL கண்ணோட்டம் )
-
முதலில் ஒற்றை GPU-வை சோதிக்கவும்
-
நெட்வொர்க் / இன்டர்கனெக்ட் ஆரோக்கியமாக இருப்பதை உறுதி செய்யவும்
ஒரு சிறிய பின்னோட்டக் குறிப்பு: சில நேரங்களில் பிழைத்திருத்தம் உண்மையில் மறுதொடக்கம் செய்வதாகும். இது முட்டாள்தனமாகத் தெரிகிறது. இது வேலை செய்கிறது. கணினிகள் அப்படித்தான்.
12) செலவு மற்றும் நடைமுறை - சரியான NVIDIA GPU-வைத் தேர்ந்தெடுத்து, அதிகமாக யோசிக்காமல் அமைத்தல் 💸🧠
ஒவ்வொரு திட்டத்திற்கும் மிகப்பெரிய GPU தேவையில்லை. சில நேரங்களில் உங்களுக்கு போதுமான GPU தேவைப்படும்.
நீங்கள் நடுத்தர மாடல்களை நன்றாகச் சரிசெய்கிறீர்கள் என்றால்
-
VRAM மற்றும் நிலைத்தன்மைக்கு முன்னுரிமை கொடுங்கள்
-
கலப்பு துல்லியம் நிறைய உதவுகிறது ( PyTorch AMP ஆவணங்கள் , TensorFlow கலப்பு துல்லிய வழிகாட்டி )
-
ஒரு வலுவான GPU-வை வைத்து நீங்கள் அடிக்கடி தப்பிக்கலாம்
நீங்கள் புதிதாக பெரிய மாடல்களைப் பயிற்சி செய்தால்
-
உங்களுக்கு பல GPUகள் அல்லது மிகப் பெரிய VRAM தேவைப்படும்
-
நீங்கள் NVLink மற்றும் தகவல் தொடர்பு வேகத்தைப் பற்றி கவலைப்படுவீர்கள் ( NVIDIA NVLink கண்ணோட்டம் , NCCL கண்ணோட்டம் )
-
நீங்கள் நினைவக உகப்பாக்கிகளைப் பயன்படுத்துவீர்கள் (ZeRO, ஆஃப்லோட், முதலியன) ( DeepSpeed ZeRO ஆவணங்கள் , மைக்ரோசாஃப்ட் ஆராய்ச்சி: ZeRO/DeepSpeed )
நீங்கள் பரிசோதனை செய்து கொண்டிருந்தால்
-
உங்களுக்கு வேகமான மறு செய்கை வேண்டும்
-
உங்கள் பணத்தை எல்லாம் GPU-வில் செலவழித்துவிட்டு, சேமிப்பகத்தையும் RAM-ஐயும் இழக்காதீர்கள்
-
ஒரு சமநிலையான அமைப்பு ஒரு சாய்வான அமைப்பை (பெரும்பாலான நாட்களில்) வெல்லும்
உண்மையில், நீங்கள் "சரியான" வன்பொருள் தேர்வுகளைத் துரத்தி வாரங்களை வீணடிக்கலாம். செயல்படக்கூடிய ஒன்றை உருவாக்குங்கள், அளவிடுங்கள், பின்னர் சரிசெய்யவும். உண்மையான எதிரி பின்னூட்ட வளையத்தைக் கொண்டிருக்கவில்லை.
இறுதிக் குறிப்புகள் - உங்கள் மனதை இழக்காமல் AI பயிற்சிக்கு NVIDIA GPU-களை எவ்வாறு பயன்படுத்துவது 😌✅
AI பயிற்சிக்கு NVIDIA GPU-களை எவ்வாறு பயன்படுத்துவது என்பது குறித்த இந்த வழிகாட்டியிலிருந்து வேறு எதையும் நீங்கள் எடுக்கவில்லை என்றால் , இதை எடுத்துக் கொள்ளுங்கள்:
-
முதலில்
என்விடியா-ஸ்மிஉறுதிசெய்து கொள்ளுங்கள் என்விடியா என்விடியா-ஸ்மி டாக்ஸ் ) -
ஒரு சுத்தமான மென்பொருள் பாதையைத் தேர்ந்தெடுக்கவும் (கட்டமைப்பு-தொகுக்கப்பட்ட CUDA பெரும்பாலும் எளிதானது) ( PyTorch தொடங்கப்பட்டது (CUDA தேர்வி) )
-
அளவை அதிகரிப்பதற்கு முன் ஒரு சிறிய GPU பயிற்சி ஓட்டத்தை சரிபார்க்கவும் ( torch.cuda.is_available )
-
வரையறுக்கப்பட்ட சரக்கறை அலமாரியைப் போல VRAM ஐ நிர்வகிக்கவும்
-
கலப்பு துல்லியத்தை முன்கூட்டியே பயன்படுத்துங்கள் - இது வெறும் “மேம்பட்ட விஷயங்கள்” அல்ல ( PyTorch AMP ஆவணங்கள் , TensorFlow கலப்பு துல்லிய வழிகாட்டி )
-
அது மெதுவாக இருந்தால், GPU ( PyTorch செயல்திறன் சரிப்படுத்தும் வழிகாட்டி )
-
மல்டி-ஜிபியு சக்தி வாய்ந்தது ஆனால் சிக்கலைச் சேர்க்கிறது - படிப்படியாக அளவிடவும் ( பைடார்ச் டிடிபி ஆவணங்கள் , என்சிசிஎல் கண்ணோட்டம் )
-
பயன்பாடு மற்றும் வெப்பநிலையைக் கண்காணிக்கவும், இதனால் சிக்கல்கள் சீக்கிரம் தோன்றும் ( NVIDIA nvidia-smi ஆவணங்கள் )
NVIDIA GPU-களில் பயிற்சி பெறுவது அச்சுறுத்தலாகத் தோன்றும் திறன்களில் ஒன்றாகும், பின்னர் திடீரென்று அது சாதாரணமானது. வாகனம் ஓட்டக் கற்றுக்கொள்வது போல. முதலில் எல்லாம் சத்தமாகவும் குழப்பமாகவும் இருக்கும், நீங்கள் சக்கரத்தை மிகவும் கடினமாகப் பிடித்துக் கொள்கிறீர்கள். பின்னர் ஒரு நாள் நீங்கள் பயணம் செய்கிறீர்கள், காபி குடிக்கிறீர்கள், ஒரு தொகுதி அளவு சிக்கலை சாதாரணமாக பிழைத்திருத்துகிறீர்கள், அது பெரிய விஷயமல்ல ☕😄
அடிக்கடி கேட்கப்படும் கேள்விகள்
NVIDIA GPU-வில் AI மாதிரியைப் பயிற்றுவிப்பது என்றால் என்ன?
NVIDIA GPU இல் பயிற்சி என்பது உங்கள் மாதிரி அளவுருக்கள் மற்றும் பயிற்சி தொகுதிகள் GPU VRAM இல் வாழ்கின்றன, மேலும் கனமான கணிதம் (முன்னோக்கி பாஸ், பேக்ப்ராப், ஆப்டிமைசர் படிகள்) CUDA கர்னல்கள் மூலம் இயங்குகிறது. நடைமுறையில், இது பெரும்பாலும் மாதிரி மற்றும் டென்சர்கள் cuda , பின்னர் நினைவகம், பயன்பாடு மற்றும் வெப்பநிலைகளைக் கண்காணித்து, செயல்திறன் சீராக இருக்கும்.
வேறு எதையும் நிறுவுவதற்கு முன் NVIDIA GPU செயல்படுவதை எவ்வாறு உறுதிப்படுத்துவது
nvidia-smi உடன் தொடங்குங்கள் . இது GPU பெயர், இயக்கி பதிப்பு, தற்போதைய நினைவக பயன்பாடு மற்றும் இயங்கும் செயல்முறைகளைக் காட்ட வேண்டும். nvidia-smi தோல்வியுற்றால், PyTorch/TensorFlow/JAX ஐ நிறுத்தி வைக்கவும் - முதலில் இயக்கி தெரிவுநிலையை சரிசெய்யவும். இது GPU பயிற்சிக்கான அடிப்படை “ஓவன் செருகப்பட்டதா” சரிபார்ப்பாகும்.
CUDA அமைப்புக்கும் PyTorch உடன் இணைக்கப்பட்ட CUDA க்கும் இடையே தேர்வு செய்தல்
ஒரு பொதுவான அணுகுமுறை கட்டமைப்பு-தொகுக்கப்பட்ட CUDA ஐப் பயன்படுத்துவதாகும் (பல PyTorch சக்கரங்களைப் போல) ஏனெனில் இது நகரும் பாகங்களைக் குறைக்கிறது - உங்களுக்கு முக்கியமாக இணக்கமான NVIDIA இயக்கி தேவை. முழு அமைப்பு CUDA கருவித்தொகுப்பை நிறுவுவது அதிக கட்டுப்பாட்டை வழங்குகிறது (தனிப்பயன் உருவாக்கங்கள், தொகுத்தல் செயல்பாடுகள்), ஆனால் இது பதிப்பு பொருந்தாத தன்மைகள் மற்றும் குழப்பமான இயக்க நேர பிழைகளுக்கு அதிக வாய்ப்புகளை அறிமுகப்படுத்துகிறது.
NVIDIA GPU இருந்தாலும் பயிற்சி ஏன் மெதுவாக இருக்க முடியும்?
பெரும்பாலும், GPU உள்ளீட்டு குழாய்த்திட்டத்தால் பட்டினி கிடக்கிறது. தாமதமாக வரும் டேட்டாலோடர்கள், பயிற்சி படிநிலைக்குள் அதிக CPU முன் செயலாக்கம், சிறிய தொகுதி அளவுகள் அல்லது மெதுவான சேமிப்பு அனைத்தும் ஒரு சக்திவாய்ந்த GPU ஐ செயலற்ற இடத்தை சூடாக்கி போல செயல்பட வைக்கும். டேட்டாலோடர் பணியாளர்களை அதிகரிப்பது, பின் செய்யப்பட்ட நினைவகத்தை இயக்குவது, முன்கூட்டியே பெறுவதைச் சேர்ப்பது மற்றும் பதிவை ஒழுங்கமைப்பது ஆகியவை மாதிரியைக் குறை கூறுவதற்கு முன் பொதுவான முதல் நகர்வுகள் ஆகும்.
NVIDIA GPU பயிற்சியின் போது "CUDA நினைவகத்தில் இல்லை" பிழைகளைத் தடுப்பது எப்படி?
பெரும்பாலான திருத்தங்கள் VRAM தந்திரோபாயங்களாகும்: தொகுதி அளவைக் குறைத்தல், கலப்பு துல்லியத்தை (FP16/BF16) இயக்குதல், சாய்வு குவிப்பைப் பயன்படுத்துதல், வரிசை நீளம்/பயிர் அளவைக் குறைத்தல் அல்லது செயல்படுத்தல் சோதனைச் சாவடியைப் பயன்படுத்துதல். நினைவகத்தை உட்கொள்ளும் பிற GPU செயல்முறைகளையும் சரிபார்க்கவும். சில சோதனை மற்றும் பிழை இயல்பானது - நடைமுறை GPU பயிற்சியில் VRAM பட்ஜெட் ஒரு முக்கிய பழக்கமாகிறது.
பயிற்சி ஸ்கிரிப்ட் முடிந்த பிறகும் VRAM ஏன் முழுதாகத் தெரிகிறது?
கட்டமைப்புகள் பெரும்பாலும் வேகத்திற்காக GPU நினைவகத்தை கேச் செய்கின்றன, எனவே ஒதுக்கப்பட்ட நினைவகம் குறைந்தாலும் கூட ஒதுக்கப்பட்ட நினைவகம் அதிகமாக இருக்கும். இது ஒரு கசிவை ஒத்திருக்கலாம், ஆனால் இது பெரும்பாலும் கேச்சிங் ஒதுக்கீட்டாளர் வடிவமைக்கப்பட்டபடி செயல்படுவதாகும். நடைமுறை பழக்கம் என்னவென்றால், காலப்போக்கில் பேட்டர்னைக் கண்காணித்து, ஒரு ஆபத்தான ஸ்னாப்ஷாட்டில் நிலைநிறுத்துவதற்குப் பதிலாக “ஒதுக்கப்பட்ட vs ஒதுக்கப்பட்ட” என்பதை ஒப்பிடுவதாகும்.
ஒரு மாடல் CPU-வில் அமைதியாக பயிற்சி பெறவில்லை என்பதை எவ்வாறு உறுதிப்படுத்துவது
Sanity-check early: confirm torch.cuda.is_available() returns True , verify next(model.parameters()).device shows cuda , and run single forward pass without errors. performance slow என சந்தேகித்தால், உங்கள் batches GPUக்கு நகர்த்தப்படுவதையும் உறுதிப்படுத்தவும். மாதிரியை நகர்த்துவதும், தற்செயலாக தரவை விட்டுச் செல்வதும் பொதுவானது.
பல-GPU பயிற்சிக்கான எளிய பாதை
டேட்டா பேரலல் (DDP-பாணி பயிற்சி) பெரும்பாலும் சிறந்த முதல் படியாகும்: GPU-களில் தொகுதிகளைப் பிரித்தல் மற்றும் ஒத்திசைவு சாய்வுகள். ஆக்சிலரேட் போன்ற கருவிகள் முழுமையாக மீண்டும் எழுதப்படாமல் பல-GPU-ஐ குறைவான வலிமிகுந்ததாக மாற்றும். கூடுதல் மாறிகளை எதிர்பார்க்கலாம் - NCCL தொடர்பு, ஒன்றோடொன்று இணைக்கப்பட்ட வேறுபாடுகள் (NVLink vs PCIe), மற்றும் பெருக்கப்பட்ட தரவு தடைகள் - எனவே ஒரு திடமான ஒற்றை-GPU இயக்கத்திற்குப் பிறகு படிப்படியாக அளவிடுதல் சிறப்பாகச் செல்லும்.
NVIDIA GPU பயிற்சியின் போது சிக்கல்களை முன்கூட்டியே கண்டறிய என்ன கண்காணிக்க வேண்டும்
GPU பயன்பாடு, நினைவக பயன்பாடு (நிலையானது vs ஏறுதல்), பவர் டிரா மற்றும் வெப்பநிலைகளைப் பாருங்கள் - த்ரோட்டில் செய்வது அமைதியாக வேகத்தைக் குறைக்கும். CPU பயன்பாட்டையும் கவனியுங்கள், ஏனெனில் டேட்டா பைப்லைன் பிரச்சனை பெரும்பாலும் முதலில் அங்கு தோன்றும். பயன்பாடு கூர்மையாகவோ அல்லது குறைவாகவோ இருந்தால், I/O அல்லது டேட்டாலோடர்களை சந்தேகிக்கவும்; அது அதிகமாக இருந்தாலும் படி நேரம் இன்னும் மெதுவாக இருந்தால், சுயவிவர கர்னல்கள், துல்லிய பயன்முறை மற்றும் படி-நேர முறிவு.
குறிப்புகள்
-
NVIDIA - NVIDIA nvidia-smi டாக்ஸ் - docs.nvidia.com
-
NVIDIA - NVIDIA சிஸ்டம் மேனேஜ்மென்ட் இன்டர்ஃபேஸ் (NVSMI) - developer.nvidia.com
-
NVIDIA - NVIDIA NVLink கண்ணோட்டம் - nvidia.com
-
PyTorch - PyTorch தொடங்கு (CUDA தேர்வி) - pytorch.org
-
பைடார்ச் - பைடார்ச் CUDA ஆவணங்கள் - docs.pytorch.org
-
டென்சர்ஃப்ளோ - டென்சர்ஃப்ளோ நிறுவல் (பிப்) - டென்சர்ஃப்ளோ.ஆர்.ஜி.
-
JAX - JAX விரைவு தொடக்கம் - docs.jax.dev
-
கட்டிப்பிடிக்கும் முகம் - பயிற்சியாளர் ஆவணங்கள் - huggingface.co
-
மின்னல் AI - மின்னல் ஆவணங்கள் - lightning.ai
-
டீப்ஸ்பீட் - ஜீரோ டாக்ஸ் - deepspeed.readthedocs.io
-
மைக்ரோசாஃப்ட் ஆராய்ச்சி - மைக்ரோசாஃப்ட் ஆராய்ச்சி: ZeRO/DeepSpeed - microsoft.com
-
PyTorch மன்றங்கள் - PyTorch மன்றம்: CUDA இல் மாதிரியைச் சரிபார்க்கவும் - discuss.pytorch.org