சுருக்கமான பதில்: AI மாதிரிகளை மேம்படுத்த, ஒரு முதன்மைக் கட்டுப்பாட்டைத் (தாமதம், செலவு, நினைவகம், தரம், நிலைத்தன்மை அல்லது செயல்திறன்) தேர்வு செய்யவும், பின்னர் எதையும் மாற்றுவதற்கு முன் நம்பகமான அடிப்படையைப் பிடிக்கவும். முதலில் பைப்லைன் தடைகளை நீக்கவும், பின்னர் கலப்பு துல்லியம் மற்றும் தொகுதிப்படுத்தல் போன்ற குறைந்த ஆபத்துள்ள ஆதாயங்களைப் பயன்படுத்தவும்; தரம் தொடர்ந்தால், தொகுப்பி/இயக்க நேர கருவிக்குச் சென்று, தேவைப்படும்போது அளவீடு அல்லது வடிகட்டுதல் மூலம் மாதிரி அளவைக் குறைக்கவும்.
முக்கிய குறிப்புகள்:
கட்டுப்பாடு : ஒன்று அல்லது இரண்டு இலக்கு அளவீடுகளைத் தேர்ந்தெடுக்கவும்; உகப்பாக்கம் என்பது பரிமாற்றங்களின் நிலப்பரப்பு, இலவச வெற்றிகள் அல்ல.
அளவீடு : p50/p95/p99, செயல்திறன், பயன்பாடு மற்றும் நினைவக உச்சங்களுடன் உண்மையான பணிச்சுமைகளை சுயவிவரப்படுத்தவும்.
பைப்லைன் : மாதிரியைத் தொடுவதற்கு முன் டோக்கனைசேஷன், டேட்டாலோடர்கள், முன் செயலாக்கம் மற்றும் தொகுதிப்படுத்தலை சரிசெய்யவும்.
பரிமாறுதல் : கேச்சிங், வேண்டுமென்றே பேட்சிங், கன்கரன்சி ட்யூனிங் ஆகியவற்றைப் பயன்படுத்தவும், மேலும் டெயில் லேட்டன்சியை உன்னிப்பாகக் கண்காணிக்கவும்.
கார்ட்ரெயில்கள் : ஒவ்வொரு செயல்திறன் மாற்றத்திற்குப் பிறகும் கோல்டன் ப்ராம்ட்கள், பணி அளவீடுகள் மற்றும் ஸ்பாட் சரிபார்ப்புகளை இயக்கவும்.

🔗 AI மாதிரிகளை திறம்பட மதிப்பிடுவது எப்படி
மாதிரிகளை நியாயமாகவும் நம்பகத்தன்மையுடனும் மதிப்பிடுவதற்கான முக்கிய அளவுகோல்கள் மற்றும் படிகள்.
🔗 உண்மையான அளவீடுகள் மூலம் AI செயல்திறனை எவ்வாறு அளவிடுவது
ஒப்பிடுவதற்கு அளவுகோல்கள், தாமதம், செலவு மற்றும் தர சமிக்ஞைகளைப் பயன்படுத்தவும்.
🔗 உற்பத்திக்கு முன் AI மாதிரிகளை எவ்வாறு சோதிப்பது
நடைமுறை சோதனை பணிப்பாய்வு: தரவுப் பிரிப்புகள், மன அழுத்த வழக்குகள் மற்றும் கண்காணிப்பு.
🔗 உள்ளடக்க உருவாக்கத்திற்கு AI ஐ எவ்வாறு பயன்படுத்துவது
கட்டமைக்கப்பட்ட அறிவுறுத்தல்கள் மற்றும் மறு செய்கைகள் மூலம் யோசனைகளை விரைவாக வரைவுகளாக மாற்றவும்.
1) நடைமுறையில் "Optimize" என்றால் என்ன (ஏனென்றால் எல்லோரும் அதை வித்தியாசமாகப் பயன்படுத்துகிறார்கள்) 🧠
"AI மாதிரியை மேம்படுத்து" என்று மக்கள் கூறும்போது, அவர்கள் அர்த்தம்:
-
வேகமாக்கு (தாமதத்தைக் குறை)
-
இதை மலிவாக ஆக்குங்கள் (குறைவான GPU-மணிநேரங்கள், குறைந்த கிளவுட் செலவு)
-
அதை சிறியதாக்கு (நினைவக தடம், விளிம்பு வரிசைப்படுத்தல்)
-
அதை இன்னும் துல்லியமாக்குங்கள் (தர மேம்பாடுகள், குறைவான பிரமைகள்)
-
அதை மேலும் நிலையானதாக மாற்றவும் (குறைவான மாறுபாடு, உற்பத்தியில் குறைவான தோல்விகள்)
-
சேவை செய்வதை எளிதாக்குங்கள் (செயல்திறன், தொகுதிப்படுத்தல், கணிக்கக்கூடிய செயல்திறன்)
லேசான எரிச்சலூட்டும் உண்மை இதுதான்: இவை அனைத்தையும் ஒரே நேரத்தில் அதிகப்படுத்த முடியாது. உகப்பாக்கம் என்பது ஒரு பலூனை அழுத்துவது போன்றது - ஒரு பக்கத்தை உள்ளே தள்ளினால் மற்றொரு பக்கம் வெளியே வரும். எப்போதும் இல்லை, ஆனால் அடிக்கடி போதுமான அளவு சமரசங்களுக்குத் திட்டமிட வேண்டும்.
எனவே எதையும் தொடும் முன், உங்கள் முதன்மை கட்டுப்பாட்டைத் :
-
நீங்கள் பயனர்களுக்கு நேரலையில் சேவை செய்கிறீர்கள் என்றால், p95 தாமதம் ( AWS CloudWatch சதவீதங்கள் ) மற்றும் டெயில் செயல்திறன் ( “டெயில் தாமதம்” சிறந்த நடைமுறை ) பற்றி நீங்கள் கவலைப்படுகிறீர்கள் 📉
-
நீங்கள் பயிற்சி பெறுகிறீர்கள் என்றால், தரத்திற்கான நேரம் மற்றும் GPU பயன்பாடு குறித்து நீங்கள் அக்கறை கொள்கிறீர்கள் 🔥
-
நீங்கள் சாதனங்களில் பயன்படுத்தினால், நீங்கள் ரேம் மற்றும் பவரைப் 🔋
2) AI மாடல் உகப்பாக்கத்தின் ஒரு நல்ல பதிப்பு எப்படி இருக்கிறது ✅
ஒரு நல்ல உகப்பாக்கம் என்பது வெறும் "அளவை நிர்ணயித்து பிரார்த்தனை செய்வது" மட்டுமல்ல. இது ஒரு அமைப்பு. சிறந்த அமைப்புகள் பொதுவாகக் கொண்டிருக்கும்:
-
நீங்கள் நம்பும் ஒரு அடிப்படை
உங்கள் தற்போதைய முடிவுகளை மீண்டும் உருவாக்க முடியாவிட்டால், நீங்கள் எதையும் மேம்படுத்தியுள்ளீர்கள் என்று உங்களுக்குத் தெரியாது. எளிமையானது… ஆனால் மக்கள் அதைத் தவிர்க்கிறார்கள். பின்னர் அவர்கள் சுழன்று கொண்டே இருப்பார்கள். -
என்ற தெளிவான இலக்கு அளவீடு
தெளிவற்றது. "அதே தர மதிப்பெண்ணில் p95 தாமதத்தை 900ms இலிருந்து 300ms ஆகக் குறைத்தல்" என்பது ஒரு உண்மையான இலக்காகும். -
தரத்திற்கான பாதுகாப்புத் தடுப்புகள்
ஒவ்வொரு செயல்திறன் வெற்றியும் ஒரு அமைதியான தர பின்னடைவை ஏற்படுத்தும். உங்களுக்கு சோதனைகள், மதிப்பீடுகள் அல்லது குறைந்தபட்சம் ஒரு நல்லறிவுத் தொகுப்பு தேவை. -
வன்பொருள் விழிப்புணர்வு
ஒரு GPU-வில் உள்ள "வேகமான" மாதிரி மற்றொன்றில் ஊர்ந்து செல்ல முடியும். CPU-க்கள் அவற்றின் சொந்த சிறப்பு வகையான குழப்பமாகும். -
மீண்டும் மீண்டும் மாற்றங்கள், ஒரு பெரிய அளவிலான மறுபதிப்பு அல்ல.
நீங்கள் ஒரே நேரத்தில் ஐந்து விஷயங்களை மாற்றி செயல்திறன் மேம்படும் போது, ஏன் என்று உங்களுக்குத் தெரியாது. இது... தொந்தரவாக இருக்கிறது.
ஆப்டிமைசேஷன் என்பது ஒரு கிதாரை ட்யூன் செய்வது போல இருக்க வேண்டும் - சிறிய மாற்றங்கள், கவனமாகக் கேளுங்கள், மீண்டும் சொல்லுங்கள் 🎸. கத்திகளை ஏமாற்றுவது போல் உணர்ந்தால், ஏதோ தவறு இருக்கிறது.
3) ஒப்பீட்டு அட்டவணை: AI மாதிரிகளை மேம்படுத்துவதற்கான பிரபலமான விருப்பங்கள் 📊
பொதுவான உகப்பாக்க கருவிகள்/அணுகுமுறைகளின் விரைவான மற்றும் சற்று அசுத்தமான ஒப்பீட்டு அட்டவணை கீழே உள்ளது. இல்லை, அது முற்றிலும் "நியாயமானது" அல்ல - நிஜ வாழ்க்கையும் அப்படி இல்லை.
| கருவி / விருப்பம் | பார்வையாளர்கள் | விலை | இது ஏன் வேலை செய்கிறது |
|---|---|---|---|
PyTorch torch.compile ( PyTorch ஆவணங்கள் ) |
பைடார்ச் நண்பர்களே | இலவசம் | வரைபடப் பிடிப்பு + தொகுப்பி தந்திரங்கள் மேல்நிலையைக் குறைக்கலாம்… சில நேரங்களில் அது மாயாஜாலமாக இருக்கும் ✨ |
| ONNX இயக்க நேரம் ( ONNX இயக்க நேர ஆவணங்கள் ) | வரிசைப்படுத்தல் குழுக்கள் | இலவசம் | வலுவான அனுமான மேம்படுத்தல்கள், பரந்த ஆதரவு, தரப்படுத்தப்பட்ட சேவைக்கு நல்லது |
| டென்சர்ஆர்டி ( என்விடியா டென்சர்ஆர்டி ஆவணங்கள் ) | NVIDIA பயன்பாடு | கட்டண வைப்கள் (பெரும்பாலும் தொகுக்கப்பட்டவை) | ஆக்ரோஷமான கர்னல் இணைவு + துல்லியமான கையாளுதல், கிளிக் செய்யும் போது மிக வேகமாக |
| டீப்ஸ்பீட் ( ஜீரோ டாக்ஸ் ) | பயிற்சி குழுக்கள் | இலவசம் | நினைவகம் + செயல்திறன் மேம்படுத்தல்கள் (ZeRO போன்றவை). ஜெட் எஞ்சின் போல உணர முடியும் |
| FSDP (PyTorch) ( PyTorch FSDP ஆவணங்கள் ) | பயிற்சி குழுக்கள் | இலவசம் | பெரிய மாடல்களை குறைவான பயமுறுத்தக்கூடியதாக மாற்றும் அளவுருக்கள்/சாய்வுத் துண்டுகள் |
| பிட்சாண்ட்பைட்ஸ் அளவீடு ( பிட்சாண்ட்பைட்ஸ் ) | எல்.எல்.எம் டிங்கரர்கள் | இலவசம் | குறைந்த பிட் எடைகள், அதிக நினைவக சேமிப்பு - தரம் சார்ந்தது, ஆனால் ஆஹா 😬 |
| வடிகட்டுதல் ( ஹிண்டன் மற்றும் பலர், 2015 ) | தயாரிப்பு குழுக்கள் | "நேரச் செலவு" | சிறிய மாணவர் மாதிரி நடத்தையைப் பெறுகிறது, பொதுவாக சிறந்த ROI நீண்ட காலத்திற்கு |
| PyTorch கத்தரித்தல் பயிற்சி (Pruning ) | ஆராய்ச்சி + தயாரிப்பு | இலவசம் | இறந்த எடையை நீக்குகிறது. மறுபயிற்சியுடன் இணைந்தால் சிறப்பாக செயல்படும் |
| ஃப்ளாஷ் அட்டென்ஷன் / இணைக்கப்பட்ட கர்னல்கள் ( ஃப்ளாஷ் அட்டென்ஷன் பேப்பர் ) | செயல்திறன் மேதாவிகள் | இலவசம் | வேகமான கவனம், சிறந்த நினைவாற்றல். மின்மாற்றிகளுக்கு உண்மையான வெற்றி |
| ட்ரைடன் இன்ஃபரன்ஸ் சர்வர் ( டைனமிக் பேட்சிங் ) | செயல்பாடுகள்/உள்துறை | இலவசம் | உற்பத்தி சேவை, தொகுதிப்படுத்தல், பல மாதிரி குழாய்வழிகள் - நிறுவனமாக உணர்கிறது |
வடிவமைத்தல் வினோதமான ஒப்புதல் வாக்குமூலம்: "விலை" என்பது ஒழுங்கற்றது, ஏனெனில் திறந்த மூலமானது இன்னும் ஒரு வார இறுதியில் பிழைத்திருத்தத்தை உங்களுக்குச் செலவழிக்கக்கூடும், அதாவது... ஒரு விலை. 😵💫
4) அளவீட்டில் தொடங்குங்கள்: நீங்கள் சொல்வது போல் சுயவிவரம் 🔍
இந்த முழு வழிகாட்டியிலிருந்தும் நீங்கள் ஒரே ஒரு விஷயத்தை மட்டுமே செய்தால், இதைச் செய்யுங்கள்: சரியாக அளவிடவும்.
என்னுடைய சொந்த சோதனையில், மிகப்பெரிய "உகப்பாக்க முன்னேற்றங்கள்" இது போன்ற சங்கடமான எளிமையான ஒன்றைக் கண்டுபிடித்ததிலிருந்து வந்தன:
-
தரவு ஏற்றி GPU ஐப் பட்டினி கிடக்கிறது
-
CPU முன் செயலாக்க சிக்கல்
-
சிறிய தொகுதி அளவுகள் கர்னல் மேல்நோக்கி ஏவப்படுவதற்கு காரணமாகின்றன
-
மெதுவான டோக்கனைசேஷன் (டோக்கனைசர்கள் அமைதியான வில்லன்களாக இருக்கலாம்)
-
நினைவக துண்டு துண்டாக மாற்றுதல் ( PyTorch CUDA நினைவக ஒதுக்கீட்டு குறிப்புகள் )
-
ஒற்றை அடுக்கு ஆதிக்கம் செலுத்தும் கணினி
என்ன அளவிட வேண்டும் (குறைந்தபட்ச தொகுப்பு)
-
தாமதம் (p50, p95, p99) ( தாமத சதவீதங்களில் SRE )
-
செயல்திறன் (டோக்கன்கள்/வினாடி, கோரிக்கைகள்/வினாடி)
-
GPU பயன்பாடு (கணக்கீடு + நினைவகம்)
-
VRAM / RAM உச்சங்கள்
-
1k டோக்கன்களுக்கான விலை (அல்லது அனுமானத்தின்படி)
நடைமுறை விவரக்குறிப்பு மனநிலை
-
நீங்கள் விரும்பும் ஒரு காட்சியை விவரக்குறிப்பு செய்யுங்கள் (பொம்மை அறிவுறுத்தல் அல்ல).
-
எல்லாவற்றையும் ஒரு சிறிய “perf ஜர்னலில்” பதிவு செய்யுங்கள்.
ஆம், இது சலிப்பானது... ஆனால் பின்னர் உங்களை எரிவாயு வெளிச்சத்தில் மூழ்கடிப்பதில் இருந்து காப்பாற்றுகிறது.
(தொடங்குவதற்கு ஒரு குறிப்பிட்ட கருவியை நீங்கள் விரும்பினால்: PyTorch Profiler ( torch.profiler docs ) மற்றும் Nsight Systems ( NVIDIA Nsight Systems ) ஆகியவை வழக்கமான சந்தேக நபர்கள்.)
5) தரவு + பயிற்சி உகப்பாக்கம்: அமைதியான வல்லரசு 📦🚀
மக்கள் மாதிரி கட்டமைப்பின் மீது வெறி கொண்டு பைப்லைனை மறந்து விடுகிறார்கள். இதற்கிடையில் பைப்லைன் அமைதியாக GPU-வில் பாதியை எரிக்கிறது.
விரைவாகக் காட்டப்படும் எளிதான வெற்றிகள்
-
கலப்பு துல்லியத்தைப் பயன்படுத்தவும் (நிலையான இடத்தில் FP16/BF16) ( PyTorch AMP / torch.amp )
பொதுவாக வேகமானது, பெரும்பாலும் நன்றாக இருக்கும் - ஆனால் எண் சார்ந்த வினோதங்களைக் கவனியுங்கள். -
தொகுதி அளவு குறைவாக இருக்கும்போது சாய்வு குவிப்பு 🤗 துரிதப்படுத்து வழிகாட்டி )
நினைவகம் வெடிக்காமல் உகப்பாக்கத்தை நிலையாக வைத்திருக்கிறது. -
சாய்வு சோதனைச் சாவடி ( torch.utils.checkpoint )
நினைவகத்திற்கான வர்த்தகக் கணக்கீடு - பெரிய சூழல்களை சாத்தியமாக்குகிறது. -
திறமையான டோக்கனைசேஷன் ( 🤗 டோக்கனைசர்கள் )
டோக்கனைசேஷன் அளவில் ஒரு தடையாக மாறக்கூடும். இது கவர்ச்சிகரமானதல்ல; அது முக்கியமானது. -
டேட்டாலோடர் ட்யூனிங்
அதிக வேலையாட்கள், பின் செய்யப்பட்ட நினைவகம், முன்கூட்டியே பெறுதல் - வெளிப்படையற்றது ஆனால் பயனுள்ளது 😴➡️💪 ( PyTorch செயல்திறன் ட்யூனிங் வழிகாட்டி )
அளவுரு-திறமையான ஃபைன்-ட்யூனிங்
நீங்கள் பெரிய மாடல்களை நன்றாகச் சரிசெய்தால், PEFT முறைகள் (LoRA-பாணி அடாப்டர்கள் போன்றவை) பயிற்சி செலவை பெருமளவில் குறைக்கலாம், அதே நேரத்தில் வியக்கத்தக்க வகையில் வலுவாக இருக்கும் ( 🤗 டிரான்ஸ்ஃபார்மர்ஸ் PEFT வழிகாட்டி , LoRA தாள் ). இது "நாம் இதை ஏன் முன்பே செய்யவில்லை?" என்ற கேள்விகளில் ஒன்றாகும்.
6) கட்டிடக்கலை-நிலை உகப்பாக்கம்: மாதிரியின் வலது-அளவை 🧩
சில நேரங்களில் மேம்படுத்துவதற்கான சிறந்த வழி... வேலைக்கு மிகப் பெரிய மாதிரியைப் பயன்படுத்துவதை நிறுத்துவதுதான். எனக்குத் தெரியும், புனிதமற்றது 😄.
சில அடிப்படை விஷயங்களுக்கு ஒரு அழைப்பு விடுங்கள்:
-
உங்களுக்கு முழுமையான பொது நுண்ணறிவு அதிர்வுகள் தேவையா அல்லது ஒரு நிபுணர் தேவையா என்பதை முடிவு செய்யுங்கள்.
-
சூழல் சாளரத்தை பெரிதாக அல்ல, தேவையான அளவு பெரியதாக வைத்திருங்கள்.
-
கையில் உள்ள வேலைக்கு பயிற்சி பெற்ற மாதிரியைப் பயன்படுத்தவும் (வகைப்படுத்தல் பணிக்கான வகைப்பாடு மாதிரிகள் மற்றும் பல).
நடைமுறை உரிமை-அளவிடல் உத்திகள்
-
பெரும்பாலான கோரிக்கைகளுக்கு
சிறிய மாதிரிக்கு மாறவும், பின்னர் "கடினமான வினவல்களை" ஒரு பெரிய மாதிரிக்கு வழிநடத்தவும். -
இரண்டு-நிலை அமைப்பைப் பயன்படுத்தவும்
வேகமான மாதிரி வரைவுகள், வலுவான மாதிரி சரிபார்ப்புகள் அல்லது திருத்தங்கள்.
இது ஒரு நண்பருடன் எழுதுவது போன்றது, அவர் ஆர்வமுள்ளவர் - எரிச்சலூட்டும், ஆனால் பயனுள்ளதாக இருக்கும். -
வெளியீட்டு நீளத்தைக் குறைக்கவும்
வெளியீட்டு டோக்கன்கள் பணத்தையும் நேரத்தையும் செலவழிக்கின்றன. உங்கள் மாதிரி தடுமாறினால், நீங்கள் தடுமாறலுக்கு பணம் செலுத்துவீர்கள்.
குறுகிய வெளியீடுகளைச் செயல்படுத்துவதன் மூலம் அணிகள் செலவுகளை வியத்தகு முறையில் குறைப்பதை நான் பார்த்திருக்கிறேன். இது அற்பமானது. இது வேலை செய்கிறது.
7) கம்பைலர் + கிராஃப் உகப்பாக்கம்: வேகம் எங்கிருந்து வருகிறது 🏎️
இது "கணினியை சிறந்த கணினி விஷயங்களைச் செய்யச் செய்" அடுக்கு.
பொதுவான நுட்பங்கள்:
-
ஆபரேட்டர் இணைவு (கர்னல்களை இணைத்தல்) ( NVIDIA TensorRT “லேயர் இணைவு” )
-
நிலையான மடிப்பு (நிலையான மதிப்புகளை முன்கூட்டியே கணக்கிடுதல்) ( ONNX இயக்க நேர வரைபட மேம்படுத்தல்கள் )
-
கர்னல் தேர்வு வன்பொருளுக்கு ஏற்றவாறு சரிசெய்யப்பட்டது.
-
பைதான் மேல்நிலையைக் குறைக்க வரைபடப் பிடிப்பு
torch.compileகண்ணோட்டம் )
எளிமையான வார்த்தைகளில் சொன்னால்: உங்கள் மாதிரி கணித ரீதியாக வேகமாக இருக்கலாம், ஆனால் செயல்பாட்டு ரீதியாக மெதுவாக இருக்கலாம். தொகுப்பிகள் அவற்றில் சிலவற்றை சரிசெய்கின்றன.
நடைமுறை குறிப்புகள் (வடுக்கள் என்றும் அழைக்கப்படுகின்றன)
-
இந்த மேம்படுத்தல்கள் மாதிரி வடிவ மாற்றங்களுக்கு உணர்திறன் கொண்டதாக இருக்கலாம்.
-
சில மாடல்கள் வேகத்தை அதிகரிக்கின்றன, சில அரிதாகவே அசைகின்றன.
-
சில நேரங்களில் நீங்கள் வேகத்தை அதிகரிப்பீர்கள், குழப்பமான பிழையைப் பெறுவீர்கள் - ஒரு கிரெம்ளின் உள்ளே நகர்ந்தது போல 🧌
இருப்பினும், அது வேலை செய்யும் போது, அது மிகவும் சுத்தமான வெற்றிகளில் ஒன்றாகும்.
8) அளவீடு, கத்தரித்தல், வடிகட்டுதல்: அழாமல் சிறியது (அதிகம்) 🪓📉
இதுதான் மக்கள் விரும்பும் பிரிவு... ஏனென்றால் இது இலவச செயல்திறன் போல் தெரிகிறது. அது இருக்கலாம், ஆனால் நீங்கள் அதை அறுவை சிகிச்சை போல நடத்த வேண்டும்.
அளவீடு (குறைந்த துல்லிய எடைகள்/செயல்படுத்தல்கள்)
-
அனுமான வேகம் மற்றும் நினைவாற்றலுக்கு சிறந்தது
-
ஆபத்து: தரம் குறைகிறது, குறிப்பாக விளிம்பு நிலைகளில்
-
சிறந்த பயிற்சி: உண்மையான சோதனைத் தொகுப்பில் மதிப்பீடு செய்யுங்கள், அதிர்வுகளை அல்ல
நீங்கள் கேள்விப்படும் பொதுவான சுவைகள்:
-
INT8 (பெரும்பாலும் திடமானது) ( டென்சர்ஆர்டி அளவிடப்பட்ட வகைகள் )
-
INT4 / குறைந்த-பிட் (பெரிய சேமிப்பு, தர ஆபத்து அதிகரிக்கிறது) ( பிட்ஸ் மற்றும் பைட்டுகள் கே-பிட் அளவுப்படுத்தல் )
-
கலப்பு அளவு (எல்லாவற்றுக்கும் ஒரே துல்லியம் தேவையில்லை)
கத்தரித்தல் (அளவுருக்களை அகற்று)
-
"முக்கியமற்ற" எடைகள் அல்லது கட்டமைப்புகளை நீக்குகிறது ( PyTorch கத்தரித்தல் பயிற்சி )
-
தரத்தை மீட்டெடுக்க பொதுவாக மறுபயிற்சி தேவை
-
மக்கள் நினைப்பதை விட சிறப்பாக செயல்படுகிறது... கவனமாகச் செய்யும்போது
வடிகட்டுதல் (மாணவர் ஆசிரியரிடமிருந்து கற்றுக்கொள்கிறார்)
இது எனக்கு மிகவும் பிடித்த நீண்ட கால நெம்புகோல். வடிகட்டுதல் இதேபோல் செயல்படும் ஒரு சிறிய மாதிரியை உருவாக்க முடியும், மேலும் இது பெரும்பாலும் தீவிர அளவீட்டை விட ( Distilling the Knowledge in a Neural Network ) நிலையானது.
ஒரு அபூரண உருவகம்: வடிகட்டுதல் என்பது ஒரு சிக்கலான சூப்பை ஒரு வடிகட்டி வழியாக ஊற்றி... ஒரு சிறிய சூப்பைப் பெறுவது போன்றது. சூப் எப்படி வேலை செய்கிறது என்பது அப்படி இல்லை, ஆனால் உங்களுக்கு யோசனை புரிகிறது 🍲.
9) சேவை மற்றும் அனுமானம்: உண்மையான போர் மண்டலம் 🧯
நீங்கள் ஒரு மாதிரியை "உகந்ததாக்கலாம்", ஆனால் அதை மோசமாக சேவை செய்யலாம். சேவை செய்வது என்பது தாமதம் மற்றும் செலவு உண்மையானதாக இருக்கும் இடமாகும்.
சேவை செய்வதே முக்கியம்
-
பேட்சிங்
த்ரோபுட்டை மேம்படுத்துகிறது. ஆனால் நீங்கள் அதை மிகைப்படுத்தினால் தாமதத்தை அதிகரிக்கிறது. அதை சமநிலைப்படுத்துங்கள். ( ட்ரைடன் டைனமிக் பேட்சிங் ) -
தற்காலிக சேமிப்பு
உடனடி தற்காலிக சேமிப்பு மற்றும் KV- தற்காலிக சேமிப்பு மறுபயன்பாடு மீண்டும் மீண்டும் நிகழும் சூழல்களுக்கு மிகப்பெரியதாக இருக்கும். ( KV தற்காலிக சேமிப்பு விளக்கம் ) -
மொத்த நேரம் ஒரே மாதிரியாக இருந்தாலும், ஸ்ட்ரீமிங் வெளியீடு -
டோக்கன்-பை-டோக்கன் மேல்நிலை குறைப்பு
சில அடுக்குகள் ஒவ்வொரு டோக்கனுக்கும் கூடுதல் வேலை செய்கின்றன. அந்த மேல்நிலையைக் குறைத்தால் நீங்கள் பெரிய அளவில் வெற்றி பெறுவீர்கள்.
டெயில் லேட்டன்ஸியைக் கவனியுங்கள்
உங்கள் p99 ஒரு பேரழிவாக இருக்கும்போது உங்கள் சராசரி நன்றாகத் தோன்றலாம். துரதிர்ஷ்டவசமாக, பயனர்கள் டெயிலில் வாழ்கின்றனர். ( “டெயில் தாமதம்” மற்றும் சராசரிகள் ஏன் பொய் சொல்கின்றன )
10) வன்பொருள்-விழிப்புணர்வு உகப்பாக்கம்: மாதிரியை இயந்திரத்துடன் பொருத்துங்கள் 🧰🖥️
வன்பொருள் விழிப்புணர்வு இல்லாமல் ஆப்டிமைஸ் செய்வது, டயர்களைச் சரிபார்க்காமல் ரேஸ் காரை டியூன் செய்வது போன்றது. நிச்சயமாக, நீங்கள் அதைச் செய்யலாம், ஆனால் அது கொஞ்சம் முட்டாள்தனமானது.
GPU பரிசீலனைகள்
-
நினைவக அலைவரிசை பெரும்பாலும் கட்டுப்படுத்தும் காரணியாகும், மூல கணக்கீடு அல்ல
-
பெரிய தொகுதி அளவுகள் உதவக்கூடும், அவை உதவாத வரை
-
கர்னல் இணைவு மற்றும் கவன மேம்படுத்தல்கள் மின்மாற்றிகளுக்கு மிகப்பெரியவை ( ஃப்ளாஷ்அட்டென்ஷன்: IO-அவேர் எக்ஸாக்ட் அட்டென்ஷன் )
CPU பரிசீலனைகள்
-
திரித்தல், திசையன்மயமாக்கல் மற்றும் நினைவக இருப்பிடம் மிகவும் முக்கியம்
-
டோக்கனைசேஷன் மேல்நிலை ஆதிக்கம் செலுத்தலாம் ( 🤗 "வேகமான" டோக்கனைசர்கள் )
-
GPU-வை விட உங்களுக்கு வேறுபட்ட அளவீட்டு உத்திகள் தேவைப்படலாம்
எட்ஜ் / மொபைல் பரிசீலனைகள்
-
நினைவக தடம் முன்னுரிமை முதலிடமாகிறது
-
சாதனங்கள்... மனநிலை சார்ந்தவை என்பதால் தாமத மாறுபாடு முக்கியமானது
-
சிறிய, சிறப்பு மாதிரிகள் பெரும்பாலும் பெரிய பொது மாதிரிகளை வெல்லும்
11) தரமான பாதுகாப்புத் தண்டவாளங்கள்: உங்களை ஒரு பிழையாக "மேம்படுத்திக் கொள்ளாதீர்கள்" 🧪
ஒவ்வொரு வேக வெற்றிக்கும் தரச் சரிபார்ப்பு தேவை. இல்லையெனில் நீங்கள் கொண்டாடுவீர்கள், பாராட்டுவீர்கள், பின்னர் "உதவியாளர் ஏன் திடீரென்று ஒரு கடற்கொள்ளையர் போல பேசுகிறார்?" போன்ற செய்தியைப் பெறுவீர்கள் 🏴☠️
நடைமுறைக் காவல் தண்டவாளங்கள்:
-
கோல்டன் ப்ராம்ட்கள் (நீங்கள் எப்போதும் சோதிக்கும் நிலையான ப்ராம்ட்களின் தொகுப்பு)
-
பணி அளவீடுகள் (துல்லியம், F1, BLEU, எது பொருந்துகிறதோ அது)
-
மனித இடச் சோதனைகள் (ஆம், சீரியஸாக)
-
பின்னடைவு வரம்புகள் ("X% க்கும் அதிகமான வீழ்ச்சி அனுமதிக்கப்படவில்லை")
தோல்வி முறைகளையும் கண்காணிக்கவும்:
-
வடிவமைத்தல் சறுக்கல்
-
மறுப்பு நடத்தை மாற்றங்கள்
-
மாயத்தோற்ற அதிர்வெண்
-
மறுமொழி நீளம் பணவீக்கம்
உகப்பாக்கம் நடத்தையை ஆச்சரியமான வழிகளில் மாற்றும். விசித்திரமாக. எரிச்சலூட்டும் விதமாக. கணிக்கக்கூடியதாக, பின்னோக்கிப் பார்க்கும்போது.
12) சரிபார்ப்புப் பட்டியல்: AI மாதிரிகளை படிப்படியாக மேம்படுத்துவது எப்படி ✅🤖
AI மாதிரிகளை எவ்வாறு மேம்படுத்துவது என்பதற்கான தெளிவான செயல்பாட்டு வரிசையை நீங்கள் விரும்பினால் , மக்களை விவேகத்துடன் வைத்திருக்க உதவும் பணிப்பாய்வு இங்கே:
-
வெற்றியை வரையறுக்கவும்
1-2 முதன்மை அளவீடுகளைத் தேர்ந்தெடுக்கவும் (தாமதம், செலவு, செயல்திறன், தரம்). -
அடிப்படை சுயவிவர உண்மையான பணிச்சுமைகளை அளவிடவும்
, பதிவு p50/p95, நினைவகம், செலவு. ( PyTorch சுயவிவரம் ) -
பைப்லைன் சிக்கல்களைச் சரிசெய்தல்
தரவு ஏற்றுதல், டோக்கனைசேஷன், முன் செயலாக்கம், தொகுதிப்படுத்துதல். -
குறைந்த ஆபத்துள்ள கம்ப்யூட் வெற்றிகளைப் பயன்படுத்துங்கள்
கலப்பு துல்லியம், கர்னல் மேம்படுத்தல்கள், சிறந்த பேட்சிங். -
தொகுப்பி/இயக்க நேர உகப்பாக்கங்களை முயற்சிக்கவும்
வரைபட பிடிப்பு, அனுமான இயக்க நேரங்கள், ஆபரேட்டர் இணைவு. (torch.compileபயிற்சி , ONNX இயக்க நேர ஆவணங்கள் ) -
மாதிரி செலவைக் குறைக்கவும்
கவனமாக அளவிடவும், முடிந்தால் காய்ச்சி வடிக்கவும், பொருத்தமாக இருந்தால் காய்ச்சி வெட்டவும். -
டியூன் சேவை
தற்காலிக சேமிப்பு, ஒத்திசைவு, சுமை சோதனை, டெயில் தாமத சரிசெய்தல்கள். -
தரத்தை சரிபார்க்கவும்
பின்னடைவு சோதனைகளை இயக்கி, வெளியீடுகளை அருகருகே ஒப்பிடவும். -
மீண்டும் மீண்டும் செய்
சிறிய மாற்றங்கள், தெளிவான குறிப்புகள், மீண்டும் செய். வெளிப்படையற்றது - பயனுள்ளது.
ஆம், இது "ரேக்குகளில் மிதிப்பதை எப்படி நிறுத்துவது" என்பது போல உணர்ந்தாலும், AI மாடல்களை எவ்வாறு மேம்படுத்துவது
13) பொதுவான தவறுகள் (எனவே நீங்கள் மற்றவர்களைப் போல அவற்றை மீண்டும் செய்ய வேண்டாம்) 🙃
-
அளவிடுவதற்கு முன் மேம்படுத்துதல்
நீங்கள் நேரத்தை வீணடிப்பீர்கள். பின்னர் நீங்கள் தவறான விஷயத்தை நம்பிக்கையுடன் மேம்படுத்துவீர்கள்... -
ஒற்றை அளவுகோலைத் துரத்துவது
அளவுகோல்கள் தவறவிடுவதன் மூலம் பொய் சொல்கின்றன. உங்கள் பணிச்சுமைதான் உண்மை. -
நினைவகத்தைப் புறக்கணிப்பது
நினைவகச் சிக்கல்களை மந்தநிலை, செயலிழப்பு மற்றும் நடுக்கத்திற்குக் காரணமாகிறது. ( PyTorch இல் CUDA நினைவகப் பயன்பாட்டைப் புரிந்துகொள்வது ) -
மிகைப்படுத்தப்பட்ட அளவு மிகைப்படுத்தல்
குறைந்த-பிட் அளவு ஆச்சரியமாக இருக்கலாம், ஆனால் முதலில் பாதுகாப்பான படிகளுடன் தொடங்குங்கள். -
திரும்பப் பெறும் திட்டம் இல்லை.
விரைவாகத் திரும்பப் பெற முடியாவிட்டால், ஒவ்வொரு முறையும் பயன்படுத்தும்போது மன அழுத்தம் ஏற்படும். மன அழுத்தம் பிழைகளை உருவாக்கும்.
இறுதிக் குறிப்புகள்: மேம்படுத்துவதற்கான மனித வழி 😌⚡
AI மாடல்களை எவ்வாறு மேம்படுத்துவது என்பது ஒரு ஹேக் அல்ல. இது ஒரு அடுக்கு செயல்முறை: அளவிடுதல், பைப்லைனை சரிசெய்தல், கம்பைலர்கள் மற்றும் இயக்க நேரங்களைப் பயன்படுத்துதல், டியூன் சர்விங் செய்தல், பின்னர் உங்களுக்குத் தேவைப்பட்டால் அளவீடு அல்லது வடிகட்டுதல் மூலம் மாதிரியைச் சுருக்கவும். படிப்படியாகச் செய்யுங்கள், தரமான பாதுகாப்புத் தடுப்புகளை வைத்திருங்கள், மேலும் "இது வேகமாக உணர்கிறது" என்பதை ஒரு அளவீடாக நம்ப வேண்டாம் (உங்கள் உணர்வுகள் அழகானவை, உங்கள் உணர்வுகள் ஒரு சுயவிவரம் அல்ல).
நீங்கள் குறுகிய பயணத்தை விரும்பினால்:
-
முதலில் அளவிடு 🔍
-
அடுத்து பைப்லைனை மேம்படுத்தவும் 🧵
-
பின்னர் மாதிரியை மேம்படுத்தவும் 🧠
-
பிறகு பரிமாறலை மேம்படுத்தவும் 🏗️
-
தர சோதனைகளை எப்போதும் வைத்திருங்கள் ✅
அது உதவினால், உங்களை நீங்களே நினைவுபடுத்திக் கொள்ளுங்கள்: இலக்கு ஒரு "சரியான மாதிரி" அல்ல. இலக்கு வேகமானது, மலிவு விலையில் உள்ளது மற்றும் இரவில் நீங்கள் தூங்கக்கூடிய அளவுக்கு நம்பகமானது... பெரும்பாலான இரவுகளில் 😴.
அடிக்கடி கேட்கப்படும் கேள்விகள்
நடைமுறையில் AI மாதிரியை மேம்படுத்துவது என்றால் என்ன?
"உகப்பாக்கம்" என்பது பொதுவாக ஒரு முதன்மை கட்டுப்பாட்டை மேம்படுத்துவதைக் குறிக்கிறது: தாமதம், செலவு, நினைவக தடம், துல்லியம், நிலைத்தன்மை அல்லது சேவை செயல்திறன். கடினமான பகுதி பரிமாற்றங்கள் - ஒரு பகுதியைத் தள்ளுவது மற்றொரு பகுதியை சிதைக்கக்கூடும். ஒரு நடைமுறை அணுகுமுறை என்னவென்றால், தெளிவான இலக்கைத் தேர்ந்தெடுத்து (p95 தாமதம் அல்லது தரத்திற்கான நேரம் போன்றவை) அதை நோக்கி மேம்படுத்துவதாகும். இலக்கு இல்லாமல், "மேம்படுத்துவது" எளிது, ஆனால் இன்னும் இழக்க நேரிடும்.
தரத்தை அமைதியாக பாதிக்காமல் AI மாடல்களை எவ்வாறு மேம்படுத்துவது
ஒவ்வொரு வேகம் அல்லது செலவு மாற்றத்தையும் ஒரு சாத்தியமான அமைதியான பின்னடைவாகக் கருதுங்கள். கோல்டன் ப்ராம்ட்கள், பணி அளவீடுகள் மற்றும் விரைவான மனித ஸ்பாட் சோதனைகள் போன்ற பாதுகாப்புத் தடுப்புகளைப் பயன்படுத்தவும். ஏற்றுக்கொள்ளக்கூடிய தர சறுக்கலுக்கான தெளிவான வரம்பை அமைத்து, வெளியீடுகளை அருகருகே ஒப்பிடவும். நீங்கள் அனுப்பிய பிறகு "இது வேகமானது" என்பது "உற்பத்தியில் ஏன் திடீரென்று விசித்திரமாக மாறியது?" என்று மாறுவதை இது தடுக்கிறது.
நீங்கள் மேம்படுத்தத் தொடங்குவதற்கு முன் என்ன அளவிட வேண்டும்
தாமத சதவீதங்கள் (p50, p95, p99), செயல்திறன் (டோக்கன்கள்/வினாடி அல்லது கோரிக்கைகள்/வினாடி), GPU பயன்பாடு மற்றும் உச்ச VRAM/RAM ஆகியவற்றுடன் தொடங்குங்கள். செலவு ஒரு தடையாக இருந்தால், அனுமானத்திற்கு அல்லது 1k டோக்கன்களுக்கு செலவைக் கண்காணிக்கவும். நீங்கள் வழங்கும் ஒரு உண்மையான சூழ்நிலையை விவரக்குறிப்பு செய்யுங்கள், ஒரு பொம்மை ப்ராம்ட் அல்ல. ஒரு சிறிய "perf ஜர்னல்" வைத்திருப்பது யூகிப்பதையும் மீண்டும் மீண்டும் தவறுகளைத் தவிர்ப்பதற்கும் உதவும்.
பயிற்சி செயல்திறனுக்கான விரைவான, குறைந்த ஆபத்து வெற்றிகள்
கலப்பு துல்லியம் (FP16/BF16) பெரும்பாலும் வேகமான முதல் நெம்புகோலாகும், ஆனால் எண் வினோதங்களைக் கவனியுங்கள். தொகுதி அளவு குறைவாக இருந்தால், சாய்வு குவிப்பு நினைவகத்தை ஊதாமல் உகப்பாக்கத்தை உறுதிப்படுத்த முடியும். சாய்வு சோதனைச் சாவடி குறைந்த நினைவகத்திற்கு கூடுதல் கணக்கீட்டை வர்த்தகம் செய்கிறது, இது பெரிய சூழல்களை செயல்படுத்துகிறது. டோக்கனைசேஷன் மற்றும் டேட்டாலோடர் ட்யூனிங்கை புறக்கணிக்காதீர்கள் - அவை GPU ஐ அமைதியாகப் பட்டினி போடலாம்.
torch.compile, ONNX Runtime அல்லது TensorRT ஐ எப்போது பயன்படுத்த வேண்டும்
இந்த கருவிகள் செயல்பாட்டு மேல்நிலையை இலக்காகக் கொண்டுள்ளன: வரைபடப் பிடிப்பு, கர்னல் இணைவு மற்றும் இயக்க நேர வரைபட உகப்பாக்கங்கள். அவை சுத்தமான அனுமான வேகங்களை வழங்க முடியும், ஆனால் முடிவுகள் மாதிரி வடிவம் மற்றும் வன்பொருளைப் பொறுத்து மாறுபடும். சில அமைப்புகள் மாயாஜாலம் போல உணர்கின்றன; மற்றவை அரிதாகவே நகரும். வடிவ மாற்றங்களுக்கும் அவ்வப்போது "கிரெம்லின்" பிழைகளுக்கும் உணர்திறனை எதிர்பார்க்கலாம் - உங்கள் உண்மையான பணிச்சுமையை முன்னும் பின்னும் அளவிடவும்.
அளவீடு செய்வது மதிப்புக்குரியதா, அதிக தூரம் செல்வதை எவ்வாறு தவிர்ப்பது
அளவீடு செய்வது நினைவகத்தைக் குறைத்து, குறிப்பாக INT8 உடன் அனுமானத்தை விரைவுபடுத்தக்கூடும், ஆனால் தரம் விளிம்பு நிலை நிகழ்வுகளில் நழுவக்கூடும். குறைந்த-பிட் விருப்பங்கள் (INT4/k-bit போன்றவை) அதிக ஆபத்துடன் பெரிய சேமிப்பைக் கொண்டுவருகின்றன. உண்மையான சோதனைத் தொகுப்பில் மதிப்பீடு செய்து வெளியீடுகளை ஒப்பிடுவதே பாதுகாப்பான பழக்கம், உள்ளுணர்வு அல்ல. முதலில் பாதுகாப்பான படிகளுடன் தொடங்குங்கள், பின்னர் தேவைப்பட்டால் மட்டுமே குறைந்த துல்லியத்திற்குச் செல்லுங்கள்.
மாதிரி அளவைக் குறைப்பதற்கான கத்தரித்தல் மற்றும் வடிகட்டுதல் ஆகியவற்றுக்கு இடையேயான வேறுபாடு
கத்தரித்தல் "இறந்த எடை" அளவுருக்களை நீக்குகிறது மற்றும் தரத்தை மீட்டெடுக்க பெரும்பாலும் மறு பயிற்சி தேவைப்படுகிறது, குறிப்பாக தீவிரமாகச் செய்யும்போது. வடிகட்டுதல் ஒரு சிறிய மாணவர் மாதிரியை ஒரு பெரிய ஆசிரியரின் நடத்தையைப் பிரதிபலிக்கப் பயிற்றுவிக்கிறது, மேலும் இது தீவிர அளவீட்டை விட வலுவான நீண்டகால ROI ஆக இருக்கலாம். இதேபோல் செயல்படும் மற்றும் நிலையானதாக இருக்கும் ஒரு சிறிய மாதிரியை நீங்கள் விரும்பினால், வடிகட்டுதல் பெரும்பாலும் தூய்மையான பாதையாகும்.
சேவை மேம்பாடுகள் மூலம் அனுமான செலவு மற்றும் தாமதத்தை எவ்வாறு குறைப்பது
சேவை என்பது உகப்பாக்கம் என்பது உறுதியானதாக மாறும் இடம்: பேட்சிங் செயல்திறனை அதிகரிக்கிறது, ஆனால் அதிகமாகச் செய்தால் தாமதத்தை பாதிக்கலாம், எனவே அதை கவனமாக டியூன் செய்யவும். சூழல்கள் மீண்டும் நிகழும்போது கேச்சிங் (உடனடி கேச்சிங் மற்றும் KV-கேச் மறுபயன்பாடு) மிகப்பெரியதாக இருக்கும். மொத்த நேரம் ஒரே மாதிரியாக இருந்தாலும் ஸ்ட்ரீமிங் வெளியீடு உணரப்பட்ட வேகத்தை மேம்படுத்துகிறது. உங்கள் அடுக்கில் டோக்கன்-பை-டோக்கன் ஓவர்ஹெடைப்பையும் பாருங்கள் - டோக்கனுக்கு சிறிய வேலை வேகமாகச் சேர்க்கிறது.
AI மாதிரிகளை மேம்படுத்தும்போது வால் தாமதம் ஏன் மிகவும் முக்கியமானது
p99 ஒரு பேரழிவாக இருக்கும்போது சராசரிகள் சிறப்பாகத் தோன்றலாம், மேலும் பயனர்கள் டெயிலில் வாழ முனைகிறார்கள். டெயில் லேட்டன்சி பெரும்பாலும் நடுக்கத்திலிருந்து வருகிறது: நினைவக துண்டு துண்டாக மாறுதல், CPU முன் செயலாக்க ஸ்பைக்குகள், டோக்கனைசேஷன் மந்தநிலைகள் அல்லது மோசமான பேட்சிங் நடத்தை. அதனால்தான் வழிகாட்டி சதவீதங்கள் மற்றும் உண்மையான பணிச்சுமைகளை வலியுறுத்துகிறது. நீங்கள் p50 ஐ மட்டும் மேம்படுத்தினால், "தோராயமாக மெதுவாக உணரும்" அனுபவத்தை நீங்கள் இன்னும் வழங்க முடியும்
குறிப்புகள்
-
அமேசான் வலை சேவைகள் (AWS) - AWS கிளவுட்வாட்ச் சதவீதங்கள் (புள்ளிவிவர வரையறைகள்) - docs.aws.amazon.com
-
கூகிள் - தி டெயில் அட் ஸ்கேல் (டெயில் லேட்டன்சி சிறந்த பயிற்சி) - sre.google
-
கூகிள் - சேவை நிலை நோக்கங்கள் (SRE புத்தகம்) - தாமத சதவீதங்கள் - sre.google
-
பைடார்ச் - டார்ச்.தொகுப்பு - docs.pytorch.org
-
பைடார்ச் - FullyShardedDataParallel (FSDP) - docs.pytorch.org
-
PyTorch - PyTorch விவரக்குறிப்பு - docs.pytorch.org
-
PyTorch - CUDA சொற்பொருள்: நினைவக மேலாண்மை (CUDA நினைவக ஒதுக்கீட்டு குறிப்புகள்) - docs.pytorch.org
-
பைடார்ச் - தானியங்கி கலப்பு துல்லியம் (torch.amp / AMP) - docs.pytorch.org
-
பைடார்ச் - torch.utils.checkpoint - docs.pytorch.org
-
PyTorch - செயல்திறன் சரிப்படுத்தும் வழிகாட்டி - docs.pytorch.org
-
பைடார்ச் - கத்தரிக்காய் கத்தரித்தல் பயிற்சி - docs.pytorch.org
-
PyTorch - PyTorch இல் CUDA நினைவக பயன்பாட்டைப் புரிந்துகொள்வது - docs.pytorch.org
-
PyTorch - torch.compile பயிற்சி / கண்ணோட்டம் - docs.pytorch.org
-
ONNX இயக்க நேரம் - ONNX இயக்க நேர ஆவணம் - onnxruntime.ai
-
NVIDIA - TensorRT ஆவணம் - docs.nvidia.com
-
NVIDIA - TensorRT அளவிடப்பட்ட வகைகள் - docs.nvidia.com
-
NVIDIA - Nsight Systems - developer.nvidia.com
-
NVIDIA - ட்ரைடன் இன்ஃபரன்ஸ் சர்வர் - டைனமிக் பேட்சிங் - docs.nvidia.com
-
DeepSpeed - ZeRO நிலை 3 ஆவணங்கள் - deepspeed.readthedocs.io
-
பிட்சாண்ட்பைட்ஸ் (பிட்சாண்ட்பைட்ஸ்-அடித்தளம்) - பிட்சாண்ட்பைட்ஸ் - கிதுப்.காம்
-
முகத்தை கட்டிப்பிடித்தல் - முடுக்கிவிடுதல்: சாய்வு திரட்டல் வழிகாட்டி - huggingface.co
-
முகத்தை கட்டிப்பிடிப்பது - டோக்கனைசர்கள் ஆவணங்கள் - huggingface.co
-
கட்டிப்பிடிக்கும் முகம் - மின்மாற்றிகள்: PEFT வழிகாட்டி - huggingface.co
-
கட்டிப்பிடிக்கும் முகம் - மின்மாற்றிகள்: KV கேச் விளக்கம் - huggingface.co
-
கட்டிப்பிடிக்கும் முகம் - மின்மாற்றிகள்: “வேகமான” டோக்கனைசர்கள் (டோக்கனைசர் வகுப்புகள்) - huggingface.co
-
arXiv - ஒரு நரம்பியல் வலையமைப்பில் அறிவை வடிகட்டுதல் (ஹின்டன் மற்றும் பலர், 2015) - arxiv.org
-
arXiv - LoRA: பெரிய மொழி மாதிரிகளின் குறைந்த-தர தழுவல் - arxiv.org
-
arXiv - FlashAttention: IO-விழிப்புணர்வுடன் கூடிய வேகமான மற்றும் நினைவாற்றல் மிக்க துல்லியமான கவனம் - arxiv.org