AI மாதிரிகளை எவ்வாறு மேம்படுத்துவது

AI மாதிரிகளை எவ்வாறு மேம்படுத்துவது

சுருக்கமான பதில்: AI மாதிரிகளை மேம்படுத்த, ஒரு முதன்மைக் கட்டுப்பாட்டைத் (தாமதம், செலவு, நினைவகம், தரம், நிலைத்தன்மை அல்லது செயல்திறன்) தேர்வு செய்யவும், பின்னர் எதையும் மாற்றுவதற்கு முன் நம்பகமான அடிப்படையைப் பிடிக்கவும். முதலில் பைப்லைன் தடைகளை நீக்கவும், பின்னர் கலப்பு துல்லியம் மற்றும் தொகுதிப்படுத்தல் போன்ற குறைந்த ஆபத்துள்ள ஆதாயங்களைப் பயன்படுத்தவும்; தரம் தொடர்ந்தால், தொகுப்பி/இயக்க நேர கருவிக்குச் சென்று, தேவைப்படும்போது அளவீடு அல்லது வடிகட்டுதல் மூலம் மாதிரி அளவைக் குறைக்கவும்.

முக்கிய குறிப்புகள்:

கட்டுப்பாடு : ஒன்று அல்லது இரண்டு இலக்கு அளவீடுகளைத் தேர்ந்தெடுக்கவும்; உகப்பாக்கம் என்பது பரிமாற்றங்களின் நிலப்பரப்பு, இலவச வெற்றிகள் அல்ல.

அளவீடு : p50/p95/p99, செயல்திறன், பயன்பாடு மற்றும் நினைவக உச்சங்களுடன் உண்மையான பணிச்சுமைகளை சுயவிவரப்படுத்தவும்.

பைப்லைன் : மாதிரியைத் தொடுவதற்கு முன் டோக்கனைசேஷன், டேட்டாலோடர்கள், முன் செயலாக்கம் மற்றும் தொகுதிப்படுத்தலை சரிசெய்யவும்.

பரிமாறுதல் : கேச்சிங், வேண்டுமென்றே பேட்சிங், கன்கரன்சி ட்யூனிங் ஆகியவற்றைப் பயன்படுத்தவும், மேலும் டெயில் லேட்டன்சியை உன்னிப்பாகக் கண்காணிக்கவும்.

கார்ட்ரெயில்கள் : ஒவ்வொரு செயல்திறன் மாற்றத்திற்குப் பிறகும் கோல்டன் ப்ராம்ட்கள், பணி அளவீடுகள் மற்றும் ஸ்பாட் சரிபார்ப்புகளை இயக்கவும்.

AI மாதிரிகளை எவ்வாறு மேம்படுத்துவது என்பது குறித்த தகவல் வரைபடம்

🔗 AI மாதிரிகளை திறம்பட மதிப்பிடுவது எப்படி
மாதிரிகளை நியாயமாகவும் நம்பகத்தன்மையுடனும் மதிப்பிடுவதற்கான முக்கிய அளவுகோல்கள் மற்றும் படிகள்.

🔗 உண்மையான அளவீடுகள் மூலம் AI செயல்திறனை எவ்வாறு அளவிடுவது
ஒப்பிடுவதற்கு அளவுகோல்கள், தாமதம், செலவு மற்றும் தர சமிக்ஞைகளைப் பயன்படுத்தவும்.

🔗 உற்பத்திக்கு முன் AI மாதிரிகளை எவ்வாறு சோதிப்பது
நடைமுறை சோதனை பணிப்பாய்வு: தரவுப் பிரிப்புகள், மன அழுத்த வழக்குகள் மற்றும் கண்காணிப்பு.

🔗 உள்ளடக்க உருவாக்கத்திற்கு AI ஐ எவ்வாறு பயன்படுத்துவது
கட்டமைக்கப்பட்ட அறிவுறுத்தல்கள் மற்றும் மறு செய்கைகள் மூலம் யோசனைகளை விரைவாக வரைவுகளாக மாற்றவும்.


1) நடைமுறையில் "Optimize" என்றால் என்ன (ஏனென்றால் எல்லோரும் அதை வித்தியாசமாகப் பயன்படுத்துகிறார்கள்) 🧠

"AI மாதிரியை மேம்படுத்து" என்று மக்கள் கூறும்போது, ​​அவர்கள் அர்த்தம்:

  • வேகமாக்கு (தாமதத்தைக் குறை)

  • இதை மலிவாக ஆக்குங்கள் (குறைவான GPU-மணிநேரங்கள், குறைந்த கிளவுட் செலவு)

  • அதை சிறியதாக்கு (நினைவக தடம், விளிம்பு வரிசைப்படுத்தல்)

  • அதை இன்னும் துல்லியமாக்குங்கள் (தர மேம்பாடுகள், குறைவான பிரமைகள்)

  • அதை மேலும் நிலையானதாக மாற்றவும் (குறைவான மாறுபாடு, உற்பத்தியில் குறைவான தோல்விகள்)

  • சேவை செய்வதை எளிதாக்குங்கள் (செயல்திறன், தொகுதிப்படுத்தல், கணிக்கக்கூடிய செயல்திறன்)

லேசான எரிச்சலூட்டும் உண்மை இதுதான்: இவை அனைத்தையும் ஒரே நேரத்தில் அதிகப்படுத்த முடியாது. உகப்பாக்கம் என்பது ஒரு பலூனை அழுத்துவது போன்றது - ஒரு பக்கத்தை உள்ளே தள்ளினால் மற்றொரு பக்கம் வெளியே வரும். எப்போதும் இல்லை, ஆனால் அடிக்கடி போதுமான அளவு சமரசங்களுக்குத் திட்டமிட வேண்டும்.

எனவே எதையும் தொடும் முன், உங்கள் முதன்மை கட்டுப்பாட்டைத் :

  • நீங்கள் பயனர்களுக்கு நேரலையில் சேவை செய்கிறீர்கள் என்றால், p95 தாமதம் ( AWS CloudWatch சதவீதங்கள் ) மற்றும் டெயில் செயல்திறன் ( “டெயில் தாமதம்” சிறந்த நடைமுறை ) பற்றி நீங்கள் கவலைப்படுகிறீர்கள் 📉

  • நீங்கள் பயிற்சி பெறுகிறீர்கள் என்றால், தரத்திற்கான நேரம் மற்றும் GPU பயன்பாடு குறித்து நீங்கள் அக்கறை கொள்கிறீர்கள் 🔥

  • நீங்கள் சாதனங்களில் பயன்படுத்தினால், நீங்கள் ரேம் மற்றும் பவரைப் 🔋


2) AI மாடல் உகப்பாக்கத்தின் ஒரு நல்ல பதிப்பு எப்படி இருக்கிறது ✅

ஒரு நல்ல உகப்பாக்கம் என்பது வெறும் "அளவை நிர்ணயித்து பிரார்த்தனை செய்வது" மட்டுமல்ல. இது ஒரு அமைப்பு. சிறந்த அமைப்புகள் பொதுவாகக் கொண்டிருக்கும்:

  • நீங்கள் நம்பும் ஒரு அடிப்படை
    உங்கள் தற்போதைய முடிவுகளை மீண்டும் உருவாக்க முடியாவிட்டால், நீங்கள் எதையும் மேம்படுத்தியுள்ளீர்கள் என்று உங்களுக்குத் தெரியாது. எளிமையானது… ஆனால் மக்கள் அதைத் தவிர்க்கிறார்கள். பின்னர் அவர்கள் சுழன்று கொண்டே இருப்பார்கள்.

  • என்ற தெளிவான இலக்கு அளவீடு
    தெளிவற்றது. "அதே தர மதிப்பெண்ணில் p95 தாமதத்தை 900ms இலிருந்து 300ms ஆகக் குறைத்தல்" என்பது ஒரு உண்மையான இலக்காகும்.

  • தரத்திற்கான பாதுகாப்புத் தடுப்புகள்
    ஒவ்வொரு செயல்திறன் வெற்றியும் ஒரு அமைதியான தர பின்னடைவை ஏற்படுத்தும். உங்களுக்கு சோதனைகள், மதிப்பீடுகள் அல்லது குறைந்தபட்சம் ஒரு நல்லறிவுத் தொகுப்பு தேவை.

  • வன்பொருள் விழிப்புணர்வு
    ஒரு GPU-வில் உள்ள "வேகமான" மாதிரி மற்றொன்றில் ஊர்ந்து செல்ல முடியும். CPU-க்கள் அவற்றின் சொந்த சிறப்பு வகையான குழப்பமாகும்.

  • மீண்டும் மீண்டும் மாற்றங்கள், ஒரு பெரிய அளவிலான மறுபதிப்பு அல்ல.
    நீங்கள் ஒரே நேரத்தில் ஐந்து விஷயங்களை மாற்றி செயல்திறன் மேம்படும் போது, ​​ஏன் என்று உங்களுக்குத் தெரியாது. இது... தொந்தரவாக இருக்கிறது.

ஆப்டிமைசேஷன் என்பது ஒரு கிதாரை ட்யூன் செய்வது போல இருக்க வேண்டும் - சிறிய மாற்றங்கள், கவனமாகக் கேளுங்கள், மீண்டும் சொல்லுங்கள் 🎸. கத்திகளை ஏமாற்றுவது போல் உணர்ந்தால், ஏதோ தவறு இருக்கிறது.


3) ஒப்பீட்டு அட்டவணை: AI மாதிரிகளை மேம்படுத்துவதற்கான பிரபலமான விருப்பங்கள் 📊

பொதுவான உகப்பாக்க கருவிகள்/அணுகுமுறைகளின் விரைவான மற்றும் சற்று அசுத்தமான ஒப்பீட்டு அட்டவணை கீழே உள்ளது. இல்லை, அது முற்றிலும் "நியாயமானது" அல்ல - நிஜ வாழ்க்கையும் அப்படி இல்லை.

கருவி / விருப்பம் பார்வையாளர்கள் விலை இது ஏன் வேலை செய்கிறது
PyTorch torch.compile ( PyTorch ஆவணங்கள் ) பைடார்ச் நண்பர்களே இலவசம் வரைபடப் பிடிப்பு + தொகுப்பி தந்திரங்கள் மேல்நிலையைக் குறைக்கலாம்… சில நேரங்களில் அது மாயாஜாலமாக இருக்கும் ✨
ONNX இயக்க நேரம் ( ONNX இயக்க நேர ஆவணங்கள் ) வரிசைப்படுத்தல் குழுக்கள் இலவசம் வலுவான அனுமான மேம்படுத்தல்கள், பரந்த ஆதரவு, தரப்படுத்தப்பட்ட சேவைக்கு நல்லது
டென்சர்ஆர்டி ( என்விடியா டென்சர்ஆர்டி ஆவணங்கள் ) NVIDIA பயன்பாடு கட்டண வைப்கள் (பெரும்பாலும் தொகுக்கப்பட்டவை) ஆக்ரோஷமான கர்னல் இணைவு + துல்லியமான கையாளுதல், கிளிக் செய்யும் போது மிக வேகமாக
டீப்ஸ்பீட் ( ஜீரோ டாக்ஸ் ) பயிற்சி குழுக்கள் இலவசம் நினைவகம் + செயல்திறன் மேம்படுத்தல்கள் (ZeRO போன்றவை). ஜெட் எஞ்சின் போல உணர முடியும்
FSDP (PyTorch) ( PyTorch FSDP ஆவணங்கள் ) பயிற்சி குழுக்கள் இலவசம் பெரிய மாடல்களை குறைவான பயமுறுத்தக்கூடியதாக மாற்றும் அளவுருக்கள்/சாய்வுத் துண்டுகள்
பிட்சாண்ட்பைட்ஸ் அளவீடு ( பிட்சாண்ட்பைட்ஸ் ) எல்.எல்.எம் டிங்கரர்கள் இலவசம் குறைந்த பிட் எடைகள், அதிக நினைவக சேமிப்பு - தரம் சார்ந்தது, ஆனால் ஆஹா 😬
வடிகட்டுதல் ( ஹிண்டன் மற்றும் பலர், 2015 ) தயாரிப்பு குழுக்கள் "நேரச் செலவு" சிறிய மாணவர் மாதிரி நடத்தையைப் பெறுகிறது, பொதுவாக சிறந்த ROI நீண்ட காலத்திற்கு
PyTorch கத்தரித்தல் பயிற்சி (Pruning ) ஆராய்ச்சி + தயாரிப்பு இலவசம் இறந்த எடையை நீக்குகிறது. மறுபயிற்சியுடன் இணைந்தால் சிறப்பாக செயல்படும்
ஃப்ளாஷ் அட்டென்ஷன் / இணைக்கப்பட்ட கர்னல்கள் ( ஃப்ளாஷ் அட்டென்ஷன் பேப்பர் ) செயல்திறன் மேதாவிகள் இலவசம் வேகமான கவனம், சிறந்த நினைவாற்றல். மின்மாற்றிகளுக்கு உண்மையான வெற்றி
ட்ரைடன் இன்ஃபரன்ஸ் சர்வர் ( டைனமிக் பேட்சிங் ) செயல்பாடுகள்/உள்துறை இலவசம் உற்பத்தி சேவை, தொகுதிப்படுத்தல், பல மாதிரி குழாய்வழிகள் - நிறுவனமாக உணர்கிறது

வடிவமைத்தல் வினோதமான ஒப்புதல் வாக்குமூலம்: "விலை" என்பது ஒழுங்கற்றது, ஏனெனில் திறந்த மூலமானது இன்னும் ஒரு வார இறுதியில் பிழைத்திருத்தத்தை உங்களுக்குச் செலவழிக்கக்கூடும், அதாவது... ஒரு விலை. 😵💫


4) அளவீட்டில் தொடங்குங்கள்: நீங்கள் சொல்வது போல் சுயவிவரம் 🔍

இந்த முழு வழிகாட்டியிலிருந்தும் நீங்கள் ஒரே ஒரு விஷயத்தை மட்டுமே செய்தால், இதைச் செய்யுங்கள்: சரியாக அளவிடவும்.

என்னுடைய சொந்த சோதனையில், மிகப்பெரிய "உகப்பாக்க முன்னேற்றங்கள்" இது போன்ற சங்கடமான எளிமையான ஒன்றைக் கண்டுபிடித்ததிலிருந்து வந்தன:

  • தரவு ஏற்றி GPU ஐப் பட்டினி கிடக்கிறது

  • CPU முன் செயலாக்க சிக்கல்

  • சிறிய தொகுதி அளவுகள் கர்னல் மேல்நோக்கி ஏவப்படுவதற்கு காரணமாகின்றன

  • மெதுவான டோக்கனைசேஷன் (டோக்கனைசர்கள் அமைதியான வில்லன்களாக இருக்கலாம்)

  • நினைவக துண்டு துண்டாக மாற்றுதல் ( PyTorch CUDA நினைவக ஒதுக்கீட்டு குறிப்புகள் )

  • ஒற்றை அடுக்கு ஆதிக்கம் செலுத்தும் கணினி

என்ன அளவிட வேண்டும் (குறைந்தபட்ச தொகுப்பு)

  • தாமதம் (p50, p95, p99) ( தாமத சதவீதங்களில் SRE )

  • செயல்திறன் (டோக்கன்கள்/வினாடி, கோரிக்கைகள்/வினாடி)

  • GPU பயன்பாடு (கணக்கீடு + நினைவகம்)

  • VRAM / RAM உச்சங்கள்

  • 1k டோக்கன்களுக்கான விலை (அல்லது அனுமானத்தின்படி)

நடைமுறை விவரக்குறிப்பு மனநிலை

  • நீங்கள் விரும்பும் ஒரு காட்சியை விவரக்குறிப்பு செய்யுங்கள் (பொம்மை அறிவுறுத்தல் அல்ல).

  • எல்லாவற்றையும் ஒரு சிறிய “perf ஜர்னலில்” பதிவு செய்யுங்கள்.
    ஆம், இது சலிப்பானது... ஆனால் பின்னர் உங்களை எரிவாயு வெளிச்சத்தில் மூழ்கடிப்பதில் இருந்து காப்பாற்றுகிறது.

(தொடங்குவதற்கு ஒரு குறிப்பிட்ட கருவியை நீங்கள் விரும்பினால்: PyTorch Profiler ( torch.profiler docs ) மற்றும் Nsight Systems ( NVIDIA Nsight Systems ) ஆகியவை வழக்கமான சந்தேக நபர்கள்.)


5) தரவு + பயிற்சி உகப்பாக்கம்: அமைதியான வல்லரசு 📦🚀

மக்கள் மாதிரி கட்டமைப்பின் மீது வெறி கொண்டு பைப்லைனை மறந்து விடுகிறார்கள். இதற்கிடையில் பைப்லைன் அமைதியாக GPU-வில் பாதியை எரிக்கிறது.

விரைவாகக் காட்டப்படும் எளிதான வெற்றிகள்

  • கலப்பு துல்லியத்தைப் பயன்படுத்தவும் (நிலையான இடத்தில் FP16/BF16) ( PyTorch AMP / torch.amp )
    பொதுவாக வேகமானது, பெரும்பாலும் நன்றாக இருக்கும் - ஆனால் எண் சார்ந்த வினோதங்களைக் கவனியுங்கள்.

  • தொகுதி அளவு குறைவாக இருக்கும்போது சாய்வு குவிப்பு 🤗 துரிதப்படுத்து வழிகாட்டி )
    நினைவகம் வெடிக்காமல் உகப்பாக்கத்தை நிலையாக வைத்திருக்கிறது.

  • சாய்வு சோதனைச் சாவடி ( torch.utils.checkpoint )
    நினைவகத்திற்கான வர்த்தகக் கணக்கீடு - பெரிய சூழல்களை சாத்தியமாக்குகிறது.

  • திறமையான டோக்கனைசேஷன் ( 🤗 டோக்கனைசர்கள் )
    டோக்கனைசேஷன் அளவில் ஒரு தடையாக மாறக்கூடும். இது கவர்ச்சிகரமானதல்ல; அது முக்கியமானது.

  • டேட்டாலோடர் ட்யூனிங்
    அதிக வேலையாட்கள், பின் செய்யப்பட்ட நினைவகம், முன்கூட்டியே பெறுதல் - வெளிப்படையற்றது ஆனால் பயனுள்ளது 😴➡️💪 ( PyTorch செயல்திறன் ட்யூனிங் வழிகாட்டி )

அளவுரு-திறமையான ஃபைன்-ட்யூனிங்

நீங்கள் பெரிய மாடல்களை நன்றாகச் சரிசெய்தால், PEFT முறைகள் (LoRA-பாணி அடாப்டர்கள் போன்றவை) பயிற்சி செலவை பெருமளவில் குறைக்கலாம், அதே நேரத்தில் வியக்கத்தக்க வகையில் வலுவாக இருக்கும் ( 🤗 டிரான்ஸ்ஃபார்மர்ஸ் PEFT வழிகாட்டி , LoRA தாள் ). இது "நாம் இதை ஏன் முன்பே செய்யவில்லை?" என்ற கேள்விகளில் ஒன்றாகும்.


6) கட்டிடக்கலை-நிலை உகப்பாக்கம்: மாதிரியின் வலது-அளவை 🧩

சில நேரங்களில் மேம்படுத்துவதற்கான சிறந்த வழி... வேலைக்கு மிகப் பெரிய மாதிரியைப் பயன்படுத்துவதை நிறுத்துவதுதான். எனக்குத் தெரியும், புனிதமற்றது 😄.

சில அடிப்படை விஷயங்களுக்கு ஒரு அழைப்பு விடுங்கள்:

  • உங்களுக்கு முழுமையான பொது நுண்ணறிவு அதிர்வுகள் தேவையா அல்லது ஒரு நிபுணர் தேவையா என்பதை முடிவு செய்யுங்கள்.

  • சூழல் சாளரத்தை பெரிதாக அல்ல, தேவையான அளவு பெரியதாக வைத்திருங்கள்.

  • கையில் உள்ள வேலைக்கு பயிற்சி பெற்ற மாதிரியைப் பயன்படுத்தவும் (வகைப்படுத்தல் பணிக்கான வகைப்பாடு மாதிரிகள் மற்றும் பல).

நடைமுறை உரிமை-அளவிடல் உத்திகள்

  • பெரும்பாலான கோரிக்கைகளுக்கு
    சிறிய மாதிரிக்கு மாறவும், பின்னர் "கடினமான வினவல்களை" ஒரு பெரிய மாதிரிக்கு வழிநடத்தவும்.

  • இரண்டு-நிலை அமைப்பைப் பயன்படுத்தவும்
    வேகமான மாதிரி வரைவுகள், வலுவான மாதிரி சரிபார்ப்புகள் அல்லது திருத்தங்கள்.
    இது ஒரு நண்பருடன் எழுதுவது போன்றது, அவர் ஆர்வமுள்ளவர் - எரிச்சலூட்டும், ஆனால் பயனுள்ளதாக இருக்கும்.

  • வெளியீட்டு நீளத்தைக் குறைக்கவும்
    வெளியீட்டு டோக்கன்கள் பணத்தையும் நேரத்தையும் செலவழிக்கின்றன. உங்கள் மாதிரி தடுமாறினால், நீங்கள் தடுமாறலுக்கு பணம் செலுத்துவீர்கள்.

குறுகிய வெளியீடுகளைச் செயல்படுத்துவதன் மூலம் அணிகள் செலவுகளை வியத்தகு முறையில் குறைப்பதை நான் பார்த்திருக்கிறேன். இது அற்பமானது. இது வேலை செய்கிறது.


7) கம்பைலர் + கிராஃப் உகப்பாக்கம்: வேகம் எங்கிருந்து வருகிறது 🏎️

இது "கணினியை சிறந்த கணினி விஷயங்களைச் செய்யச் செய்" அடுக்கு.

பொதுவான நுட்பங்கள்:

எளிமையான வார்த்தைகளில் சொன்னால்: உங்கள் மாதிரி கணித ரீதியாக வேகமாக இருக்கலாம், ஆனால் செயல்பாட்டு ரீதியாக மெதுவாக இருக்கலாம். தொகுப்பிகள் அவற்றில் சிலவற்றை சரிசெய்கின்றன.

நடைமுறை குறிப்புகள் (வடுக்கள் என்றும் அழைக்கப்படுகின்றன)

  • இந்த மேம்படுத்தல்கள் மாதிரி வடிவ மாற்றங்களுக்கு உணர்திறன் கொண்டதாக இருக்கலாம்.

  • சில மாடல்கள் வேகத்தை அதிகரிக்கின்றன, சில அரிதாகவே அசைகின்றன.

  • சில நேரங்களில் நீங்கள் வேகத்தை அதிகரிப்பீர்கள், குழப்பமான பிழையைப் பெறுவீர்கள் - ஒரு கிரெம்ளின் உள்ளே நகர்ந்தது போல 🧌

இருப்பினும், அது வேலை செய்யும் போது, ​​அது மிகவும் சுத்தமான வெற்றிகளில் ஒன்றாகும்.


8) அளவீடு, கத்தரித்தல், வடிகட்டுதல்: அழாமல் சிறியது (அதிகம்) 🪓📉

இதுதான் மக்கள் விரும்பும் பிரிவு... ஏனென்றால் இது இலவச செயல்திறன் போல் தெரிகிறது. அது இருக்கலாம், ஆனால் நீங்கள் அதை அறுவை சிகிச்சை போல நடத்த வேண்டும்.

அளவீடு (குறைந்த துல்லிய எடைகள்/செயல்படுத்தல்கள்)

  • அனுமான வேகம் மற்றும் நினைவாற்றலுக்கு சிறந்தது

  • ஆபத்து: தரம் குறைகிறது, குறிப்பாக விளிம்பு நிலைகளில்

  • சிறந்த பயிற்சி: உண்மையான சோதனைத் தொகுப்பில் மதிப்பீடு செய்யுங்கள், அதிர்வுகளை அல்ல

நீங்கள் கேள்விப்படும் பொதுவான சுவைகள்:

கத்தரித்தல் (அளவுருக்களை அகற்று)

  • "முக்கியமற்ற" எடைகள் அல்லது கட்டமைப்புகளை நீக்குகிறது ( PyTorch கத்தரித்தல் பயிற்சி )

  • தரத்தை மீட்டெடுக்க பொதுவாக மறுபயிற்சி தேவை

  • மக்கள் நினைப்பதை விட சிறப்பாக செயல்படுகிறது... கவனமாகச் செய்யும்போது

வடிகட்டுதல் (மாணவர் ஆசிரியரிடமிருந்து கற்றுக்கொள்கிறார்)

இது எனக்கு மிகவும் பிடித்த நீண்ட கால நெம்புகோல். வடிகட்டுதல் இதேபோல் செயல்படும் ஒரு சிறிய மாதிரியை உருவாக்க முடியும், மேலும் இது பெரும்பாலும் தீவிர அளவீட்டை விட ( Distilling the Knowledge in a Neural Network ) நிலையானது.

ஒரு அபூரண உருவகம்: வடிகட்டுதல் என்பது ஒரு சிக்கலான சூப்பை ஒரு வடிகட்டி வழியாக ஊற்றி... ஒரு சிறிய சூப்பைப் பெறுவது போன்றது. சூப் எப்படி வேலை செய்கிறது என்பது அப்படி இல்லை, ஆனால் உங்களுக்கு யோசனை புரிகிறது 🍲.


9) சேவை மற்றும் அனுமானம்: உண்மையான போர் மண்டலம் 🧯

நீங்கள் ஒரு மாதிரியை "உகந்ததாக்கலாம்", ஆனால் அதை மோசமாக சேவை செய்யலாம். சேவை செய்வது என்பது தாமதம் மற்றும் செலவு உண்மையானதாக இருக்கும் இடமாகும்.

சேவை செய்வதே முக்கியம்

  • பேட்சிங்
    த்ரோபுட்டை மேம்படுத்துகிறது. ஆனால் நீங்கள் அதை மிகைப்படுத்தினால் தாமதத்தை அதிகரிக்கிறது. அதை சமநிலைப்படுத்துங்கள். ( ட்ரைடன் டைனமிக் பேட்சிங் )

  • தற்காலிக சேமிப்பு
    உடனடி தற்காலிக சேமிப்பு மற்றும் KV- தற்காலிக சேமிப்பு மறுபயன்பாடு மீண்டும் மீண்டும் நிகழும் சூழல்களுக்கு மிகப்பெரியதாக இருக்கும். ( KV தற்காலிக சேமிப்பு விளக்கம் )


  • மொத்த நேரம் ஒரே மாதிரியாக இருந்தாலும், ஸ்ட்ரீமிங் வெளியீடு

  • டோக்கன்-பை-டோக்கன் மேல்நிலை குறைப்பு
    சில அடுக்குகள் ஒவ்வொரு டோக்கனுக்கும் கூடுதல் வேலை செய்கின்றன. அந்த மேல்நிலையைக் குறைத்தால் நீங்கள் பெரிய அளவில் வெற்றி பெறுவீர்கள்.

டெயில் லேட்டன்ஸியைக் கவனியுங்கள்

உங்கள் p99 ஒரு பேரழிவாக இருக்கும்போது உங்கள் சராசரி நன்றாகத் தோன்றலாம். துரதிர்ஷ்டவசமாக, பயனர்கள் டெயிலில் வாழ்கின்றனர். ( “டெயில் தாமதம்” மற்றும் சராசரிகள் ஏன் பொய் சொல்கின்றன )


10) வன்பொருள்-விழிப்புணர்வு உகப்பாக்கம்: மாதிரியை இயந்திரத்துடன் பொருத்துங்கள் 🧰🖥️

வன்பொருள் விழிப்புணர்வு இல்லாமல் ஆப்டிமைஸ் செய்வது, டயர்களைச் சரிபார்க்காமல் ரேஸ் காரை டியூன் செய்வது போன்றது. நிச்சயமாக, நீங்கள் அதைச் செய்யலாம், ஆனால் அது கொஞ்சம் முட்டாள்தனமானது.

GPU பரிசீலனைகள்

  • நினைவக அலைவரிசை பெரும்பாலும் கட்டுப்படுத்தும் காரணியாகும், மூல கணக்கீடு அல்ல

  • பெரிய தொகுதி அளவுகள் உதவக்கூடும், அவை உதவாத வரை

  • கர்னல் இணைவு மற்றும் கவன மேம்படுத்தல்கள் மின்மாற்றிகளுக்கு மிகப்பெரியவை ( ஃப்ளாஷ்அட்டென்ஷன்: IO-அவேர் எக்ஸாக்ட் அட்டென்ஷன் )

CPU பரிசீலனைகள்

  • திரித்தல், திசையன்மயமாக்கல் மற்றும் நினைவக இருப்பிடம் மிகவும் முக்கியம்

  • டோக்கனைசேஷன் மேல்நிலை ஆதிக்கம் செலுத்தலாம் ( 🤗 "வேகமான" டோக்கனைசர்கள் )

  • GPU-வை விட உங்களுக்கு வேறுபட்ட அளவீட்டு உத்திகள் தேவைப்படலாம்

எட்ஜ் / மொபைல் பரிசீலனைகள்

  • நினைவக தடம் முன்னுரிமை முதலிடமாகிறது

  • சாதனங்கள்... மனநிலை சார்ந்தவை என்பதால் தாமத மாறுபாடு முக்கியமானது

  • சிறிய, சிறப்பு மாதிரிகள் பெரும்பாலும் பெரிய பொது மாதிரிகளை வெல்லும்


11) தரமான பாதுகாப்புத் தண்டவாளங்கள்: உங்களை ஒரு பிழையாக "மேம்படுத்திக் கொள்ளாதீர்கள்" 🧪

ஒவ்வொரு வேக வெற்றிக்கும் தரச் சரிபார்ப்பு தேவை. இல்லையெனில் நீங்கள் கொண்டாடுவீர்கள், பாராட்டுவீர்கள், பின்னர் "உதவியாளர் ஏன் திடீரென்று ஒரு கடற்கொள்ளையர் போல பேசுகிறார்?" போன்ற செய்தியைப் பெறுவீர்கள் 🏴☠️

நடைமுறைக் காவல் தண்டவாளங்கள்:

  • கோல்டன் ப்ராம்ட்கள் (நீங்கள் எப்போதும் சோதிக்கும் நிலையான ப்ராம்ட்களின் தொகுப்பு)

  • பணி அளவீடுகள் (துல்லியம், F1, BLEU, எது பொருந்துகிறதோ அது)

  • மனித இடச் சோதனைகள் (ஆம், சீரியஸாக)

  • பின்னடைவு வரம்புகள் ("X% க்கும் அதிகமான வீழ்ச்சி அனுமதிக்கப்படவில்லை")

தோல்வி முறைகளையும் கண்காணிக்கவும்:

  • வடிவமைத்தல் சறுக்கல்

  • மறுப்பு நடத்தை மாற்றங்கள்

  • மாயத்தோற்ற அதிர்வெண்

  • மறுமொழி நீளம் பணவீக்கம்

உகப்பாக்கம் நடத்தையை ஆச்சரியமான வழிகளில் மாற்றும். விசித்திரமாக. எரிச்சலூட்டும் விதமாக. கணிக்கக்கூடியதாக, பின்னோக்கிப் பார்க்கும்போது.


12) சரிபார்ப்புப் பட்டியல்: AI மாதிரிகளை படிப்படியாக மேம்படுத்துவது எப்படி ✅🤖

AI மாதிரிகளை எவ்வாறு மேம்படுத்துவது என்பதற்கான தெளிவான செயல்பாட்டு வரிசையை நீங்கள் விரும்பினால் , மக்களை விவேகத்துடன் வைத்திருக்க உதவும் பணிப்பாய்வு இங்கே:

  1. வெற்றியை வரையறுக்கவும்
    1-2 முதன்மை அளவீடுகளைத் தேர்ந்தெடுக்கவும் (தாமதம், செலவு, செயல்திறன், தரம்).

  2. அடிப்படை சுயவிவர உண்மையான பணிச்சுமைகளை அளவிடவும்
    , பதிவு p50/p95, நினைவகம், செலவு. ( PyTorch சுயவிவரம் )

  3. பைப்லைன் சிக்கல்களைச் சரிசெய்தல்
    தரவு ஏற்றுதல், டோக்கனைசேஷன், முன் செயலாக்கம், தொகுதிப்படுத்துதல்.

  4. குறைந்த ஆபத்துள்ள கம்ப்யூட் வெற்றிகளைப் பயன்படுத்துங்கள்
    கலப்பு துல்லியம், கர்னல் மேம்படுத்தல்கள், சிறந்த பேட்சிங்.

  5. தொகுப்பி/இயக்க நேர உகப்பாக்கங்களை முயற்சிக்கவும்
    வரைபட பிடிப்பு, அனுமான இயக்க நேரங்கள், ஆபரேட்டர் இணைவு. ( torch.compile பயிற்சி , ONNX இயக்க நேர ஆவணங்கள் )

  6. மாதிரி செலவைக் குறைக்கவும்
    கவனமாக அளவிடவும், முடிந்தால் காய்ச்சி வடிக்கவும், பொருத்தமாக இருந்தால் காய்ச்சி வெட்டவும்.

  7. டியூன் சேவை
    தற்காலிக சேமிப்பு, ஒத்திசைவு, சுமை சோதனை, டெயில் தாமத சரிசெய்தல்கள்.

  8. தரத்தை சரிபார்க்கவும்
    பின்னடைவு சோதனைகளை இயக்கி, வெளியீடுகளை அருகருகே ஒப்பிடவும்.

  9. மீண்டும் மீண்டும் செய்
    சிறிய மாற்றங்கள், தெளிவான குறிப்புகள், மீண்டும் செய். வெளிப்படையற்றது - பயனுள்ளது.

ஆம், இது "ரேக்குகளில் மிதிப்பதை எப்படி நிறுத்துவது" என்பது போல உணர்ந்தாலும், AI மாடல்களை எவ்வாறு மேம்படுத்துவது


13) பொதுவான தவறுகள் (எனவே நீங்கள் மற்றவர்களைப் போல அவற்றை மீண்டும் செய்ய வேண்டாம்) 🙃

  • அளவிடுவதற்கு முன் மேம்படுத்துதல்
    நீங்கள் நேரத்தை வீணடிப்பீர்கள். பின்னர் நீங்கள் தவறான விஷயத்தை நம்பிக்கையுடன் மேம்படுத்துவீர்கள்...

  • ஒற்றை அளவுகோலைத் துரத்துவது
    அளவுகோல்கள் தவறவிடுவதன் மூலம் பொய் சொல்கின்றன. உங்கள் பணிச்சுமைதான் உண்மை.

  • நினைவகத்தைப் புறக்கணிப்பது
    நினைவகச் சிக்கல்களை மந்தநிலை, செயலிழப்பு மற்றும் நடுக்கத்திற்குக் காரணமாகிறது. ( PyTorch இல் CUDA நினைவகப் பயன்பாட்டைப் புரிந்துகொள்வது )

  • மிகைப்படுத்தப்பட்ட அளவு மிகைப்படுத்தல்
    குறைந்த-பிட் அளவு ஆச்சரியமாக இருக்கலாம், ஆனால் முதலில் பாதுகாப்பான படிகளுடன் தொடங்குங்கள்.

  • திரும்பப் பெறும் திட்டம் இல்லை.
    விரைவாகத் திரும்பப் பெற முடியாவிட்டால், ஒவ்வொரு முறையும் பயன்படுத்தும்போது மன அழுத்தம் ஏற்படும். மன அழுத்தம் பிழைகளை உருவாக்கும்.


இறுதிக் குறிப்புகள்: மேம்படுத்துவதற்கான மனித வழி 😌⚡

AI மாடல்களை எவ்வாறு மேம்படுத்துவது என்பது ஒரு ஹேக் அல்ல. இது ஒரு அடுக்கு செயல்முறை: அளவிடுதல், பைப்லைனை சரிசெய்தல், கம்பைலர்கள் மற்றும் இயக்க நேரங்களைப் பயன்படுத்துதல், டியூன் சர்விங் செய்தல், பின்னர் உங்களுக்குத் தேவைப்பட்டால் அளவீடு அல்லது வடிகட்டுதல் மூலம் மாதிரியைச் சுருக்கவும். படிப்படியாகச் செய்யுங்கள், தரமான பாதுகாப்புத் தடுப்புகளை வைத்திருங்கள், மேலும் "இது வேகமாக உணர்கிறது" என்பதை ஒரு அளவீடாக நம்ப வேண்டாம் (உங்கள் உணர்வுகள் அழகானவை, உங்கள் உணர்வுகள் ஒரு சுயவிவரம் அல்ல).

நீங்கள் குறுகிய பயணத்தை விரும்பினால்:

  • முதலில் அளவிடு 🔍

  • அடுத்து பைப்லைனை மேம்படுத்தவும் 🧵

  • பின்னர் மாதிரியை மேம்படுத்தவும் 🧠

  • பிறகு பரிமாறலை மேம்படுத்தவும் 🏗️

  • தர சோதனைகளை எப்போதும் வைத்திருங்கள் ✅

அது உதவினால், உங்களை நீங்களே நினைவுபடுத்திக் கொள்ளுங்கள்: இலக்கு ஒரு "சரியான மாதிரி" அல்ல. இலக்கு வேகமானது, மலிவு விலையில் உள்ளது மற்றும் இரவில் நீங்கள் தூங்கக்கூடிய அளவுக்கு நம்பகமானது... பெரும்பாலான இரவுகளில் 😴.

அடிக்கடி கேட்கப்படும் கேள்விகள்

நடைமுறையில் AI மாதிரியை மேம்படுத்துவது என்றால் என்ன?

"உகப்பாக்கம்" என்பது பொதுவாக ஒரு முதன்மை கட்டுப்பாட்டை மேம்படுத்துவதைக் குறிக்கிறது: தாமதம், செலவு, நினைவக தடம், துல்லியம், நிலைத்தன்மை அல்லது சேவை செயல்திறன். கடினமான பகுதி பரிமாற்றங்கள் - ஒரு பகுதியைத் தள்ளுவது மற்றொரு பகுதியை சிதைக்கக்கூடும். ஒரு நடைமுறை அணுகுமுறை என்னவென்றால், தெளிவான இலக்கைத் தேர்ந்தெடுத்து (p95 தாமதம் அல்லது தரத்திற்கான நேரம் போன்றவை) அதை நோக்கி மேம்படுத்துவதாகும். இலக்கு இல்லாமல், "மேம்படுத்துவது" எளிது, ஆனால் இன்னும் இழக்க நேரிடும்.

தரத்தை அமைதியாக பாதிக்காமல் AI மாடல்களை எவ்வாறு மேம்படுத்துவது

ஒவ்வொரு வேகம் அல்லது செலவு மாற்றத்தையும் ஒரு சாத்தியமான அமைதியான பின்னடைவாகக் கருதுங்கள். கோல்டன் ப்ராம்ட்கள், பணி அளவீடுகள் மற்றும் விரைவான மனித ஸ்பாட் சோதனைகள் போன்ற பாதுகாப்புத் தடுப்புகளைப் பயன்படுத்தவும். ஏற்றுக்கொள்ளக்கூடிய தர சறுக்கலுக்கான தெளிவான வரம்பை அமைத்து, வெளியீடுகளை அருகருகே ஒப்பிடவும். நீங்கள் அனுப்பிய பிறகு "இது வேகமானது" என்பது "உற்பத்தியில் ஏன் திடீரென்று விசித்திரமாக மாறியது?" என்று மாறுவதை இது தடுக்கிறது.

நீங்கள் மேம்படுத்தத் தொடங்குவதற்கு முன் என்ன அளவிட வேண்டும்

தாமத சதவீதங்கள் (p50, p95, p99), செயல்திறன் (டோக்கன்கள்/வினாடி அல்லது கோரிக்கைகள்/வினாடி), GPU பயன்பாடு மற்றும் உச்ச VRAM/RAM ஆகியவற்றுடன் தொடங்குங்கள். செலவு ஒரு தடையாக இருந்தால், அனுமானத்திற்கு அல்லது 1k டோக்கன்களுக்கு செலவைக் கண்காணிக்கவும். நீங்கள் வழங்கும் ஒரு உண்மையான சூழ்நிலையை விவரக்குறிப்பு செய்யுங்கள், ஒரு பொம்மை ப்ராம்ட் அல்ல. ஒரு சிறிய "perf ஜர்னல்" வைத்திருப்பது யூகிப்பதையும் மீண்டும் மீண்டும் தவறுகளைத் தவிர்ப்பதற்கும் உதவும்.

பயிற்சி செயல்திறனுக்கான விரைவான, குறைந்த ஆபத்து வெற்றிகள்

கலப்பு துல்லியம் (FP16/BF16) பெரும்பாலும் வேகமான முதல் நெம்புகோலாகும், ஆனால் எண் வினோதங்களைக் கவனியுங்கள். தொகுதி அளவு குறைவாக இருந்தால், சாய்வு குவிப்பு நினைவகத்தை ஊதாமல் உகப்பாக்கத்தை உறுதிப்படுத்த முடியும். சாய்வு சோதனைச் சாவடி குறைந்த நினைவகத்திற்கு கூடுதல் கணக்கீட்டை வர்த்தகம் செய்கிறது, இது பெரிய சூழல்களை செயல்படுத்துகிறது. டோக்கனைசேஷன் மற்றும் டேட்டாலோடர் ட்யூனிங்கை புறக்கணிக்காதீர்கள் - அவை GPU ஐ அமைதியாகப் பட்டினி போடலாம்.

torch.compile, ONNX Runtime அல்லது TensorRT ஐ எப்போது பயன்படுத்த வேண்டும்

இந்த கருவிகள் செயல்பாட்டு மேல்நிலையை இலக்காகக் கொண்டுள்ளன: வரைபடப் பிடிப்பு, கர்னல் இணைவு மற்றும் இயக்க நேர வரைபட உகப்பாக்கங்கள். அவை சுத்தமான அனுமான வேகங்களை வழங்க முடியும், ஆனால் முடிவுகள் மாதிரி வடிவம் மற்றும் வன்பொருளைப் பொறுத்து மாறுபடும். சில அமைப்புகள் மாயாஜாலம் போல உணர்கின்றன; மற்றவை அரிதாகவே நகரும். வடிவ மாற்றங்களுக்கும் அவ்வப்போது "கிரெம்லின்" பிழைகளுக்கும் உணர்திறனை எதிர்பார்க்கலாம் - உங்கள் உண்மையான பணிச்சுமையை முன்னும் பின்னும் அளவிடவும்.

அளவீடு செய்வது மதிப்புக்குரியதா, அதிக தூரம் செல்வதை எவ்வாறு தவிர்ப்பது

அளவீடு செய்வது நினைவகத்தைக் குறைத்து, குறிப்பாக INT8 உடன் அனுமானத்தை விரைவுபடுத்தக்கூடும், ஆனால் தரம் விளிம்பு நிலை நிகழ்வுகளில் நழுவக்கூடும். குறைந்த-பிட் விருப்பங்கள் (INT4/k-bit போன்றவை) அதிக ஆபத்துடன் பெரிய சேமிப்பைக் கொண்டுவருகின்றன. உண்மையான சோதனைத் தொகுப்பில் மதிப்பீடு செய்து வெளியீடுகளை ஒப்பிடுவதே பாதுகாப்பான பழக்கம், உள்ளுணர்வு அல்ல. முதலில் பாதுகாப்பான படிகளுடன் தொடங்குங்கள், பின்னர் தேவைப்பட்டால் மட்டுமே குறைந்த துல்லியத்திற்குச் செல்லுங்கள்.

மாதிரி அளவைக் குறைப்பதற்கான கத்தரித்தல் மற்றும் வடிகட்டுதல் ஆகியவற்றுக்கு இடையேயான வேறுபாடு

கத்தரித்தல் "இறந்த எடை" அளவுருக்களை நீக்குகிறது மற்றும் தரத்தை மீட்டெடுக்க பெரும்பாலும் மறு பயிற்சி தேவைப்படுகிறது, குறிப்பாக தீவிரமாகச் செய்யும்போது. வடிகட்டுதல் ஒரு சிறிய மாணவர் மாதிரியை ஒரு பெரிய ஆசிரியரின் நடத்தையைப் பிரதிபலிக்கப் பயிற்றுவிக்கிறது, மேலும் இது தீவிர அளவீட்டை விட வலுவான நீண்டகால ROI ஆக இருக்கலாம். இதேபோல் செயல்படும் மற்றும் நிலையானதாக இருக்கும் ஒரு சிறிய மாதிரியை நீங்கள் விரும்பினால், வடிகட்டுதல் பெரும்பாலும் தூய்மையான பாதையாகும்.

சேவை மேம்பாடுகள் மூலம் அனுமான செலவு மற்றும் தாமதத்தை எவ்வாறு குறைப்பது

சேவை என்பது உகப்பாக்கம் என்பது உறுதியானதாக மாறும் இடம்: பேட்சிங் செயல்திறனை அதிகரிக்கிறது, ஆனால் அதிகமாகச் செய்தால் தாமதத்தை பாதிக்கலாம், எனவே அதை கவனமாக டியூன் செய்யவும். சூழல்கள் மீண்டும் நிகழும்போது கேச்சிங் (உடனடி கேச்சிங் மற்றும் KV-கேச் மறுபயன்பாடு) மிகப்பெரியதாக இருக்கும். மொத்த நேரம் ஒரே மாதிரியாக இருந்தாலும் ஸ்ட்ரீமிங் வெளியீடு உணரப்பட்ட வேகத்தை மேம்படுத்துகிறது. உங்கள் அடுக்கில் டோக்கன்-பை-டோக்கன் ஓவர்ஹெடைப்பையும் பாருங்கள் - டோக்கனுக்கு சிறிய வேலை வேகமாகச் சேர்க்கிறது.

AI மாதிரிகளை மேம்படுத்தும்போது வால் தாமதம் ஏன் மிகவும் முக்கியமானது

p99 ஒரு பேரழிவாக இருக்கும்போது சராசரிகள் சிறப்பாகத் தோன்றலாம், மேலும் பயனர்கள் டெயிலில் வாழ முனைகிறார்கள். டெயில் லேட்டன்சி பெரும்பாலும் நடுக்கத்திலிருந்து வருகிறது: நினைவக துண்டு துண்டாக மாறுதல், CPU முன் செயலாக்க ஸ்பைக்குகள், டோக்கனைசேஷன் மந்தநிலைகள் அல்லது மோசமான பேட்சிங் நடத்தை. அதனால்தான் வழிகாட்டி சதவீதங்கள் மற்றும் உண்மையான பணிச்சுமைகளை வலியுறுத்துகிறது. நீங்கள் p50 ஐ மட்டும் மேம்படுத்தினால், "தோராயமாக மெதுவாக உணரும்" அனுபவத்தை நீங்கள் இன்னும் வழங்க முடியும்

குறிப்புகள்

  1. அமேசான் வலை சேவைகள் (AWS) - AWS கிளவுட்வாட்ச் சதவீதங்கள் (புள்ளிவிவர வரையறைகள்) - docs.aws.amazon.com

  2. கூகிள் - தி டெயில் அட் ஸ்கேல் (டெயில் லேட்டன்சி சிறந்த பயிற்சி) - sre.google

  3. கூகிள் - சேவை நிலை நோக்கங்கள் (SRE புத்தகம்) - தாமத சதவீதங்கள் - sre.google

  4. பைடார்ச் - டார்ச்.தொகுப்பு - docs.pytorch.org

  5. பைடார்ச் - FullyShardedDataParallel (FSDP) - docs.pytorch.org

  6. PyTorch - PyTorch விவரக்குறிப்பு - docs.pytorch.org

  7. PyTorch - CUDA சொற்பொருள்: நினைவக மேலாண்மை (CUDA நினைவக ஒதுக்கீட்டு குறிப்புகள்) - docs.pytorch.org

  8. பைடார்ச் - தானியங்கி கலப்பு துல்லியம் (torch.amp / AMP) - docs.pytorch.org

  9. பைடார்ச் - torch.utils.checkpoint - docs.pytorch.org

  10. PyTorch - செயல்திறன் சரிப்படுத்தும் வழிகாட்டி - docs.pytorch.org

  11. பைடார்ச் - கத்தரிக்காய் கத்தரித்தல் பயிற்சி - docs.pytorch.org

  12. PyTorch - PyTorch இல் CUDA நினைவக பயன்பாட்டைப் புரிந்துகொள்வது - docs.pytorch.org

  13. PyTorch - torch.compile பயிற்சி / கண்ணோட்டம் - docs.pytorch.org

  14. ONNX இயக்க நேரம் - ONNX இயக்க நேர ஆவணம் - onnxruntime.ai

  15. NVIDIA - TensorRT ஆவணம் - docs.nvidia.com

  16. NVIDIA - TensorRT அளவிடப்பட்ட வகைகள் - docs.nvidia.com

  17. NVIDIA - Nsight Systems - developer.nvidia.com

  18. NVIDIA - ட்ரைடன் இன்ஃபரன்ஸ் சர்வர் - டைனமிக் பேட்சிங் - docs.nvidia.com

  19. DeepSpeed ​​- ZeRO நிலை 3 ஆவணங்கள் - deepspeed.readthedocs.io

  20. பிட்சாண்ட்பைட்ஸ் (பிட்சாண்ட்பைட்ஸ்-அடித்தளம்) - பிட்சாண்ட்பைட்ஸ் - கிதுப்.காம்

  21. முகத்தை கட்டிப்பிடித்தல் - முடுக்கிவிடுதல்: சாய்வு திரட்டல் வழிகாட்டி - huggingface.co

  22. முகத்தை கட்டிப்பிடிப்பது - டோக்கனைசர்கள் ஆவணங்கள் - huggingface.co

  23. கட்டிப்பிடிக்கும் முகம் - மின்மாற்றிகள்: PEFT வழிகாட்டி - huggingface.co

  24. கட்டிப்பிடிக்கும் முகம் - மின்மாற்றிகள்: KV கேச் விளக்கம் - huggingface.co

  25. கட்டிப்பிடிக்கும் முகம் - மின்மாற்றிகள்: “வேகமான” டோக்கனைசர்கள் (டோக்கனைசர் வகுப்புகள்) - huggingface.co

  26. arXiv - ஒரு நரம்பியல் வலையமைப்பில் அறிவை வடிகட்டுதல் (ஹின்டன் மற்றும் பலர், 2015) - arxiv.org

  27. arXiv - LoRA: பெரிய மொழி மாதிரிகளின் குறைந்த-தர தழுவல் - arxiv.org

  28. arXiv - FlashAttention: IO-விழிப்புணர்வுடன் கூடிய வேகமான மற்றும் நினைவாற்றல் மிக்க துல்லியமான கவனம் - arxiv.org

அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு