AI என்பது வெறும் பளிச்சிடும் மாதிரிகள் அல்லது மக்களைப் பிரதிபலிக்கும் பேசும் உதவியாளர்கள் அல்ல. இவை அனைத்திற்கும் பின்னால், ஒரு மலை - சில நேரங்களில் ஒரு கடல் - தரவு உள்ளது. நேர்மையாகச் சொன்னால், அந்தத் தரவைச் சேமிப்பதா? அங்குதான் விஷயங்கள் வழக்கமாக குழப்பமடைகின்றன. நீங்கள் பட அங்கீகாரக் குழாய்களைப் பற்றிப் பேசினாலும் அல்லது மாபெரும் மொழி மாதிரிகளைப் பயிற்றுவித்தாலும், AIக்கான தரவு சேமிப்பகத் தேவைகள் நீங்கள் அதைச் சரியாகச் செய்யாவிட்டால் விரைவாகக் கட்டுப்பாட்டை மீறக்கூடும். சேமிப்பகம் ஏன் இவ்வளவு பெரிய மிருகம், என்னென்ன விருப்பங்கள் உள்ளன, மேலும் செலவு, வேகம் மற்றும் அளவை எவ்வாறு வீணாக்காமல் கையாளலாம் என்பதைப் பார்ப்போம்.
இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:
🔗 தரவு அறிவியல் மற்றும் செயற்கை நுண்ணறிவு: புதுமையின் எதிர்காலம்
AI மற்றும் தரவு அறிவியல் நவீன கண்டுபிடிப்புகளை எவ்வாறு இயக்குகின்றன என்பதை ஆராய்தல்.
🔗 செயற்கை திரவ நுண்ணறிவு: AI மற்றும் பரவலாக்கப்பட்ட தரவின் எதிர்காலம்
பரவலாக்கப்பட்ட AI தரவு மற்றும் வளர்ந்து வரும் புதுமைகள் பற்றிய ஒரு பார்வை.
🔗 நீங்கள் பார்க்க வேண்டிய AI கருவிகளுக்கான தரவு மேலாண்மை
AI தரவு சேமிப்பு மற்றும் செயல்திறனை மேம்படுத்துவதற்கான முக்கிய உத்திகள்.
🔗 தரவு பகுப்பாய்வாளர்களுக்கான சிறந்த AI கருவிகள்: பகுப்பாய்வு முடிவெடுப்பதை மேம்படுத்தவும்
தரவு பகுப்பாய்வு மற்றும் முடிவெடுப்பதை அதிகரிக்கும் சிறந்த AI கருவிகள்.
சரி... AI தரவு சேமிப்பை எது நல்லது? ✅
இது வெறும் "அதிக டெராபைட்டுகள்" மட்டுமல்ல. உண்மையான AI-க்கு ஏற்ற சேமிப்பிடம் என்பது பயிற்சி ஓட்டங்கள் மற்றும் அனுமானப் பணிச்சுமைகள் இரண்டிற்கும் பயன்படுத்தக்கூடியதாகவும், நம்பகமானதாகவும், போதுமான வேகமானதாகவும்
கவனிக்க வேண்டிய சில சிறப்பம்சங்கள்:
-
அளவிடுதல் : உங்கள் கட்டமைப்பை மீண்டும் எழுதாமல் GB களில் இருந்து PB களுக்கு தாவுதல்.
-
செயல்திறன் : அதிக தாமதம் GPU-களைப் பட்டினி போடும்; அவை எந்த இடையூறுகளையும் மன்னிக்காது.
-
மிகைப்படுத்தல் : ஸ்னாப்ஷாட்கள், பிரதி எடுத்தல், பதிப்பு செய்தல் - ஏனெனில் சோதனைகள் முறிந்து போகின்றன, மக்களும் முறிந்து போகின்றனர்.
-
செலவு-செயல்திறன் : சரியான நிலை, சரியான தருணம்; இல்லையெனில், மசோதா வரி தணிக்கை போல மறைமுகமாக வந்துவிடும்.
-
கணக்கிடுவதற்கான அருகாமை : GPUகள்/TPUகள் அல்லது வாட்ச் டேட்டா டெலிவரி சோக்கிற்கு அருகில் சேமிப்பிடத்தை வைக்கவும்.
இல்லையெனில், அது புல்வெட்டும் இயந்திர எரிபொருளில் ஃபெராரியை இயக்க முயற்சிப்பது போன்றது - தொழில்நுட்ப ரீதியாக அது நகரும், ஆனால் நீண்ட காலத்திற்கு அல்ல.
ஒப்பீட்டு அட்டவணை: AI-க்கான பொதுவான சேமிப்பகத் தேர்வுகள்
| சேமிப்பக வகை | சிறந்த பொருத்தம் | காஸ்ட் பால்பார்க் | இது ஏன் வேலை செய்கிறது (அல்லது வேலை செய்யவில்லை) |
|---|---|---|---|
| கிளவுட் பொருள் சேமிப்பு | தொடக்க நிறுவனங்கள் & நடுத்தர அளவிலான செயல்பாடுகள் | $$ (மாறி) | நெகிழ்வானது, நீடித்தது, தரவு ஏரிகளுக்கு ஏற்றது; வெளியேறும் கட்டணம் + கோரிக்கை வெற்றிகள் குறித்து எச்சரிக்கையாக இருங்கள். |
| வளாகத்தில் உள்ள NAS | ஐடி குழுக்களுடன் கூடிய பெரிய நிறுவனங்கள் | $$$$ | கணிக்கக்கூடிய தாமதம், முழு கட்டுப்பாடு; முன்கூட்டிய மூலதனம் + தொடர்ச்சியான செயல்பாட்டு செலவுகள். |
| கலப்பின மேகம் | இணக்கம்-கனமான அமைப்புகள் | $$$ | உள்ளூர் வேகத்தை மீள் மேகத்துடன் இணைக்கிறது; இசைக்குழு தலைவலியைச் சேர்க்கிறது. |
| ஆல்-ஃப்ளாஷ் வரிசைகள் | தீவிர ஆர்வமுள்ள ஆராய்ச்சியாளர்கள் | $$$$$ | அபத்தமான வேகமான IOPS/செயல்திறன்; ஆனால் TCO நகைச்சுவையல்ல. |
| பரவலாக்கப்பட்ட கோப்பு அமைப்புகள் | AI டெவலப்பர்கள் / HPC கிளஸ்டர்கள் | $$–$$$ | தீவிர அளவில் இணையான I/O (லஸ்டர், ஸ்பெக்ட்ரம் அளவுகோல்); ops சுமை உண்மையானது. |
AI தரவு தேவைகள் ஏன் வெடிக்கின்றன 🚀
AI என்பது வெறும் செல்ஃபிக்களை பதுக்கி வைப்பது மட்டுமல்ல. அது பேராசை கொண்டது.
-
பயிற்சித் தொகுப்புகள் : இமேஜ்நெட்டின் ILSVRC மட்டும் ~1.2M லேபிளிடப்பட்ட படங்களை பேக் செய்கிறது, மேலும் டொமைன்-குறிப்பிட்ட கார்போரா அதையும் தாண்டி செல்கிறது [1].
-
பதிப்பு : ஒவ்வொரு மாற்றமும் - லேபிள்கள், பிளவுகள், பெருக்கங்கள் - மற்றொரு "உண்மையை" உருவாக்குகிறது.
-
ஸ்ட்ரீமிங் உள்ளீடுகள் : நேரடி பார்வை, டெலிமெட்ரி, சென்சார் ஊட்டங்கள்... இது ஒரு நிலையான நெருப்புக் குழாய்.
-
கட்டமைக்கப்படாத வடிவங்கள் : உரை, வீடியோ, ஆடியோ, பதிவுகள் - நேர்த்தியான SQL அட்டவணைகளை விட மிகவும் பருமனானவை.
இது எல்லாம் சாப்பிடக்கூடிய ஒரு பஃபே, அந்த மாடல் எப்போதும் இனிப்புக்காகத் தான் திரும்ப வரும்.
கிளவுட் vs ஆன்-பிரைமிசஸ்: முடிவில்லா விவாதம் 🌩️🏢
மேகம் கவர்ச்சிகரமானதாகத் தெரிகிறது: கிட்டத்தட்ட எல்லையற்றது, உலகளாவியது, நீங்கள் செல்லும்போது பணம் செலுத்துங்கள். உங்கள் விலைப்பட்டியல் வெளியேறும் கட்டணங்களைக் - திடீரென்று உங்கள் "மலிவான" சேமிப்பகச் செலவுகள் கம்ப்யூட் செலவை விடப் போட்டியாக இருக்கும் [2].
மறுபுறம், ஆன்-பிரேம் கட்டுப்பாடு மற்றும் உறுதியான செயல்திறனை அளிக்கிறது, ஆனால் நீங்கள் வன்பொருள், சக்தி, குளிரூட்டல் மற்றும் ரேக்குகளை கவனித்துக் கொள்ள மனிதர்களுக்கும் பணம் செலுத்துகிறீர்கள்.
பெரும்பாலான அணிகள் குழப்பமான நடுவில் குடியேறுகின்றன: கலப்பின அமைப்புகள். சூடான, உணர்திறன் வாய்ந்த, உயர்-செயல்திறன் தரவை GPU களுக்கு அருகில் வைத்திருங்கள், மீதமுள்ளவற்றை கிளவுட் அடுக்குகளில் காப்பகப்படுத்துங்கள்.
திடீரென அதிகரிக்கும் சேமிப்பு செலவுகள் 💸
கொள்ளளவு என்பது மேற்பரப்பு அடுக்கு மட்டுமே. மறைக்கப்பட்ட செலவுகள் குவிகின்றன:
-
தரவு இயக்கம் : பிராந்தியங்களுக்கு இடையேயான நகல்கள், குறுக்கு-மேக இடமாற்றங்கள், பயனர் வெளியேற்றம் கூட [2].
-
பணிநீக்கம் : 3-2-1 ஐப் (மூன்று பிரதிகள், இரண்டு ஊடகங்கள், ஒரு ஆஃப்-சைட்) இடத்தை எடுத்துக்கொள்கிறது, ஆனால் நாளை மிச்சப்படுத்துகிறது [3].
-
மின்சாரம் & குளிர்வித்தல் : அது உங்கள் ரேக் என்றால், அது உங்கள் வெப்பப் பிரச்சினை.
-
தாமத சமரசங்கள் : மலிவான அடுக்குகள் பொதுவாக பனிப்பாறை மீட்பு வேகத்தைக் குறிக்கின்றன.
பாதுகாப்பு மற்றும் இணக்கம்: அமைதியான ஒப்பந்தத்தை மீறுபவர்கள் 🔒
பைட்டுகள் எங்கு வாழ்கின்றன என்பதை விதிமுறைகள் உண்மையில் தீர்மானிக்க முடியும். UK GDPR , UK க்கு வெளியே தனிப்பட்ட தரவை நகர்த்துவதற்கு சட்டப்பூர்வ பரிமாற்ற வழிகள் (SCCகள், IDTAகள் அல்லது போதுமான விதிகள்) தேவைப்படுகின்றன. மொழிபெயர்ப்பு: உங்கள் சேமிப்பக வடிவமைப்பு புவியியலை "அறிந்திருக்க வேண்டும்" [5].
முதல் நாளிலிருந்தே சமைக்க வேண்டிய அடிப்படைகள்:
-
குறியாக்கம் - ஓய்வு மற்றும் பயணம் இரண்டும்.
-
குறைந்த சலுகை அணுகல் + தணிக்கை பாதைகள்.
-
மாறாத தன்மை அல்லது பொருள் பூட்டுகள் போன்ற பாதுகாப்புகளை நீக்கு
செயல்திறன் சிக்கல்கள்: தாமதம் என்பது அமைதியான கொலையாளி ⚡
GPU-க்கள் காத்திருப்பதை விரும்புவதில்லை. சேமிப்பிடம் தாமதமாகிவிட்டால், அவை மகிமைப்படுத்தப்பட்ட ஹீட்டர்கள். NVIDIA GPUDirect Storage CPU இடைத்தரகரைத் துண்டித்து, NVMe-யிலிருந்து GPU நினைவகத்திற்கு தரவை நேரடியாக அனுப்புகின்றன - பெரிய தொகுதி பயிற்சி விரும்புவது இதுதான் [4].
பொதுவான திருத்தங்கள்:
-
சூடான பயிற்சித் துண்டுகளுக்கான NVMe ஆல்-ஃப்ளாஷ்.
-
பல-முனை செயல்திறனுக்கான இணை கோப்பு முறைமைகள் (லஸ்டர், ஸ்பெக்ட்ரம் அளவுகோல்).
-
GPUகள் செயலற்ற நிலையில் இருப்பதைத் தடுக்க, ஷார்டிங் + ப்ரீஃபெட்ச் கொண்ட அசின்க்ளோன் லோடர்கள்.
AI சேமிப்பிடத்தை நிர்வகிப்பதற்கான நடைமுறை நகர்வுகள் 🛠️
-
டையரிங் : NVMe/SSD இல் சூடான துண்டுகள்; பழைய தொகுப்புகளை பொருள் அல்லது குளிர் அடுக்குகளாக காப்பகப்படுத்தவும்.
-
டெடப் + டெல்டா : அடிப்படைக் குறிகளை ஒரு முறை சேமித்து, வேறுபாடுகள் + மேனிஃபெஸ்ட்களை மட்டும் வைத்திருங்கள்.
-
வாழ்க்கைச் சுழற்சி விதிகள் : பழைய வெளியீடுகளை தானியங்கியாக வரிசைப்படுத்தி காலாவதியாக்குதல் [2].
-
3-2-1 மீள்தன்மை : எப்போதும் பல பிரதிகளை, வெவ்வேறு ஊடகங்களில், ஒன்றை தனிமைப்படுத்தி வைத்திருங்கள் [3].
-
இன்ஸ்ட்ருமென்டேஷன் : டிராக் த்ரோபுட், p95/p99 தாமதங்கள், தோல்வியுற்ற வாசிப்புகள், பணிச்சுமையால் வெளியேறுதல்.
ஒரு விரைவான (உருவாக்கப்பட்ட ஆனால் வழக்கமான) வழக்கு 📚
ஒரு தொலைநோக்கு குழு கிளவுட் ஆப்ஜெக்ட் சேமிப்பகத்தில் ~20 TB உடன் தொடங்குகிறது. பின்னர், அவர்கள் சோதனைகளுக்காக பிராந்தியங்கள் முழுவதும் தரவுத்தொகுப்புகளை குளோனிங் செய்யத் தொடங்குகிறார்கள். அவற்றின் செலவுகள் பலூன் - சேமிப்பிலிருந்து அல்ல, ஆனால் வெளியேறும் போக்குவரத்திலிருந்து . அவர்கள் சூடான துண்டுகளை GPU கிளஸ்டருக்கு அருகில் NVMe க்கு மாற்றுகிறார்கள், பொருள் சேமிப்பகத்தில் ஒரு நியமன நகலை வைத்திருக்கிறார்கள் (வாழ்க்கை சுழற்சி விதிகளுடன்), மேலும் அவர்களுக்குத் தேவையான மாதிரிகளை மட்டும் பின் செய்கிறார்கள். விளைவு: GPUகள் பரபரப்பானவை, பில்கள் மெலிதானவை, மற்றும் தரவு சுகாதாரம் மேம்படுகிறது.
உறையின் பின்புற திறன் திட்டமிடல் 🧮
மதிப்பிடுவதற்கான ஒரு தோராயமான சூத்திரம்:
கொள்ளளவு ≈ (மூல தரவுத்தொகுப்பு) × (பிரதி காரணி) + (முன் செயலாக்கப்பட்ட / பெரிதாக்கப்பட்ட தரவு) + (சோதனைச் சாவடிகள் + பதிவுகள்) + (பாதுகாப்பு விளிம்பு ~15–30%)
பின்னர், அதை த்ரோபுட்டுடன் ஒப்பிட்டுப் பாருங்கள். ஒவ்வொரு முனை ஏற்றிகளுக்கும் ~2–4 ஜிபி/வி நீடித்த தேவை இருந்தால், பொருள் சேமிப்பை அடிப்படை உண்மையாகக் கொண்டு, சூடான பாதைகளுக்கு NVMe அல்லது இணையான FS ஐப் பார்க்கிறீர்கள்.
இது வெறும் விண்வெளியைப் பற்றியது மட்டுமல்ல 📊
AI சேமிப்பகத் தேவைகள் என்று சொல்லும்போது , அவர்கள் டெராபைட்டுகள் அல்லது பெட்டாபைட்டுகளைக் கற்பனை செய்கிறார்கள். ஆனால் உண்மையான தந்திரம் சமநிலை: செலவு vs. செயல்திறன், நெகிழ்வுத்தன்மை vs. இணக்கம், புதுமை vs. நிலைத்தன்மை. AI தரவு விரைவில் சுருங்காது. மாதிரி வடிவமைப்பில் சேமிப்பை முன்கூட்டியே மடிக்கும் குழுக்கள் தரவு சதுப்பு நிலங்களில் மூழ்குவதைத் தவிர்க்கின்றன - மேலும் அவர்கள் விரைவாக பயிற்சி பெறுகிறார்கள்.
குறிப்புகள்
[1] ருஸ்ஸகோவ்ஸ்கி மற்றும் பலர். இமேஜ்நெட் பெரிய அளவிலான காட்சி அங்கீகார சவால் (IJCV) - தரவுத்தொகுப்பு அளவு மற்றும் சவால். இணைப்பு
[2] AWS - அமேசான் S3 விலை நிர்ணயம் & செலவுகள் (தரவு பரிமாற்றம், வெளியேற்றம், வாழ்க்கைச் சுழற்சி அடுக்குகள்). இணைப்பு
[3] CISA - 3-2-1 காப்பு விதி ஆலோசனை. இணைப்பு
[4] NVIDIA ஆவணங்கள் - GPUDirect சேமிப்பக கண்ணோட்டம். இணைப்பு
[5] ICO - சர்வதேச தரவு பரிமாற்றங்களில் UK GDPR விதிகள். இணைப்பு