AIக்கான தரவு சேமிப்புத் தேவைகள்

AI-க்கான தரவு சேமிப்பகத் தேவைகள்: நீங்கள் உண்மையில் தெரிந்து கொள்ள வேண்டியது

AI என்பது வெறும் பளிச்சிடும் மாதிரிகள் அல்லது மக்களைப் பிரதிபலிக்கும் பேசும் உதவியாளர்கள் அல்ல. இவை அனைத்திற்கும் பின்னால், ஒரு மலை - சில நேரங்களில் ஒரு கடல் - தரவு உள்ளது. நேர்மையாகச் சொன்னால், அந்தத் தரவைச் சேமிப்பதா? அங்குதான் விஷயங்கள் வழக்கமாக குழப்பமடைகின்றன. நீங்கள் பட அங்கீகாரக் குழாய்களைப் பற்றிப் பேசினாலும் அல்லது மாபெரும் மொழி மாதிரிகளைப் பயிற்றுவித்தாலும், AIக்கான தரவு சேமிப்பகத் தேவைகள் நீங்கள் அதைச் சரியாகச் செய்யாவிட்டால் விரைவாகக் கட்டுப்பாட்டை மீறக்கூடும். சேமிப்பகம் ஏன் இவ்வளவு பெரிய மிருகம், என்னென்ன விருப்பங்கள் உள்ளன, மேலும் செலவு, வேகம் மற்றும் அளவை எவ்வாறு வீணாக்காமல் கையாளலாம் என்பதைப் பார்ப்போம்.

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 தரவு அறிவியல் மற்றும் செயற்கை நுண்ணறிவு: புதுமையின் எதிர்காலம்
AI மற்றும் தரவு அறிவியல் நவீன கண்டுபிடிப்புகளை எவ்வாறு இயக்குகின்றன என்பதை ஆராய்தல்.

🔗 செயற்கை திரவ நுண்ணறிவு: AI மற்றும் பரவலாக்கப்பட்ட தரவின் எதிர்காலம்
பரவலாக்கப்பட்ட AI தரவு மற்றும் வளர்ந்து வரும் புதுமைகள் பற்றிய ஒரு பார்வை.

🔗 நீங்கள் பார்க்க வேண்டிய AI கருவிகளுக்கான தரவு மேலாண்மை
AI தரவு சேமிப்பு மற்றும் செயல்திறனை மேம்படுத்துவதற்கான முக்கிய உத்திகள்.

🔗 தரவு பகுப்பாய்வாளர்களுக்கான சிறந்த AI கருவிகள்: பகுப்பாய்வு முடிவெடுப்பதை மேம்படுத்தவும்
தரவு பகுப்பாய்வு மற்றும் முடிவெடுப்பதை அதிகரிக்கும் சிறந்த AI கருவிகள்.


சரி... AI தரவு சேமிப்பை எது நல்லது? ✅

இது வெறும் "அதிக டெராபைட்டுகள்" மட்டுமல்ல. உண்மையான AI-க்கு ஏற்ற சேமிப்பிடம் என்பது பயிற்சி ஓட்டங்கள் மற்றும் அனுமானப் பணிச்சுமைகள் இரண்டிற்கும் பயன்படுத்தக்கூடியதாகவும், நம்பகமானதாகவும், போதுமான வேகமானதாகவும்

கவனிக்க வேண்டிய சில சிறப்பம்சங்கள்:

  • அளவிடுதல் : உங்கள் கட்டமைப்பை மீண்டும் எழுதாமல் GB களில் இருந்து PB களுக்கு தாவுதல்.

  • செயல்திறன் : அதிக தாமதம் GPU-களைப் பட்டினி போடும்; அவை எந்த இடையூறுகளையும் மன்னிக்காது.

  • மிகைப்படுத்தல் : ஸ்னாப்ஷாட்கள், பிரதி எடுத்தல், பதிப்பு செய்தல் - ஏனெனில் சோதனைகள் முறிந்து போகின்றன, மக்களும் முறிந்து போகின்றனர்.

  • செலவு-செயல்திறன் : சரியான நிலை, சரியான தருணம்; இல்லையெனில், மசோதா வரி தணிக்கை போல மறைமுகமாக வந்துவிடும்.

  • கணக்கிடுவதற்கான அருகாமை : GPUகள்/TPUகள் அல்லது வாட்ச் டேட்டா டெலிவரி சோக்கிற்கு அருகில் சேமிப்பிடத்தை வைக்கவும்.

இல்லையெனில், அது புல்வெட்டும் இயந்திர எரிபொருளில் ஃபெராரியை இயக்க முயற்சிப்பது போன்றது - தொழில்நுட்ப ரீதியாக அது நகரும், ஆனால் நீண்ட காலத்திற்கு அல்ல.


ஒப்பீட்டு அட்டவணை: AI-க்கான பொதுவான சேமிப்பகத் தேர்வுகள்

சேமிப்பக வகை சிறந்த பொருத்தம் காஸ்ட் பால்பார்க் இது ஏன் வேலை செய்கிறது (அல்லது வேலை செய்யவில்லை)
கிளவுட் பொருள் சேமிப்பு தொடக்க நிறுவனங்கள் & நடுத்தர அளவிலான செயல்பாடுகள் $$ (மாறி) நெகிழ்வானது, நீடித்தது, தரவு ஏரிகளுக்கு ஏற்றது; வெளியேறும் கட்டணம் + கோரிக்கை வெற்றிகள் குறித்து எச்சரிக்கையாக இருங்கள்.
வளாகத்தில் உள்ள NAS ஐடி குழுக்களுடன் கூடிய பெரிய நிறுவனங்கள் $$$$ கணிக்கக்கூடிய தாமதம், முழு கட்டுப்பாடு; முன்கூட்டிய மூலதனம் + தொடர்ச்சியான செயல்பாட்டு செலவுகள்.
கலப்பின மேகம் இணக்கம்-கனமான அமைப்புகள் $$$ உள்ளூர் வேகத்தை மீள் மேகத்துடன் இணைக்கிறது; இசைக்குழு தலைவலியைச் சேர்க்கிறது.
ஆல்-ஃப்ளாஷ் வரிசைகள் தீவிர ஆர்வமுள்ள ஆராய்ச்சியாளர்கள் $$$$$ அபத்தமான வேகமான IOPS/செயல்திறன்; ஆனால் TCO நகைச்சுவையல்ல.
பரவலாக்கப்பட்ட கோப்பு அமைப்புகள் AI டெவலப்பர்கள் / HPC கிளஸ்டர்கள் $$–$$$ தீவிர அளவில் இணையான I/O (லஸ்டர், ஸ்பெக்ட்ரம் அளவுகோல்); ops சுமை உண்மையானது.

AI தரவு தேவைகள் ஏன் வெடிக்கின்றன 🚀

AI என்பது வெறும் செல்ஃபிக்களை பதுக்கி வைப்பது மட்டுமல்ல. அது பேராசை கொண்டது.

  • பயிற்சித் தொகுப்புகள் : இமேஜ்நெட்டின் ILSVRC மட்டும் ~1.2M லேபிளிடப்பட்ட படங்களை பேக் செய்கிறது, மேலும் டொமைன்-குறிப்பிட்ட கார்போரா அதையும் தாண்டி செல்கிறது [1].

  • பதிப்பு : ஒவ்வொரு மாற்றமும் - லேபிள்கள், பிளவுகள், பெருக்கங்கள் - மற்றொரு "உண்மையை" உருவாக்குகிறது.

  • ஸ்ட்ரீமிங் உள்ளீடுகள் : நேரடி பார்வை, டெலிமெட்ரி, சென்சார் ஊட்டங்கள்... இது ஒரு நிலையான நெருப்புக் குழாய்.

  • கட்டமைக்கப்படாத வடிவங்கள் : உரை, வீடியோ, ஆடியோ, பதிவுகள் - நேர்த்தியான SQL அட்டவணைகளை விட மிகவும் பருமனானவை.

இது எல்லாம் சாப்பிடக்கூடிய ஒரு பஃபே, அந்த மாடல் எப்போதும் இனிப்புக்காகத் தான் திரும்ப வரும்.


கிளவுட் vs ஆன்-பிரைமிசஸ்: முடிவில்லா விவாதம் 🌩️🏢

மேகம் கவர்ச்சிகரமானதாகத் தெரிகிறது: கிட்டத்தட்ட எல்லையற்றது, உலகளாவியது, நீங்கள் செல்லும்போது பணம் செலுத்துங்கள். உங்கள் விலைப்பட்டியல் வெளியேறும் கட்டணங்களைக் - திடீரென்று உங்கள் "மலிவான" சேமிப்பகச் செலவுகள் கம்ப்யூட் செலவை விடப் போட்டியாக இருக்கும் [2].

மறுபுறம், ஆன்-பிரேம் கட்டுப்பாடு மற்றும் உறுதியான செயல்திறனை அளிக்கிறது, ஆனால் நீங்கள் வன்பொருள், சக்தி, குளிரூட்டல் மற்றும் ரேக்குகளை கவனித்துக் கொள்ள மனிதர்களுக்கும் பணம் செலுத்துகிறீர்கள்.

பெரும்பாலான அணிகள் குழப்பமான நடுவில் குடியேறுகின்றன: கலப்பின அமைப்புகள். சூடான, உணர்திறன் வாய்ந்த, உயர்-செயல்திறன் தரவை GPU களுக்கு அருகில் வைத்திருங்கள், மீதமுள்ளவற்றை கிளவுட் அடுக்குகளில் காப்பகப்படுத்துங்கள்.


திடீரென அதிகரிக்கும் சேமிப்பு செலவுகள் 💸

கொள்ளளவு என்பது மேற்பரப்பு அடுக்கு மட்டுமே. மறைக்கப்பட்ட செலவுகள் குவிகின்றன:

  • தரவு இயக்கம் : பிராந்தியங்களுக்கு இடையேயான நகல்கள், குறுக்கு-மேக இடமாற்றங்கள், பயனர் வெளியேற்றம் கூட [2].

  • பணிநீக்கம் : 3-2-1 ஐப் (மூன்று பிரதிகள், இரண்டு ஊடகங்கள், ஒரு ஆஃப்-சைட்) இடத்தை எடுத்துக்கொள்கிறது, ஆனால் நாளை மிச்சப்படுத்துகிறது [3].

  • மின்சாரம் & குளிர்வித்தல் : அது உங்கள் ரேக் என்றால், அது உங்கள் வெப்பப் பிரச்சினை.

  • தாமத சமரசங்கள் : மலிவான அடுக்குகள் பொதுவாக பனிப்பாறை மீட்பு வேகத்தைக் குறிக்கின்றன.


பாதுகாப்பு மற்றும் இணக்கம்: அமைதியான ஒப்பந்தத்தை மீறுபவர்கள் 🔒

பைட்டுகள் எங்கு வாழ்கின்றன என்பதை விதிமுறைகள் உண்மையில் தீர்மானிக்க முடியும். UK GDPR , UK க்கு வெளியே தனிப்பட்ட தரவை நகர்த்துவதற்கு சட்டப்பூர்வ பரிமாற்ற வழிகள் (SCCகள், IDTAகள் அல்லது போதுமான விதிகள்) தேவைப்படுகின்றன. மொழிபெயர்ப்பு: உங்கள் சேமிப்பக வடிவமைப்பு புவியியலை "அறிந்திருக்க வேண்டும்" [5].

முதல் நாளிலிருந்தே சமைக்க வேண்டிய அடிப்படைகள்:

  • குறியாக்கம் - ஓய்வு மற்றும் பயணம் இரண்டும்.

  • குறைந்த சலுகை அணுகல் + தணிக்கை பாதைகள்.

  • மாறாத தன்மை அல்லது பொருள் பூட்டுகள் போன்ற பாதுகாப்புகளை நீக்கு


செயல்திறன் சிக்கல்கள்: தாமதம் என்பது அமைதியான கொலையாளி ⚡

GPU-க்கள் காத்திருப்பதை விரும்புவதில்லை. சேமிப்பிடம் தாமதமாகிவிட்டால், அவை மகிமைப்படுத்தப்பட்ட ஹீட்டர்கள். NVIDIA GPUDirect Storage CPU இடைத்தரகரைத் துண்டித்து, NVMe-யிலிருந்து GPU நினைவகத்திற்கு தரவை நேரடியாக அனுப்புகின்றன - பெரிய தொகுதி பயிற்சி விரும்புவது இதுதான் [4].

பொதுவான திருத்தங்கள்:

  • சூடான பயிற்சித் துண்டுகளுக்கான NVMe ஆல்-ஃப்ளாஷ்.

  • பல-முனை செயல்திறனுக்கான இணை கோப்பு முறைமைகள் (லஸ்டர், ஸ்பெக்ட்ரம் அளவுகோல்).

  • GPUகள் செயலற்ற நிலையில் இருப்பதைத் தடுக்க, ஷார்டிங் + ப்ரீஃபெட்ச் கொண்ட அசின்க்ளோன் லோடர்கள்.


AI சேமிப்பிடத்தை நிர்வகிப்பதற்கான நடைமுறை நகர்வுகள் 🛠️

  • டையரிங் : NVMe/SSD இல் சூடான துண்டுகள்; பழைய தொகுப்புகளை பொருள் அல்லது குளிர் அடுக்குகளாக காப்பகப்படுத்தவும்.

  • டெடப் + டெல்டா : அடிப்படைக் குறிகளை ஒரு முறை சேமித்து, வேறுபாடுகள் + மேனிஃபெஸ்ட்களை மட்டும் வைத்திருங்கள்.

  • வாழ்க்கைச் சுழற்சி விதிகள் : பழைய வெளியீடுகளை தானியங்கியாக வரிசைப்படுத்தி காலாவதியாக்குதல் [2].

  • 3-2-1 மீள்தன்மை : எப்போதும் பல பிரதிகளை, வெவ்வேறு ஊடகங்களில், ஒன்றை தனிமைப்படுத்தி வைத்திருங்கள் [3].

  • இன்ஸ்ட்ருமென்டேஷன் : டிராக் த்ரோபுட், p95/p99 தாமதங்கள், தோல்வியுற்ற வாசிப்புகள், பணிச்சுமையால் வெளியேறுதல்.


ஒரு விரைவான (உருவாக்கப்பட்ட ஆனால் வழக்கமான) வழக்கு 📚

ஒரு தொலைநோக்கு குழு கிளவுட் ஆப்ஜெக்ட் சேமிப்பகத்தில் ~20 TB உடன் தொடங்குகிறது. பின்னர், அவர்கள் சோதனைகளுக்காக பிராந்தியங்கள் முழுவதும் தரவுத்தொகுப்புகளை குளோனிங் செய்யத் தொடங்குகிறார்கள். அவற்றின் செலவுகள் பலூன் - சேமிப்பிலிருந்து அல்ல, ஆனால் வெளியேறும் போக்குவரத்திலிருந்து . அவர்கள் சூடான துண்டுகளை GPU கிளஸ்டருக்கு அருகில் NVMe க்கு மாற்றுகிறார்கள், பொருள் சேமிப்பகத்தில் ஒரு நியமன நகலை வைத்திருக்கிறார்கள் (வாழ்க்கை சுழற்சி விதிகளுடன்), மேலும் அவர்களுக்குத் தேவையான மாதிரிகளை மட்டும் பின் செய்கிறார்கள். விளைவு: GPUகள் பரபரப்பானவை, பில்கள் மெலிதானவை, மற்றும் தரவு சுகாதாரம் மேம்படுகிறது.


உறையின் பின்புற திறன் திட்டமிடல் 🧮

மதிப்பிடுவதற்கான ஒரு தோராயமான சூத்திரம்:

கொள்ளளவு ≈ (மூல தரவுத்தொகுப்பு) × (பிரதி காரணி) + (முன் செயலாக்கப்பட்ட / பெரிதாக்கப்பட்ட தரவு) + (சோதனைச் சாவடிகள் + பதிவுகள்) + (பாதுகாப்பு விளிம்பு ~15–30%)

பின்னர், அதை த்ரோபுட்டுடன் ஒப்பிட்டுப் பாருங்கள். ஒவ்வொரு முனை ஏற்றிகளுக்கும் ~2–4 ஜிபி/வி நீடித்த தேவை இருந்தால், பொருள் சேமிப்பை அடிப்படை உண்மையாகக் கொண்டு, சூடான பாதைகளுக்கு NVMe அல்லது இணையான FS ஐப் பார்க்கிறீர்கள்.


இது வெறும் விண்வெளியைப் பற்றியது மட்டுமல்ல 📊

AI சேமிப்பகத் தேவைகள் என்று சொல்லும்போது , ​​அவர்கள் டெராபைட்டுகள் அல்லது பெட்டாபைட்டுகளைக் கற்பனை செய்கிறார்கள். ஆனால் உண்மையான தந்திரம் சமநிலை: செலவு vs. செயல்திறன், நெகிழ்வுத்தன்மை vs. இணக்கம், புதுமை vs. நிலைத்தன்மை. AI தரவு விரைவில் சுருங்காது. மாதிரி வடிவமைப்பில் சேமிப்பை முன்கூட்டியே மடிக்கும் குழுக்கள் தரவு சதுப்பு நிலங்களில் மூழ்குவதைத் தவிர்க்கின்றன - மேலும் அவர்கள் விரைவாக பயிற்சி பெறுகிறார்கள்.


குறிப்புகள்

[1] ருஸ்ஸகோவ்ஸ்கி மற்றும் பலர். இமேஜ்நெட் பெரிய அளவிலான காட்சி அங்கீகார சவால் (IJCV) - தரவுத்தொகுப்பு அளவு மற்றும் சவால். இணைப்பு
[2] AWS - அமேசான் S3 விலை நிர்ணயம் & செலவுகள் (தரவு பரிமாற்றம், வெளியேற்றம், வாழ்க்கைச் சுழற்சி அடுக்குகள்). இணைப்பு
[3] CISA - 3-2-1 காப்பு விதி ஆலோசனை. இணைப்பு
[4] NVIDIA ஆவணங்கள் - GPUDirect சேமிப்பக கண்ணோட்டம். இணைப்பு
[5] ICO - சர்வதேச தரவு பரிமாற்றங்களில் UK GDPR விதிகள். இணைப்பு


அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்.

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு