AI தரவுத்தொகுப்பு என்றால் என்ன?

AI தரவுத்தொகுப்பு என்றால் என்ன?

நீங்கள் AI அமைப்புகளை உருவாக்கினால், வாங்கினால் அல்லது மதிப்பீடு செய்தால் கூட, நீங்கள் ஒரு ஏமாற்றும் எளிய கேள்வியை எதிர்கொள்வீர்கள் & AI தரவுத்தொகுப்பு என்றால் என்ன, அது ஏன் இவ்வளவு முக்கியமானது? சுருக்கமான பதிப்பு: இது எரிபொருள், சமையல் புத்தகம் மற்றும் சில நேரங்களில் உங்கள் மாதிரிக்கான திசைகாட்டி. 

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 போக்குகளை AI எவ்வாறு கணிக்கின்றது?
எதிர்கால நிகழ்வுகள் மற்றும் நடத்தைகளை முன்னறிவிப்பதற்கான வடிவங்களை AI எவ்வாறு பகுப்பாய்வு செய்கிறது என்பதை ஆராய்கிறது.

🔗 AI செயல்திறனை எவ்வாறு அளவிடுவது
துல்லியம், செயல்திறன் மற்றும் மாதிரி நம்பகத்தன்மையை மதிப்பிடுவதற்கான அளவீடுகள் மற்றும் முறைகள்.

🔗 AI உடன் எப்படி பேசுவது
AI-உருவாக்கும் பதில்களை மேம்படுத்த சிறந்த தொடர்புகளை உருவாக்குவதற்கான வழிகாட்டுதல்.

🔗 AI தூண்டுதல் என்றால் என்ன?
தூண்டுதல்கள் AI வெளியீடுகளையும் ஒட்டுமொத்த தகவல்தொடர்பு தரத்தையும் எவ்வாறு வடிவமைக்கின்றன என்பது பற்றிய கண்ணோட்டம்.


AI தரவுத்தொகுப்பு என்றால் என்ன? ஒரு விரைவான விளக்கம் 🧩

AI தரவுத்தொகுப்பு என்றால் என்ன? இது உங்கள் மாதிரி கற்றுக் கொள்ளும் அல்லது மதிப்பீடு செய்யப்படும் எடுத்துக்காட்டுகளின் தொகுப்பாகும்

  • உள்ளீடுகள் - மாதிரி பார்க்கும் அம்சங்கள், உரைத் துணுக்குகள், படங்கள், ஆடியோ, அட்டவணை வரிசைகள், சென்சார் அளவீடுகள், வரைபடங்கள் போன்றவை.

  • இலக்குகள் - மாதிரி கணிக்க வேண்டிய லேபிள்கள் அல்லது விளைவுகள், அதாவது வகைகள், எண்கள், உரையின் இடைவெளிகள், செயல்கள் அல்லது சில நேரங்களில் எதுவும் இல்லை.

  • மெட்டாடேட்டா - மூலம், சேகரிப்பு முறை, நேர முத்திரைகள், உரிமங்கள், ஒப்புதல் தகவல் மற்றும் தரம் குறித்த குறிப்புகள் போன்ற சூழல்.

உங்கள் மாடலுக்கு கவனமாக பேக் செய்யப்பட்ட மதிய உணவுப் பெட்டியைப் போல நினைத்துப் பாருங்கள்: பொருட்கள், லேபிள்கள், ஊட்டச்சத்து உண்மைகள், ஆம், "இந்தப் பகுதியைச் சாப்பிடாதே" என்று சொல்லும் ஒட்டும் குறிப்பு 🍱

மேற்பார்வையிடப்பட்ட பணிகளுக்கு, வெளிப்படையான லேபிள்களுடன் இணைக்கப்பட்ட உள்ளீடுகளைக் காண்பீர்கள். மேற்பார்வை செய்யப்படாத பணிகளுக்கு, லேபிள்கள் இல்லாத உள்ளீடுகளைக் காண்பீர்கள். வலுவூட்டல் கற்றலுக்கு, தரவு பெரும்பாலும் நிலைகள், செயல்கள், வெகுமதிகள் கொண்ட அத்தியாயங்கள் அல்லது பாதைகள் போலத் தோன்றும். மல்டிமாடல் வேலைக்கு, எடுத்துக்காட்டுகள் உரை + படம் + ஆடியோவை ஒரே பதிவில் இணைக்கலாம். அழகாகத் தெரிகிறது; பெரும்பாலும் பிளம்பிங் ஆகும்.

பயனுள்ள முதன்மைக் குறிப்புகள் மற்றும் நடைமுறைகள்: தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள் யோசனை, உள்ளே என்ன இருக்கிறது, அதை எவ்வாறு பயன்படுத்த வேண்டும் என்பதை விளக்க குழுக்களுக்கு உதவுகிறது [1], மேலும் மாதிரி அட்டைகள் மாதிரி பக்கத்தில் தரவு ஆவணங்களை நிறைவு செய்கின்றன [2].

 

AI தரவுத்தொகுப்பு

ஒரு நல்ல AI தரவுத்தொகுப்பை உருவாக்குவது எது ✅

உண்மையைச் சொல்லப் போனால், தரவுத்தொகுப்பு மோசமாக இல்லாததால் நிறைய மாதிரிகள் வெற்றி பெறுகின்றன. ஒரு "நல்ல" தரவுத்தொகுப்பு:

  • ஆய்வக நிலைமைகளை மட்டுமல்ல, உண்மையான பயன்பாட்டு நிகழ்வுகளின் பிரதிநிதி

  • துல்லியமாக லேபிளிடப்பட்டுள்ளது . ஒப்பந்த அளவீடுகள் (எ.கா., கப்பா-பாணி அளவீடுகள்) நிலைத்தன்மையை சரிபார்க்க உதவுகின்றன.

  • முழுமையானதாகவும் சமநிலையுடனும் இருக்கும் . சமநிலையின்மை இயல்பானது; அலட்சியம் அப்படியல்ல.

  • தெளிவான ஆதாரம் . சலிப்பூட்டும் ஆவணங்கள் உற்சாகமான வழக்குகளைத் தடுக்கின்றன.

  • நோக்கம் கொண்ட பயன்பாடு, வரம்புகள் மற்றும் அறியப்பட்ட தோல்வி முறைகளை விவரிக்கும் தரவு அட்டைகள் அல்லது தரவுத்தாள்களைப் பயன்படுத்தி நன்கு ஆவணப்படுத்தப்பட்டுள்ளது

  • நிர்வகிக்கப்படுகிறது . தரவுத்தொகுப்பை மீண்டும் உருவாக்க முடியாவிட்டால், மாதிரியை மீண்டும் உருவாக்க முடியாது. NIST இன் AI இடர் மேலாண்மை கட்டமைப்பின் தரவு தரம் மற்றும் ஆவணங்களை முதல் தர கவலைகளாகக் கருதுகிறது [3].


நீங்கள் என்ன செய்கிறீர்கள் என்பதன் அடிப்படையில் AI தரவுத்தொகுப்புகளின் வகைகள் 🧰

பணி வாரியாக

  • வகைப்பாடு - எ.கா., ஸ்பேம் vs ஸ்பேம் அல்ல, பட வகைகள்.

  • பின்னடைவு - விலை அல்லது வெப்பநிலை போன்ற தொடர்ச்சியான மதிப்பைக் கணிக்கவும்.

  • வரிசை லேபிளிங் - பெயரிடப்பட்ட நிறுவனங்கள், பேச்சின் பகுதிகள்.

  • தலைமுறை - சுருக்கம், மொழிபெயர்ப்பு, பட தலைப்பு.

  • பரிந்துரை - பயனர், உருப்படி, தொடர்புகள், சூழல்.

  • ஒழுங்கின்மை கண்டறிதல் - காலத் தொடர்கள் அல்லது பதிவுகளில் அரிதான நிகழ்வுகள்.

  • வலுவூட்டல் கற்றல் - நிலை, செயல், வெகுமதி, அடுத்த நிலை வரிசைகள்.

  • மீட்டெடுப்பு - ஆவணங்கள், வினவல்கள், பொருத்தமான தீர்ப்புகள்.

முறைப்படி

  • அட்டவணை - வயது, வருமானம், மாற்றம் போன்ற பத்திகள். குறைத்து மதிப்பிடப்பட்டது, மிகவும் பயனுள்ளதாக இருக்கும்.

  • உரை - ஆவணங்கள், அரட்டைகள், குறியீடு, மன்ற இடுகைகள், தயாரிப்பு விளக்கங்கள்.

  • படங்கள் - புகைப்படங்கள், மருத்துவ ஸ்கேன்கள், செயற்கைக்கோள் ஓடுகள்; முகமூடிகள், பெட்டிகள், முக்கிய புள்ளிகள் இருந்தாலும் இல்லாவிட்டாலும்.

  • ஆடியோ - அலைவடிவங்கள், டிரான்ஸ்கிரிப்டுகள், ஸ்பீக்கர் டேக்குகள்.

  • காணொளி - பிரேம்கள், தற்காலிக குறிப்புகள், செயல் லேபிள்கள்.

  • வரைபடங்கள் - முனைகள், விளிம்புகள், பண்புக்கூறுகள்.

  • நேரத் தொடர் - சென்சார்கள், நிதி, டெலிமெட்ரி.

மேற்பார்வை மூலம்

  • லேபிளிடப்பட்டது (தங்கம், வெள்ளி, தானியங்கி லேபிளிடப்பட்டது), பலவீனமாக லேபிளிடப்பட்டது , லேபிளிடப்படாதது , செயற்கை . கடையில் வாங்கும் கேக் கலவை நல்லதாக இருக்கலாம் - நீங்கள் பெட்டியைப் படித்தால்.


பெட்டியின் உள்ளே: அமைப்பு, பிளவுகள் மற்றும் மெட்டாடேட்டா 📦

ஒரு வலுவான தரவுத்தொகுப்பில் பொதுவாக பின்வருவன அடங்கும்:

  • ஸ்கீமா - தட்டச்சு செய்யப்பட்ட புலங்கள், அலகுகள், அனுமதிக்கப்பட்ட மதிப்புகள், பூஜ்ய கையாளுதல்.

  • பிளவுகள் - பயிற்சி, சரிபார்ப்பு, சோதனை. சோதனைத் தரவை சீல் வைத்திருங்கள் - கடைசி சாக்லேட் துண்டு போல அதை நடத்துங்கள்.

  • மாதிரித் திட்டம் - மக்கள்தொகையிலிருந்து நீங்கள் எவ்வாறு எடுத்துக்காட்டுகளைப் பெற்றீர்கள்; ஒரு பகுதி அல்லது சாதனத்திலிருந்து வசதி மாதிரிகளைத் தவிர்க்கவும்.

  • பெருக்கங்கள் - புரட்டல்கள், பயிர்கள், சத்தம், பொழிப்புரைகள், முகமூடிகள். நேர்மையாக இருக்கும்போது நல்லது; காடுகளில் ஒருபோதும் நடக்காத வடிவங்களை அவர்கள் கண்டுபிடிக்கும்போது தீங்கு விளைவிக்கும்.

  • பதிப்பு - டெல்டாக்களை விவரிக்கும் சேஞ்ச்லாக்களுடன் தரவுத்தொகுப்பு v0.1, v0.2….

  • உரிமங்கள் மற்றும் ஒப்புதல் - பயன்பாட்டு உரிமைகள், மறுபகிர்வு மற்றும் நீக்குதல் ஓட்டங்கள். தேசிய தரவு-பாதுகாப்பு ஒழுங்குமுறை நிறுவனங்கள் (எ.கா., UK ICO) நடைமுறை, சட்டப்பூர்வமான-செயலாக்க சரிபார்ப்புப் பட்டியல்களை வழங்குகின்றன [4].


தரவுத்தொகுப்பு வாழ்க்கைச் சுழற்சி, படிப்படியாக 🔁

  1. முடிவை வரையறுக்கவும் - மாதிரி என்ன முடிவு செய்யும், அது தவறாக இருந்தால் என்ன நடக்கும்.

  2. நோக்கம் அம்சங்கள் மற்றும் லேபிள்கள் - அளவிடக்கூடியவை, கவனிக்கக்கூடியவை, சேகரிக்க நெறிமுறை.

  3. மூல தரவு - கருவிகள், பதிவுகள், ஆய்வுகள், பொது நிறுவனம், கூட்டாளர்கள்.

  4. ஒப்புதல் மற்றும் சட்டப்பூர்வ - தனியுரிமை அறிவிப்புகள், விலகல்கள், தரவு குறைப்பு. “ஏன்” மற்றும் “எப்படி” [4] என்பதற்கான ஒழுங்குமுறை வழிகாட்டுதலைப் பார்க்கவும்.

  5. சேகரித்து சேமித்தல் - பாதுகாப்பான சேமிப்பு, பங்கு அடிப்படையிலான அணுகல், PII கையாளுதல்.

  6. லேபிள் - உள் விளக்கவுரையாளர்கள், கூட்ட திரட்டல், நிபுணர்கள்; தங்கப் பணிகள், தணிக்கைகள் மற்றும் ஒப்பந்த அளவீடுகள் மூலம் தரத்தை நிர்வகிக்கவும்.

  7. சுத்தம் செய்து இயல்பாக்குங்கள் - குறைத்தல், காணாமல் போனதைக் கையாளுதல், அலகுகளை தரப்படுத்துதல், குறியாக்கத்தை சரிசெய்தல். சலிப்பூட்டும், வீரமான வேலை.

  8. பிரித்து சரிபார்க்கவும் - கசிவைத் தடுக்கவும்; பொருத்தமான இடங்களில் அடுக்கடுக்காக; தற்காலிக தரவுகளுக்கு நேரத்தை அறிந்த பிளவுகளை விரும்புங்கள்; மேலும் வலுவான மதிப்பீடுகளுக்கு குறுக்கு சரிபார்ப்பை சிந்தனையுடன் பயன்படுத்தவும் [5].

  9. ஆவணம் - தரவுத்தாள் அல்லது தரவு அட்டை; நோக்கம் கொண்ட பயன்பாடு, எச்சரிக்கைகள், வரம்புகள் [1].

  10. கண்காணிப்பு மற்றும் புதுப்பித்தல் - சறுக்கல் கண்டறிதல், புதுப்பிப்பு கேடன்ஸ், சூரிய அஸ்தமனத் திட்டங்கள். NIST இன் AI RMF இந்த தொடர்ச்சியான நிர்வாக வளையத்தை வடிவமைக்கிறது [3].

விரைவான, நிஜ உலக வடிவ உதவிக்குறிப்பு: அணிகள் பெரும்பாலும் "டெமோவில் வெற்றி பெறுகின்றன" ஆனால் அவற்றின் தரவுத்தொகுப்பு அமைதியாக நகர்வதால் உற்பத்தியில் தடுமாறுகின்றன - புதிய தயாரிப்பு வரிசைகள், மறுபெயரிடப்பட்ட புலம் அல்லது மாற்றப்பட்ட கொள்கை. ஒரு எளிய சேஞ்ச்லாக் + அவ்வப்போது மறு-குறிப்பு பாஸ் அந்த வலியின் பெரும்பகுதியைத் தவிர்க்கிறது.


தரவு தரம் மற்றும் மதிப்பீடு - அது கேட்பதற்கு அவ்வளவு சலிப்பாக இல்லை 🧪

தரம் பல பரிமாணங்களைக் கொண்டது:

  • துல்லியம் - லேபிள்கள் சரியானதா? ஒப்பந்த அளவீடுகள் மற்றும் அவ்வப்போது மதிப்பீடுகளைப் பயன்படுத்தவும்.

  • முழுமை - உங்களுக்கு உண்மையிலேயே தேவைப்படும் துறைகள் மற்றும் வகுப்புகளை உள்ளடக்குங்கள்.

  • நிலைத்தன்மை - ஒத்த உள்ளீடுகளுக்கு முரண்பாடான லேபிள்களைத் தவிர்க்கவும்.

  • காலக்கெடு - பழைய தரவுகள் அனுமானங்களை படிமமாக்குகின்றன.

  • நியாயத்தன்மை & சார்பு - மக்கள்தொகை, மொழிகள், சாதனங்கள், சூழல்கள் முழுவதும் கவரேஜ்; விளக்கமான தணிக்கைகளுடன் தொடங்கி, பின்னர் அழுத்த சோதனைகள். ஆவணப்படுத்தல்-முதல் நடைமுறைகள் (தரவுத்தாள்கள், மாதிரி அட்டைகள்) இந்த சரிபார்ப்புகளை புலப்படும்படி செய்கின்றன [1], மேலும் நிர்வாக கட்டமைப்புகள் அவற்றை ஆபத்து கட்டுப்பாடுகளாக வலியுறுத்துகின்றன [3].

மாதிரி மதிப்பீட்டிற்கு, சரியான பிளவுகளைப் சராசரி அளவீடுகள் மற்றும் மோசமான குழு அளவீடுகள் இரண்டையும் கண்காணிக்கவும். ஒரு பளபளப்பான சராசரி ஒரு பள்ளத்தை மறைக்கக்கூடும். குறுக்கு சரிபார்ப்பு அடிப்படைகள் நிலையான ML கருவி ஆவணங்களில் [5] நன்கு உள்ளடக்கப்பட்டுள்ளன.


நெறிமுறைகள், தனியுரிமை மற்றும் உரிமம் - பாதுகாப்புத் தடுப்புகள் 🛡️

நெறிமுறை தரவு ஒரு அதிர்வு அல்ல, அது ஒரு செயல்முறை:

  • ஒப்புதல் மற்றும் நோக்க வரம்பு - பயன்பாடுகள் மற்றும் சட்ட அடிப்படைகள் பற்றி வெளிப்படையாக இருங்கள் [4].

  • PII கையாளுதல் - பொருத்தமாக இருந்தால் குறைக்கவும், புனைப்பெயர் சூட்டவும் அல்லது அநாமதேயமாக்கவும்; அபாயங்கள் அதிகமாக இருக்கும்போது தனியுரிமையை மேம்படுத்தும் தொழில்நுட்பத்தைக் கருத்தில் கொள்ளவும்.

  • பண்புக்கூறு மற்றும் உரிமங்கள் - பகிர்வு மற்றும் வணிக பயன்பாட்டு கட்டுப்பாடுகளை மதிக்கவும்.

  • சார்பு & தீங்கு - போலியான தொடர்புகளுக்கான தணிக்கை ("பகல் = பாதுகாப்பானது" இரவில் மிகவும் குழப்பமாக இருக்கும்).

  • சரிசெய்தல் - கோரிக்கையின் பேரில் தரவை எவ்வாறு அகற்றுவது மற்றும் அதில் பயிற்சி பெற்ற மாதிரிகளை எவ்வாறு திரும்பப் பெறுவது என்பதை அறிந்து கொள்ளுங்கள் (இதை உங்கள் தரவுத்தாளில் ஆவணப்படுத்தவும்) [1].


எவ்வளவு பெரியது போதுமானது? அளவு மற்றும் சிக்னல்-டு-இரைச்சல் 📏

முக்கிய விதி: அதிக எடுத்துக்காட்டுகள் பொதுவாக பொருத்தமானவையாகவும், கிட்டத்தட்ட நகல்களாக இல்லாவிட்டால் உதவும். ஆனால் சில நேரங்களில் மலைபோன்ற குழப்பமான மாதிரிகளை விட குறைவான, சுத்தமான, சிறப்பாக பெயரிடப்பட்ட மாதிரிகளுடன் நீங்கள் சிறப்பாக இருப்பீர்கள் .

கவனியுங்கள்:

  • கற்றல் வளைவுகள் - நீங்கள் தரவு-கட்டமைக்கப்பட்டவரா அல்லது மாதிரி-கட்டமைக்கப்பட்டவரா என்பதைப் பார்க்க, சதி செயல்திறன் vs. மாதிரி அளவு.

  • நீண்ட வால் கவரேஜ் - அரிதான ஆனால் முக்கியமான வகுப்புகளுக்கு பெரும்பாலும் அதிக அளவில் சேகரிப்பு தேவையில்லை, இலக்கு சேகரிப்பு தேவைப்படுகிறது.

  • சத்தத்தைக் குறிக்கவும் - அளந்து, பின்னர் குறை; சிறிதளவு பொறுத்துக்கொள்ளக்கூடியது, ஒரு அலை தாங்க முடியாதது.

  • பரவல் மாற்றம் - ஒரு பகுதி அல்லது சேனலில் இருந்து பயிற்சி தரவு மற்றொரு பகுதிக்கு பொதுமைப்படுத்தப்படாமல் போகலாம்; இலக்கு போன்ற சோதனைத் தரவுகளில் சரிபார்க்கவும் [5].

சந்தேகம் இருந்தால், சிறிய சோதனை முயற்சிகளை மேற்கொண்டு விரிவாக்குங்கள். இது சுவையூட்டல்-சேர்த்தல், சுவைத்தல், சரிசெய்தல், மீண்டும் செய்தல் போன்றது.


தரவுத்தொகுப்புகளை எங்கே கண்டுபிடித்து நிர்வகிப்பது 🗂️

பிரபலமான வளங்கள் மற்றும் கருவிகள் (இப்போது URLகளை மனப்பாடம் செய்ய வேண்டிய அவசியமில்லை):

  • முகத்தை அணைத்துக்கொள்வதற்கான தரவுத்தொகுப்புகள் - நிரல் ரீதியாக ஏற்றுதல், செயலாக்குதல், பகிர்தல்.

  • கூகிள் தரவுத்தொகுப்பு தேடல் - இணையம் முழுவதும் மெட்டா தேடல்.

  • UCI ML களஞ்சியம் - அடிப்படைகள் மற்றும் கற்பித்தலுக்கான தொகுக்கப்பட்ட கிளாசிக்ஸ்.

  • OpenML - பணிகள் + தரவுத்தொகுப்புகள் + மூலத்துடன் இயங்குகிறது.

  • AWS திறந்த தரவு / கூகிள் கிளவுட் பொது தரவுத்தொகுப்புகள் - ஹோஸ்ட் செய்யப்பட்ட, பெரிய அளவிலான கார்ப்பரேட்.

ப்ரோ குறிப்பு: பதிவிறக்கம் மட்டும் செய்யாதீர்கள். உரிமம் மற்றும் தரவுத்தாள் ஆகியவற்றைப் படித்து , பின்னர் பதிப்பு எண்கள் மற்றும் மூலத்துடன் உங்கள் சொந்த நகலை ஆவணப்படுத்தவும் [1].


லேபிளிங் மற்றும் குறிப்பு - உண்மை பேச்சுவார்த்தை நடத்தப்படும் இடம் ✍️

உங்கள் தத்துவார்த்த லேபிள் வழிகாட்டி யதார்த்தத்துடன் மல்யுத்தம் செய்யும் இடம் குறிப்பு:

  • பணி வடிவமைப்பு - எடுத்துக்காட்டுகள் மற்றும் எதிர் எடுத்துக்காட்டுகளுடன் தெளிவான வழிமுறைகளை எழுதுங்கள்.

  • விளக்கவுரையாளர் பயிற்சி - தங்க பதில்களுடன் விதை, அளவுத்திருத்த சுற்றுகளை இயக்கவும்.

  • தரக் கட்டுப்பாடு - ஒப்பந்த அளவீடுகள், ஒருமித்த வழிமுறைகள் மற்றும் அவ்வப்போது தணிக்கைகளைப் பயன்படுத்தவும்.

  • கருவியாக்கம் - திட்டச் சரிபார்ப்பைச் செயல்படுத்தும் கருவிகளைத் தேர்வுசெய்து வரிசைகளை மதிப்பாய்வு செய்யவும்; விரிதாள்கள் கூட விதிகள் மற்றும் சரிபார்ப்புகளுடன் வேலை செய்ய முடியும்.

  • பின்னூட்ட சுழல்கள் - வழிகாட்டியைச் செம்மைப்படுத்த, சிறுகுறிப்பு குறிப்புகளைப் பிடிக்கவும் மற்றும் மாதிரி தவறுகளைப் பிடிக்கவும்.

காற்புள்ளிகளைப் பற்றி உடன்படாத மூன்று நண்பர்களுடன் சேர்ந்து ஒரு அகராதியைத் திருத்துவது போல் உணர்ந்தால்... அது சாதாரணமானது. 🙃


தரவு ஆவணங்கள் - மறைமுகமான அறிவை வெளிப்படையாக்குதல் 📒

ஒரு இலகுரக தரவுத்தாள் அல்லது தரவு அட்டை பின்வருவனவற்றை உள்ளடக்கியிருக்க வேண்டும்:

  • யார் அதை சேகரித்தார்கள், எப்படி, ஏன்.

  • நோக்கம் கொண்ட பயன்பாடுகள் மற்றும் எல்லைக்கு அப்பாற்பட்ட பயன்பாடுகள்.

  • அறியப்பட்ட இடைவெளிகள், சார்புகள் மற்றும் தோல்வி முறைகள்.

  • லேபிளிங் நெறிமுறை, QA படிகள் மற்றும் ஒப்பந்த புள்ளிவிவரங்கள்.

  • உரிமம், ஒப்புதல், சிக்கல்களுக்கான தொடர்பு, நீக்குதல் செயல்முறை.

வார்ப்புருக்கள் மற்றும் எடுத்துக்காட்டுகள்: தரவுத்தொகுப்புகள் மற்றும் மாதிரி அட்டைகளுக்கான பரவலாகப் பயன்படுத்தப்படும் தொடக்கப் புள்ளிகளாகும் [1].

நீங்கள் உருவாக்கும்போதே எழுதுங்கள், பிறகு எழுத வேண்டாம். நினைவகம் என்பது ஒரு சீரற்ற சேமிப்பு ஊடகம்.


ஒப்பீட்டு அட்டவணை - AI தரவுத்தொகுப்புகளைக் கண்டறிய அல்லது ஹோஸ்ட் செய்ய வேண்டிய இடங்கள் 📊

ஆமாம், இது கொஞ்சம் கருத்து வேறுபாடு கொண்டது. வேண்டுமென்றே வார்த்தைகள் சற்று சீரற்றதாக உள்ளன. பரவாயில்லை.

கருவி / ரெப்போ பார்வையாளர்கள் விலை இது ஏன் நடைமுறையில் வேலை செய்கிறது
கட்டிப்பிடிக்கும் முகத் தரவுத்தொகுப்புகள் ஆராய்ச்சியாளர்கள், பொறியாளர்கள் ஃப்ரீ-டையர் வேகமாக ஏற்றுதல், ஸ்ட்ரீமிங், சமூக ஸ்கிரிப்டுகள்; சிறந்த ஆவணங்கள்; பதிப்பு செய்யப்பட்ட தரவுத்தொகுப்புகள்
கூகிள் தரவுத்தொகுப்பு தேடல் அனைவரும் இலவசம் பரந்த மேற்பரப்பு; கண்டுபிடிப்புக்கு சிறந்தது; சில நேரங்களில் சீரற்ற மெட்டாடேட்டா.
UCI ML களஞ்சியம் மாணவர்கள், கல்வியாளர்கள் இலவசம் தேர்ந்தெடுக்கப்பட்ட கிளாசிக்ஸ்; சிறியது ஆனால் நேர்த்தியானது; அடிப்படைகளுக்கும் கற்பித்தலுக்கும் நல்லது.
ஓபன்எம்எல் ரெப்ரோ ஆராய்ச்சியாளர்கள் இலவசம் பணிகள் + தரவுத்தொகுப்புகள் + ஒன்றாக இயங்குகின்றன; நல்ல மூலப் பாதைகள்
AWS திறந்த தரவு பதிவேடு தரவு பொறியாளர்கள் பெரும்பாலும் இலவசம் பெட்டாபைட் அளவிலான ஹோஸ்டிங்; கிளவுட்-நேட்டிவ் அணுகல்; வெளியேறும் செலவுகளைக் கண்காணித்தல்
Kaggle தரவுத்தொகுப்புகள் பயிற்சியாளர்கள் இலவசம் எளிதான பகிர்வு, ஸ்கிரிப்டுகள், போட்டிகள்; சமூக சமிக்ஞைகள் சத்தத்தை வடிகட்ட உதவுகின்றன.
கூகிள் கிளவுட் பொது தரவுத்தொகுப்புகள் ஆய்வாளர்கள், குழுக்கள் இலவசம் + மேகம் கம்ப்யூட் அருகே ஹோஸ்ட் செய்யப்பட்டது; BigQuery ஒருங்கிணைப்பு; பில்லிங்கில் கவனமாக இருங்கள்.
கல்வி இணையதளங்கள், ஆய்வகங்கள் முக்கிய நிபுணர்கள் மாறுபடும் மிகவும் சிறப்பு வாய்ந்தது; சில நேரங்களில் ஆவணப்படுத்தப்படாதது - இன்னும் தேடலுக்கு மதிப்புள்ளது

(ஒரு செல் பேசுவதாகத் தோன்றினால், அது வேண்டுமென்றே செய்யப்படுகிறது.)


உங்கள் முதல் ஒன்றை உருவாக்குதல் - ஒரு நடைமுறை ஸ்டார்டர் கிட் 🛠️

நீங்கள் "AI தரவுத்தொகுப்பு என்றால் என்ன" என்பதிலிருந்து "நான் ஒன்றை உருவாக்கினேன், அது வேலை செய்கிறது" என்பதற்கு மாற விரும்புகிறீர்கள். இந்த குறைந்தபட்ச பாதையை முயற்சிக்கவும்:

  1. முடிவு மற்றும் அளவீட்டை எழுதுங்கள் - எ.கா., சரியான அணியைக் கணிப்பதன் மூலம் உள்வரும் ஆதரவு தவறான வழிகளைக் குறைக்கவும். அளவீடு: மேக்ரோ-F1.

  2. 5 நேர்மறை மற்றும் 5 எதிர்மறை உதாரணங்களை பட்டியலிடுங்கள் - உண்மையான டிக்கெட்டுகளை மாதிரியாகக் கொள்ளுங்கள்; புனைய வேண்டாம்.

  3. ஒரு லேபிள் வழிகாட்டியை வரைவு செய்யுங்கள் - ஒரு பக்கம்; வெளிப்படையான சேர்த்தல்/விலக்கு விதிகள்.

  4. ஒரு சிறிய, உண்மையான மாதிரியைச் சேகரிக்கவும் - பல்வேறு பிரிவுகளில் சில நூறு டிக்கெட்டுகள்; உங்களுக்குத் தேவையில்லாத PII ஐ அகற்று.

  5. கசிவு சரிபார்ப்புகளுடன் பிரித்தல் - ஒரே வாடிக்கையாளரிடமிருந்து வரும் அனைத்து செய்திகளையும் ஒரே பிரிவில் வைத்திருங்கள்; மாறுபாட்டை மதிப்பிடுவதற்கு குறுக்கு சரிபார்ப்பைப் பயன்படுத்தவும் [5].

  6. QA உடன் குறிப்பு எழுதுங்கள் - ஒரு துணைக்குழுவில் இரண்டு குறிப்புரையாளர்கள்; கருத்து வேறுபாடுகளைத் தீர்க்கவும்; வழிகாட்டியைப் புதுப்பிக்கவும்.

  7. ஒரு எளிய அடிப்படைத் திட்டத்தைப் பயிற்றுவிக்கவும் - தளவாடங்கள் (எ.கா., நேரியல் மாதிரிகள் அல்லது சிறிய மின்மாற்றிகள்). பதக்கங்களை வெல்வதல்ல, தரவைச் சோதிப்பதே இதன் நோக்கம்.

  8. பிழைகளை மதிப்பாய்வு செய்யவும் - அது எங்கே தோல்வியடைகிறது, ஏன்; மாதிரியை மட்டும் புதுப்பிக்காமல், தரவுத்தொகுப்பையும் புதுப்பிக்கவும்.

  9. ஆவணம் - சிறிய தரவுத்தாள்: மூலம், லேபிள் வழிகாட்டி இணைப்பு, பிளவுகள், அறியப்பட்ட வரம்புகள், உரிமம் [1].

  10. திட்டத்தைப் புதுப்பித்தல் - புதிய பிரிவுகள், புதிய பேச்சுவழக்கு, புதிய களங்கள் வரும்; சிறிய, அடிக்கடி புதுப்பிப்புகளைத் திட்டமிடுங்கள் [3].

ஆயிரம் ஹாட் டேக்குகளை விட இந்த லூப்பிலிருந்து நீங்கள் அதிகம் கற்றுக்கொள்வீர்கள். மேலும், காப்புப்பிரதிகளை வைத்திருங்கள். தயவுசெய்து.


அணிகளில் பதுங்கிச் செல்லும் பொதுவான தவறுகள் 🪤

  • தரவு கசிவு - பதில் அம்சங்களுக்குள் நழுவுகிறது (எ.கா., விளைவுகளை கணிக்க தீர்மானத்திற்குப் பிந்தைய புலங்களைப் பயன்படுத்துதல்). அது ஏமாற்றுவது போல் உணர்கிறது, ஏனெனில் அது அப்படித்தான்.

  • மேலோட்டமான பன்முகத்தன்மை - ஒரு புவியியல் அல்லது சாதனம் உலகளாவியதாக மாறுவேடமிடுகிறது. சோதனைகள் சதித் திருப்பத்தை வெளிப்படுத்தும்.

  • லேபிள் சறுக்கல் - அளவுகோல்கள் காலப்போக்கில் மாறுகின்றன, ஆனால் லேபிள் வழிகாட்டி மாறுவதில்லை. உங்கள் ஆன்டாலஜியை ஆவணப்படுத்தி பதிப்பு செய்யுங்கள்.

  • குறிப்பிடப்படாத குறிக்கோள்கள் - தவறான கணிப்பை உங்களால் வரையறுக்க முடியாவிட்டால், உங்கள் தரவும் வரையறுக்காது.

  • ஒழுங்கற்ற உரிமங்கள் - இப்போது ரத்து செய்துவிட்டு, பின்னர் மன்னிப்பு கேட்பது ஒரு உத்தி அல்ல.

  • அதிகப்படியான பெருக்கம் - பிளாஸ்டிக் பழங்களில் ஒரு சமையல்காரருக்கு பயிற்சி அளிப்பது போன்ற, நடைமுறைக்கு மாறான கலைப்பொருட்களை கற்பிக்கும் செயற்கை தரவு.


இந்த சொற்றொடரைப் பற்றிய விரைவான கேள்விகள் ❓

  • "AI தரவுத்தொகுப்பு என்றால் என்ன?" என்பது வெறும் வரையறை விஷயமா? பெரும்பாலும், ஆனால் இது மாதிரிகளை நம்பகமானதாக மாற்றும் சலிப்பான பிட்களைப் பற்றி நீங்கள் அக்கறை கொள்கிறீர்கள் என்பதற்கான சமிக்ஞையாகும்.

  • எனக்கு எப்போதும் லேபிள்கள் தேவையா? இல்லை. மேற்பார்வை செய்யப்படாத, சுய மேற்பார்வையிடப்பட்ட மற்றும் RL அமைப்புகள் பெரும்பாலும் வெளிப்படையான லேபிள்களைத் தவிர்க்கின்றன, ஆனால் க்யூரேஷனை இன்னும் முக்கியம்.

  • பொதுத் தரவை எதற்கும் பயன்படுத்தலாமா? இல்லை. உரிமங்கள், தள விதிமுறைகள் மற்றும் தனியுரிமைக் கடமைகளை மதிக்கவும் [4].

  • பெரியதா அல்லது சிறந்ததா? இரண்டுமே சிறந்தது. நீங்கள் தேர்வு செய்ய வேண்டும் என்றால், முதலில் சிறந்ததைத் தேர்வுசெய்க.


இறுதி குறிப்புகள் - நீங்கள் என்ன ஸ்கிரீன்ஷாட் எடுக்கலாம் 📌

AI தரவுத்தொகுப்பு என்றால் என்ன என்று யாராவது உங்களிடம் கேட்டால் , சொல்லுங்கள்: இது ஒரு மாதிரியைக் கற்பிக்கும் மற்றும் சோதிக்கும் எடுத்துக்காட்டுகளின் ஒரு தொகுக்கப்பட்ட, ஆவணப்படுத்தப்பட்ட தொகுப்பு, மக்கள் முடிவுகளை நம்பும் வகையில் நிர்வாகத்தில் மூடப்பட்டிருக்கும். சிறந்த தரவுத்தொகுப்புகள் பிரதிநிதித்துவம், நன்கு பெயரிடப்பட்டவை, சட்டப்பூர்வமாக சுத்தமாகவும், தொடர்ந்து பராமரிக்கப்படும் வகையிலும் உள்ளன. மீதமுள்ளவை விவரங்கள்-முக்கியமான விவரங்கள்-கட்டமைப்பு, பிளவுகள் மற்றும் மாதிரிகள் போக்குவரத்தில் அலைவதைத் தடுக்கும் அனைத்து சிறிய பாதுகாப்புத் தடுப்புகள் பற்றியது. சில நேரங்களில் செயல்முறை விரிதாள்களுடன் தோட்டக்கலை செய்வது போல உணர்கிறது; சில நேரங்களில் பிக்சல்களை மேய்ப்பது போல. எப்படியிருந்தாலும், தரவில் முதலீடு செய்யுங்கள், உங்கள் மாதிரிகள் குறைவாக வித்தியாசமாக செயல்படும். 🌱🤖


குறிப்புகள்

[1] தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள் - கெப்ரு மற்றும் பலர், arXiv. இணைப்பு
[2] மாதிரி அறிக்கையிடலுக்கான மாதிரி அட்டைகள் - மிட்செல் மற்றும் பலர், arXiv. இணைப்பு
[3] NIST செயற்கை நுண்ணறிவு இடர் மேலாண்மை கட்டமைப்பு (AI RMF 1.0) . இணைப்பு
[4] UK GDPR வழிகாட்டுதல் மற்றும் வளங்கள் - தகவல் ஆணையர் அலுவலகம் (ICO). இணைப்பு
[5] குறுக்கு சரிபார்ப்பு: மதிப்பீட்டாளர் செயல்திறனை மதிப்பீடு செய்தல் - scikit-learn பயனர் வழிகாட்டி. இணைப்பு


அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்.

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு