நீங்கள் AI அமைப்புகளை உருவாக்கினால், வாங்கினால் அல்லது மதிப்பீடு செய்தால் கூட, நீங்கள் ஒரு ஏமாற்றும் எளிய கேள்வியை எதிர்கொள்வீர்கள் & AI தரவுத்தொகுப்பு என்றால் என்ன, அது ஏன் இவ்வளவு முக்கியமானது? சுருக்கமான பதிப்பு: இது எரிபொருள், சமையல் புத்தகம் மற்றும் சில நேரங்களில் உங்கள் மாதிரிக்கான திசைகாட்டி.
இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:
🔗 போக்குகளை AI எவ்வாறு கணிக்கின்றது?
எதிர்கால நிகழ்வுகள் மற்றும் நடத்தைகளை முன்னறிவிப்பதற்கான வடிவங்களை AI எவ்வாறு பகுப்பாய்வு செய்கிறது என்பதை ஆராய்கிறது.
🔗 AI செயல்திறனை எவ்வாறு அளவிடுவது
துல்லியம், செயல்திறன் மற்றும் மாதிரி நம்பகத்தன்மையை மதிப்பிடுவதற்கான அளவீடுகள் மற்றும் முறைகள்.
🔗 AI உடன் எப்படி பேசுவது
AI-உருவாக்கும் பதில்களை மேம்படுத்த சிறந்த தொடர்புகளை உருவாக்குவதற்கான வழிகாட்டுதல்.
🔗 AI தூண்டுதல் என்றால் என்ன?
தூண்டுதல்கள் AI வெளியீடுகளையும் ஒட்டுமொத்த தகவல்தொடர்பு தரத்தையும் எவ்வாறு வடிவமைக்கின்றன என்பது பற்றிய கண்ணோட்டம்.
AI தரவுத்தொகுப்பு என்றால் என்ன? ஒரு விரைவான விளக்கம் 🧩
AI தரவுத்தொகுப்பு என்றால் என்ன? இது உங்கள் மாதிரி கற்றுக் கொள்ளும் அல்லது மதிப்பீடு செய்யப்படும் எடுத்துக்காட்டுகளின் தொகுப்பாகும்
-
உள்ளீடுகள் - மாதிரி பார்க்கும் அம்சங்கள், உரைத் துணுக்குகள், படங்கள், ஆடியோ, அட்டவணை வரிசைகள், சென்சார் அளவீடுகள், வரைபடங்கள் போன்றவை.
-
இலக்குகள் - மாதிரி கணிக்க வேண்டிய லேபிள்கள் அல்லது விளைவுகள், அதாவது வகைகள், எண்கள், உரையின் இடைவெளிகள், செயல்கள் அல்லது சில நேரங்களில் எதுவும் இல்லை.
-
மெட்டாடேட்டா - மூலம், சேகரிப்பு முறை, நேர முத்திரைகள், உரிமங்கள், ஒப்புதல் தகவல் மற்றும் தரம் குறித்த குறிப்புகள் போன்ற சூழல்.
உங்கள் மாடலுக்கு கவனமாக பேக் செய்யப்பட்ட மதிய உணவுப் பெட்டியைப் போல நினைத்துப் பாருங்கள்: பொருட்கள், லேபிள்கள், ஊட்டச்சத்து உண்மைகள், ஆம், "இந்தப் பகுதியைச் சாப்பிடாதே" என்று சொல்லும் ஒட்டும் குறிப்பு 🍱
மேற்பார்வையிடப்பட்ட பணிகளுக்கு, வெளிப்படையான லேபிள்களுடன் இணைக்கப்பட்ட உள்ளீடுகளைக் காண்பீர்கள். மேற்பார்வை செய்யப்படாத பணிகளுக்கு, லேபிள்கள் இல்லாத உள்ளீடுகளைக் காண்பீர்கள். வலுவூட்டல் கற்றலுக்கு, தரவு பெரும்பாலும் நிலைகள், செயல்கள், வெகுமதிகள் கொண்ட அத்தியாயங்கள் அல்லது பாதைகள் போலத் தோன்றும். மல்டிமாடல் வேலைக்கு, எடுத்துக்காட்டுகள் உரை + படம் + ஆடியோவை ஒரே பதிவில் இணைக்கலாம். அழகாகத் தெரிகிறது; பெரும்பாலும் பிளம்பிங் ஆகும்.
பயனுள்ள முதன்மைக் குறிப்புகள் மற்றும் நடைமுறைகள்: தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள் யோசனை, உள்ளே என்ன இருக்கிறது, அதை எவ்வாறு பயன்படுத்த வேண்டும் என்பதை விளக்க குழுக்களுக்கு உதவுகிறது [1], மேலும் மாதிரி அட்டைகள் மாதிரி பக்கத்தில் தரவு ஆவணங்களை நிறைவு செய்கின்றன [2].

ஒரு நல்ல AI தரவுத்தொகுப்பை உருவாக்குவது எது ✅
உண்மையைச் சொல்லப் போனால், தரவுத்தொகுப்பு மோசமாக இல்லாததால் நிறைய மாதிரிகள் வெற்றி பெறுகின்றன. ஒரு "நல்ல" தரவுத்தொகுப்பு:
-
ஆய்வக நிலைமைகளை மட்டுமல்ல, உண்மையான பயன்பாட்டு நிகழ்வுகளின் பிரதிநிதி
-
துல்லியமாக லேபிளிடப்பட்டுள்ளது . ஒப்பந்த அளவீடுகள் (எ.கா., கப்பா-பாணி அளவீடுகள்) நிலைத்தன்மையை சரிபார்க்க உதவுகின்றன.
-
முழுமையானதாகவும் சமநிலையுடனும் இருக்கும் . சமநிலையின்மை இயல்பானது; அலட்சியம் அப்படியல்ல.
-
தெளிவான ஆதாரம் . சலிப்பூட்டும் ஆவணங்கள் உற்சாகமான வழக்குகளைத் தடுக்கின்றன.
-
நோக்கம் கொண்ட பயன்பாடு, வரம்புகள் மற்றும் அறியப்பட்ட தோல்வி முறைகளை விவரிக்கும் தரவு அட்டைகள் அல்லது தரவுத்தாள்களைப் பயன்படுத்தி நன்கு ஆவணப்படுத்தப்பட்டுள்ளது
-
நிர்வகிக்கப்படுகிறது . தரவுத்தொகுப்பை மீண்டும் உருவாக்க முடியாவிட்டால், மாதிரியை மீண்டும் உருவாக்க முடியாது. NIST இன் AI இடர் மேலாண்மை கட்டமைப்பின் தரவு தரம் மற்றும் ஆவணங்களை முதல் தர கவலைகளாகக் கருதுகிறது [3].
நீங்கள் என்ன செய்கிறீர்கள் என்பதன் அடிப்படையில் AI தரவுத்தொகுப்புகளின் வகைகள் 🧰
பணி வாரியாக
-
வகைப்பாடு - எ.கா., ஸ்பேம் vs ஸ்பேம் அல்ல, பட வகைகள்.
-
பின்னடைவு - விலை அல்லது வெப்பநிலை போன்ற தொடர்ச்சியான மதிப்பைக் கணிக்கவும்.
-
வரிசை லேபிளிங் - பெயரிடப்பட்ட நிறுவனங்கள், பேச்சின் பகுதிகள்.
-
தலைமுறை - சுருக்கம், மொழிபெயர்ப்பு, பட தலைப்பு.
-
பரிந்துரை - பயனர், உருப்படி, தொடர்புகள், சூழல்.
-
ஒழுங்கின்மை கண்டறிதல் - காலத் தொடர்கள் அல்லது பதிவுகளில் அரிதான நிகழ்வுகள்.
-
வலுவூட்டல் கற்றல் - நிலை, செயல், வெகுமதி, அடுத்த நிலை வரிசைகள்.
-
மீட்டெடுப்பு - ஆவணங்கள், வினவல்கள், பொருத்தமான தீர்ப்புகள்.
முறைப்படி
-
அட்டவணை - வயது, வருமானம், மாற்றம் போன்ற பத்திகள். குறைத்து மதிப்பிடப்பட்டது, மிகவும் பயனுள்ளதாக இருக்கும்.
-
உரை - ஆவணங்கள், அரட்டைகள், குறியீடு, மன்ற இடுகைகள், தயாரிப்பு விளக்கங்கள்.
-
படங்கள் - புகைப்படங்கள், மருத்துவ ஸ்கேன்கள், செயற்கைக்கோள் ஓடுகள்; முகமூடிகள், பெட்டிகள், முக்கிய புள்ளிகள் இருந்தாலும் இல்லாவிட்டாலும்.
-
ஆடியோ - அலைவடிவங்கள், டிரான்ஸ்கிரிப்டுகள், ஸ்பீக்கர் டேக்குகள்.
-
காணொளி - பிரேம்கள், தற்காலிக குறிப்புகள், செயல் லேபிள்கள்.
-
வரைபடங்கள் - முனைகள், விளிம்புகள், பண்புக்கூறுகள்.
-
நேரத் தொடர் - சென்சார்கள், நிதி, டெலிமெட்ரி.
மேற்பார்வை மூலம்
-
லேபிளிடப்பட்டது (தங்கம், வெள்ளி, தானியங்கி லேபிளிடப்பட்டது), பலவீனமாக லேபிளிடப்பட்டது , லேபிளிடப்படாதது , செயற்கை . கடையில் வாங்கும் கேக் கலவை நல்லதாக இருக்கலாம் - நீங்கள் பெட்டியைப் படித்தால்.
பெட்டியின் உள்ளே: அமைப்பு, பிளவுகள் மற்றும் மெட்டாடேட்டா 📦
ஒரு வலுவான தரவுத்தொகுப்பில் பொதுவாக பின்வருவன அடங்கும்:
-
ஸ்கீமா - தட்டச்சு செய்யப்பட்ட புலங்கள், அலகுகள், அனுமதிக்கப்பட்ட மதிப்புகள், பூஜ்ய கையாளுதல்.
-
பிளவுகள் - பயிற்சி, சரிபார்ப்பு, சோதனை. சோதனைத் தரவை சீல் வைத்திருங்கள் - கடைசி சாக்லேட் துண்டு போல அதை நடத்துங்கள்.
-
மாதிரித் திட்டம் - மக்கள்தொகையிலிருந்து நீங்கள் எவ்வாறு எடுத்துக்காட்டுகளைப் பெற்றீர்கள்; ஒரு பகுதி அல்லது சாதனத்திலிருந்து வசதி மாதிரிகளைத் தவிர்க்கவும்.
-
பெருக்கங்கள் - புரட்டல்கள், பயிர்கள், சத்தம், பொழிப்புரைகள், முகமூடிகள். நேர்மையாக இருக்கும்போது நல்லது; காடுகளில் ஒருபோதும் நடக்காத வடிவங்களை அவர்கள் கண்டுபிடிக்கும்போது தீங்கு விளைவிக்கும்.
-
பதிப்பு - டெல்டாக்களை விவரிக்கும் சேஞ்ச்லாக்களுடன் தரவுத்தொகுப்பு v0.1, v0.2….
-
உரிமங்கள் மற்றும் ஒப்புதல் - பயன்பாட்டு உரிமைகள், மறுபகிர்வு மற்றும் நீக்குதல் ஓட்டங்கள். தேசிய தரவு-பாதுகாப்பு ஒழுங்குமுறை நிறுவனங்கள் (எ.கா., UK ICO) நடைமுறை, சட்டப்பூர்வமான-செயலாக்க சரிபார்ப்புப் பட்டியல்களை வழங்குகின்றன [4].
தரவுத்தொகுப்பு வாழ்க்கைச் சுழற்சி, படிப்படியாக 🔁
-
முடிவை வரையறுக்கவும் - மாதிரி என்ன முடிவு செய்யும், அது தவறாக இருந்தால் என்ன நடக்கும்.
-
நோக்கம் அம்சங்கள் மற்றும் லேபிள்கள் - அளவிடக்கூடியவை, கவனிக்கக்கூடியவை, சேகரிக்க நெறிமுறை.
-
மூல தரவு - கருவிகள், பதிவுகள், ஆய்வுகள், பொது நிறுவனம், கூட்டாளர்கள்.
-
ஒப்புதல் மற்றும் சட்டப்பூர்வ - தனியுரிமை அறிவிப்புகள், விலகல்கள், தரவு குறைப்பு. “ஏன்” மற்றும் “எப்படி” [4] என்பதற்கான ஒழுங்குமுறை வழிகாட்டுதலைப் பார்க்கவும்.
-
சேகரித்து சேமித்தல் - பாதுகாப்பான சேமிப்பு, பங்கு அடிப்படையிலான அணுகல், PII கையாளுதல்.
-
லேபிள் - உள் விளக்கவுரையாளர்கள், கூட்ட திரட்டல், நிபுணர்கள்; தங்கப் பணிகள், தணிக்கைகள் மற்றும் ஒப்பந்த அளவீடுகள் மூலம் தரத்தை நிர்வகிக்கவும்.
-
சுத்தம் செய்து இயல்பாக்குங்கள் - குறைத்தல், காணாமல் போனதைக் கையாளுதல், அலகுகளை தரப்படுத்துதல், குறியாக்கத்தை சரிசெய்தல். சலிப்பூட்டும், வீரமான வேலை.
-
பிரித்து சரிபார்க்கவும் - கசிவைத் தடுக்கவும்; பொருத்தமான இடங்களில் அடுக்கடுக்காக; தற்காலிக தரவுகளுக்கு நேரத்தை அறிந்த பிளவுகளை விரும்புங்கள்; மேலும் வலுவான மதிப்பீடுகளுக்கு குறுக்கு சரிபார்ப்பை சிந்தனையுடன் பயன்படுத்தவும் [5].
-
ஆவணம் - தரவுத்தாள் அல்லது தரவு அட்டை; நோக்கம் கொண்ட பயன்பாடு, எச்சரிக்கைகள், வரம்புகள் [1].
-
கண்காணிப்பு மற்றும் புதுப்பித்தல் - சறுக்கல் கண்டறிதல், புதுப்பிப்பு கேடன்ஸ், சூரிய அஸ்தமனத் திட்டங்கள். NIST இன் AI RMF இந்த தொடர்ச்சியான நிர்வாக வளையத்தை வடிவமைக்கிறது [3].
விரைவான, நிஜ உலக வடிவ உதவிக்குறிப்பு: அணிகள் பெரும்பாலும் "டெமோவில் வெற்றி பெறுகின்றன" ஆனால் அவற்றின் தரவுத்தொகுப்பு அமைதியாக நகர்வதால் உற்பத்தியில் தடுமாறுகின்றன - புதிய தயாரிப்பு வரிசைகள், மறுபெயரிடப்பட்ட புலம் அல்லது மாற்றப்பட்ட கொள்கை. ஒரு எளிய சேஞ்ச்லாக் + அவ்வப்போது மறு-குறிப்பு பாஸ் அந்த வலியின் பெரும்பகுதியைத் தவிர்க்கிறது.
தரவு தரம் மற்றும் மதிப்பீடு - அது கேட்பதற்கு அவ்வளவு சலிப்பாக இல்லை 🧪
தரம் பல பரிமாணங்களைக் கொண்டது:
-
துல்லியம் - லேபிள்கள் சரியானதா? ஒப்பந்த அளவீடுகள் மற்றும் அவ்வப்போது மதிப்பீடுகளைப் பயன்படுத்தவும்.
-
முழுமை - உங்களுக்கு உண்மையிலேயே தேவைப்படும் துறைகள் மற்றும் வகுப்புகளை உள்ளடக்குங்கள்.
-
நிலைத்தன்மை - ஒத்த உள்ளீடுகளுக்கு முரண்பாடான லேபிள்களைத் தவிர்க்கவும்.
-
காலக்கெடு - பழைய தரவுகள் அனுமானங்களை படிமமாக்குகின்றன.
-
நியாயத்தன்மை & சார்பு - மக்கள்தொகை, மொழிகள், சாதனங்கள், சூழல்கள் முழுவதும் கவரேஜ்; விளக்கமான தணிக்கைகளுடன் தொடங்கி, பின்னர் அழுத்த சோதனைகள். ஆவணப்படுத்தல்-முதல் நடைமுறைகள் (தரவுத்தாள்கள், மாதிரி அட்டைகள்) இந்த சரிபார்ப்புகளை புலப்படும்படி செய்கின்றன [1], மேலும் நிர்வாக கட்டமைப்புகள் அவற்றை ஆபத்து கட்டுப்பாடுகளாக வலியுறுத்துகின்றன [3].
மாதிரி மதிப்பீட்டிற்கு, சரியான பிளவுகளைப் சராசரி அளவீடுகள் மற்றும் மோசமான குழு அளவீடுகள் இரண்டையும் கண்காணிக்கவும். ஒரு பளபளப்பான சராசரி ஒரு பள்ளத்தை மறைக்கக்கூடும். குறுக்கு சரிபார்ப்பு அடிப்படைகள் நிலையான ML கருவி ஆவணங்களில் [5] நன்கு உள்ளடக்கப்பட்டுள்ளன.
நெறிமுறைகள், தனியுரிமை மற்றும் உரிமம் - பாதுகாப்புத் தடுப்புகள் 🛡️
நெறிமுறை தரவு ஒரு அதிர்வு அல்ல, அது ஒரு செயல்முறை:
-
ஒப்புதல் மற்றும் நோக்க வரம்பு - பயன்பாடுகள் மற்றும் சட்ட அடிப்படைகள் பற்றி வெளிப்படையாக இருங்கள் [4].
-
PII கையாளுதல் - பொருத்தமாக இருந்தால் குறைக்கவும், புனைப்பெயர் சூட்டவும் அல்லது அநாமதேயமாக்கவும்; அபாயங்கள் அதிகமாக இருக்கும்போது தனியுரிமையை மேம்படுத்தும் தொழில்நுட்பத்தைக் கருத்தில் கொள்ளவும்.
-
பண்புக்கூறு மற்றும் உரிமங்கள் - பகிர்வு மற்றும் வணிக பயன்பாட்டு கட்டுப்பாடுகளை மதிக்கவும்.
-
சார்பு & தீங்கு - போலியான தொடர்புகளுக்கான தணிக்கை ("பகல் = பாதுகாப்பானது" இரவில் மிகவும் குழப்பமாக இருக்கும்).
-
சரிசெய்தல் - கோரிக்கையின் பேரில் தரவை எவ்வாறு அகற்றுவது மற்றும் அதில் பயிற்சி பெற்ற மாதிரிகளை எவ்வாறு திரும்பப் பெறுவது என்பதை அறிந்து கொள்ளுங்கள் (இதை உங்கள் தரவுத்தாளில் ஆவணப்படுத்தவும்) [1].
எவ்வளவு பெரியது போதுமானது? அளவு மற்றும் சிக்னல்-டு-இரைச்சல் 📏
முக்கிய விதி: அதிக எடுத்துக்காட்டுகள் பொதுவாக பொருத்தமானவையாகவும், கிட்டத்தட்ட நகல்களாக இல்லாவிட்டால் உதவும். ஆனால் சில நேரங்களில் மலைபோன்ற குழப்பமான மாதிரிகளை விட குறைவான, சுத்தமான, சிறப்பாக பெயரிடப்பட்ட மாதிரிகளுடன் நீங்கள் சிறப்பாக இருப்பீர்கள் .
கவனியுங்கள்:
-
கற்றல் வளைவுகள் - நீங்கள் தரவு-கட்டமைக்கப்பட்டவரா அல்லது மாதிரி-கட்டமைக்கப்பட்டவரா என்பதைப் பார்க்க, சதி செயல்திறன் vs. மாதிரி அளவு.
-
நீண்ட வால் கவரேஜ் - அரிதான ஆனால் முக்கியமான வகுப்புகளுக்கு பெரும்பாலும் அதிக அளவில் சேகரிப்பு தேவையில்லை, இலக்கு சேகரிப்பு தேவைப்படுகிறது.
-
சத்தத்தைக் குறிக்கவும் - அளந்து, பின்னர் குறை; சிறிதளவு பொறுத்துக்கொள்ளக்கூடியது, ஒரு அலை தாங்க முடியாதது.
-
பரவல் மாற்றம் - ஒரு பகுதி அல்லது சேனலில் இருந்து பயிற்சி தரவு மற்றொரு பகுதிக்கு பொதுமைப்படுத்தப்படாமல் போகலாம்; இலக்கு போன்ற சோதனைத் தரவுகளில் சரிபார்க்கவும் [5].
சந்தேகம் இருந்தால், சிறிய சோதனை முயற்சிகளை மேற்கொண்டு விரிவாக்குங்கள். இது சுவையூட்டல்-சேர்த்தல், சுவைத்தல், சரிசெய்தல், மீண்டும் செய்தல் போன்றது.
தரவுத்தொகுப்புகளை எங்கே கண்டுபிடித்து நிர்வகிப்பது 🗂️
பிரபலமான வளங்கள் மற்றும் கருவிகள் (இப்போது URLகளை மனப்பாடம் செய்ய வேண்டிய அவசியமில்லை):
-
முகத்தை அணைத்துக்கொள்வதற்கான தரவுத்தொகுப்புகள் - நிரல் ரீதியாக ஏற்றுதல், செயலாக்குதல், பகிர்தல்.
-
கூகிள் தரவுத்தொகுப்பு தேடல் - இணையம் முழுவதும் மெட்டா தேடல்.
-
UCI ML களஞ்சியம் - அடிப்படைகள் மற்றும் கற்பித்தலுக்கான தொகுக்கப்பட்ட கிளாசிக்ஸ்.
-
OpenML - பணிகள் + தரவுத்தொகுப்புகள் + மூலத்துடன் இயங்குகிறது.
-
AWS திறந்த தரவு / கூகிள் கிளவுட் பொது தரவுத்தொகுப்புகள் - ஹோஸ்ட் செய்யப்பட்ட, பெரிய அளவிலான கார்ப்பரேட்.
ப்ரோ குறிப்பு: பதிவிறக்கம் மட்டும் செய்யாதீர்கள். உரிமம் மற்றும் தரவுத்தாள் ஆகியவற்றைப் படித்து , பின்னர் பதிப்பு எண்கள் மற்றும் மூலத்துடன் உங்கள் சொந்த நகலை ஆவணப்படுத்தவும் [1].
லேபிளிங் மற்றும் குறிப்பு - உண்மை பேச்சுவார்த்தை நடத்தப்படும் இடம் ✍️
உங்கள் தத்துவார்த்த லேபிள் வழிகாட்டி யதார்த்தத்துடன் மல்யுத்தம் செய்யும் இடம் குறிப்பு:
-
பணி வடிவமைப்பு - எடுத்துக்காட்டுகள் மற்றும் எதிர் எடுத்துக்காட்டுகளுடன் தெளிவான வழிமுறைகளை எழுதுங்கள்.
-
விளக்கவுரையாளர் பயிற்சி - தங்க பதில்களுடன் விதை, அளவுத்திருத்த சுற்றுகளை இயக்கவும்.
-
தரக் கட்டுப்பாடு - ஒப்பந்த அளவீடுகள், ஒருமித்த வழிமுறைகள் மற்றும் அவ்வப்போது தணிக்கைகளைப் பயன்படுத்தவும்.
-
கருவியாக்கம் - திட்டச் சரிபார்ப்பைச் செயல்படுத்தும் கருவிகளைத் தேர்வுசெய்து வரிசைகளை மதிப்பாய்வு செய்யவும்; விரிதாள்கள் கூட விதிகள் மற்றும் சரிபார்ப்புகளுடன் வேலை செய்ய முடியும்.
-
பின்னூட்ட சுழல்கள் - வழிகாட்டியைச் செம்மைப்படுத்த, சிறுகுறிப்பு குறிப்புகளைப் பிடிக்கவும் மற்றும் மாதிரி தவறுகளைப் பிடிக்கவும்.
காற்புள்ளிகளைப் பற்றி உடன்படாத மூன்று நண்பர்களுடன் சேர்ந்து ஒரு அகராதியைத் திருத்துவது போல் உணர்ந்தால்... அது சாதாரணமானது. 🙃
தரவு ஆவணங்கள் - மறைமுகமான அறிவை வெளிப்படையாக்குதல் 📒
ஒரு இலகுரக தரவுத்தாள் அல்லது தரவு அட்டை பின்வருவனவற்றை உள்ளடக்கியிருக்க வேண்டும்:
-
யார் அதை சேகரித்தார்கள், எப்படி, ஏன்.
-
நோக்கம் கொண்ட பயன்பாடுகள் மற்றும் எல்லைக்கு அப்பாற்பட்ட பயன்பாடுகள்.
-
அறியப்பட்ட இடைவெளிகள், சார்புகள் மற்றும் தோல்வி முறைகள்.
-
லேபிளிங் நெறிமுறை, QA படிகள் மற்றும் ஒப்பந்த புள்ளிவிவரங்கள்.
-
உரிமம், ஒப்புதல், சிக்கல்களுக்கான தொடர்பு, நீக்குதல் செயல்முறை.
வார்ப்புருக்கள் மற்றும் எடுத்துக்காட்டுகள்: தரவுத்தொகுப்புகள் மற்றும் மாதிரி அட்டைகளுக்கான பரவலாகப் பயன்படுத்தப்படும் தொடக்கப் புள்ளிகளாகும் [1].
நீங்கள் உருவாக்கும்போதே எழுதுங்கள், பிறகு எழுத வேண்டாம். நினைவகம் என்பது ஒரு சீரற்ற சேமிப்பு ஊடகம்.
ஒப்பீட்டு அட்டவணை - AI தரவுத்தொகுப்புகளைக் கண்டறிய அல்லது ஹோஸ்ட் செய்ய வேண்டிய இடங்கள் 📊
ஆமாம், இது கொஞ்சம் கருத்து வேறுபாடு கொண்டது. வேண்டுமென்றே வார்த்தைகள் சற்று சீரற்றதாக உள்ளன. பரவாயில்லை.
| கருவி / ரெப்போ | பார்வையாளர்கள் | விலை | இது ஏன் நடைமுறையில் வேலை செய்கிறது |
|---|---|---|---|
| கட்டிப்பிடிக்கும் முகத் தரவுத்தொகுப்புகள் | ஆராய்ச்சியாளர்கள், பொறியாளர்கள் | ஃப்ரீ-டையர் | வேகமாக ஏற்றுதல், ஸ்ட்ரீமிங், சமூக ஸ்கிரிப்டுகள்; சிறந்த ஆவணங்கள்; பதிப்பு செய்யப்பட்ட தரவுத்தொகுப்புகள் |
| கூகிள் தரவுத்தொகுப்பு தேடல் | அனைவரும் | இலவசம் | பரந்த மேற்பரப்பு; கண்டுபிடிப்புக்கு சிறந்தது; சில நேரங்களில் சீரற்ற மெட்டாடேட்டா. |
| UCI ML களஞ்சியம் | மாணவர்கள், கல்வியாளர்கள் | இலவசம் | தேர்ந்தெடுக்கப்பட்ட கிளாசிக்ஸ்; சிறியது ஆனால் நேர்த்தியானது; அடிப்படைகளுக்கும் கற்பித்தலுக்கும் நல்லது. |
| ஓபன்எம்எல் | ரெப்ரோ ஆராய்ச்சியாளர்கள் | இலவசம் | பணிகள் + தரவுத்தொகுப்புகள் + ஒன்றாக இயங்குகின்றன; நல்ல மூலப் பாதைகள் |
| AWS திறந்த தரவு பதிவேடு | தரவு பொறியாளர்கள் | பெரும்பாலும் இலவசம் | பெட்டாபைட் அளவிலான ஹோஸ்டிங்; கிளவுட்-நேட்டிவ் அணுகல்; வெளியேறும் செலவுகளைக் கண்காணித்தல் |
| Kaggle தரவுத்தொகுப்புகள் | பயிற்சியாளர்கள் | இலவசம் | எளிதான பகிர்வு, ஸ்கிரிப்டுகள், போட்டிகள்; சமூக சமிக்ஞைகள் சத்தத்தை வடிகட்ட உதவுகின்றன. |
| கூகிள் கிளவுட் பொது தரவுத்தொகுப்புகள் | ஆய்வாளர்கள், குழுக்கள் | இலவசம் + மேகம் | கம்ப்யூட் அருகே ஹோஸ்ட் செய்யப்பட்டது; BigQuery ஒருங்கிணைப்பு; பில்லிங்கில் கவனமாக இருங்கள். |
| கல்வி இணையதளங்கள், ஆய்வகங்கள் | முக்கிய நிபுணர்கள் | மாறுபடும் | மிகவும் சிறப்பு வாய்ந்தது; சில நேரங்களில் ஆவணப்படுத்தப்படாதது - இன்னும் தேடலுக்கு மதிப்புள்ளது |
(ஒரு செல் பேசுவதாகத் தோன்றினால், அது வேண்டுமென்றே செய்யப்படுகிறது.)
உங்கள் முதல் ஒன்றை உருவாக்குதல் - ஒரு நடைமுறை ஸ்டார்டர் கிட் 🛠️
நீங்கள் "AI தரவுத்தொகுப்பு என்றால் என்ன" என்பதிலிருந்து "நான் ஒன்றை உருவாக்கினேன், அது வேலை செய்கிறது" என்பதற்கு மாற விரும்புகிறீர்கள். இந்த குறைந்தபட்ச பாதையை முயற்சிக்கவும்:
-
முடிவு மற்றும் அளவீட்டை எழுதுங்கள் - எ.கா., சரியான அணியைக் கணிப்பதன் மூலம் உள்வரும் ஆதரவு தவறான வழிகளைக் குறைக்கவும். அளவீடு: மேக்ரோ-F1.
-
5 நேர்மறை மற்றும் 5 எதிர்மறை உதாரணங்களை பட்டியலிடுங்கள் - உண்மையான டிக்கெட்டுகளை மாதிரியாகக் கொள்ளுங்கள்; புனைய வேண்டாம்.
-
ஒரு லேபிள் வழிகாட்டியை வரைவு செய்யுங்கள் - ஒரு பக்கம்; வெளிப்படையான சேர்த்தல்/விலக்கு விதிகள்.
-
ஒரு சிறிய, உண்மையான மாதிரியைச் சேகரிக்கவும் - பல்வேறு பிரிவுகளில் சில நூறு டிக்கெட்டுகள்; உங்களுக்குத் தேவையில்லாத PII ஐ அகற்று.
-
கசிவு சரிபார்ப்புகளுடன் பிரித்தல் - ஒரே வாடிக்கையாளரிடமிருந்து வரும் அனைத்து செய்திகளையும் ஒரே பிரிவில் வைத்திருங்கள்; மாறுபாட்டை மதிப்பிடுவதற்கு குறுக்கு சரிபார்ப்பைப் பயன்படுத்தவும் [5].
-
QA உடன் குறிப்பு எழுதுங்கள் - ஒரு துணைக்குழுவில் இரண்டு குறிப்புரையாளர்கள்; கருத்து வேறுபாடுகளைத் தீர்க்கவும்; வழிகாட்டியைப் புதுப்பிக்கவும்.
-
ஒரு எளிய அடிப்படைத் திட்டத்தைப் பயிற்றுவிக்கவும் - தளவாடங்கள் (எ.கா., நேரியல் மாதிரிகள் அல்லது சிறிய மின்மாற்றிகள்). பதக்கங்களை வெல்வதல்ல, தரவைச் சோதிப்பதே இதன் நோக்கம்.
-
பிழைகளை மதிப்பாய்வு செய்யவும் - அது எங்கே தோல்வியடைகிறது, ஏன்; மாதிரியை மட்டும் புதுப்பிக்காமல், தரவுத்தொகுப்பையும் புதுப்பிக்கவும்.
-
ஆவணம் - சிறிய தரவுத்தாள்: மூலம், லேபிள் வழிகாட்டி இணைப்பு, பிளவுகள், அறியப்பட்ட வரம்புகள், உரிமம் [1].
-
திட்டத்தைப் புதுப்பித்தல் - புதிய பிரிவுகள், புதிய பேச்சுவழக்கு, புதிய களங்கள் வரும்; சிறிய, அடிக்கடி புதுப்பிப்புகளைத் திட்டமிடுங்கள் [3].
ஆயிரம் ஹாட் டேக்குகளை விட இந்த லூப்பிலிருந்து நீங்கள் அதிகம் கற்றுக்கொள்வீர்கள். மேலும், காப்புப்பிரதிகளை வைத்திருங்கள். தயவுசெய்து.
அணிகளில் பதுங்கிச் செல்லும் பொதுவான தவறுகள் 🪤
-
தரவு கசிவு - பதில் அம்சங்களுக்குள் நழுவுகிறது (எ.கா., விளைவுகளை கணிக்க தீர்மானத்திற்குப் பிந்தைய புலங்களைப் பயன்படுத்துதல்). அது ஏமாற்றுவது போல் உணர்கிறது, ஏனெனில் அது அப்படித்தான்.
-
மேலோட்டமான பன்முகத்தன்மை - ஒரு புவியியல் அல்லது சாதனம் உலகளாவியதாக மாறுவேடமிடுகிறது. சோதனைகள் சதித் திருப்பத்தை வெளிப்படுத்தும்.
-
லேபிள் சறுக்கல் - அளவுகோல்கள் காலப்போக்கில் மாறுகின்றன, ஆனால் லேபிள் வழிகாட்டி மாறுவதில்லை. உங்கள் ஆன்டாலஜியை ஆவணப்படுத்தி பதிப்பு செய்யுங்கள்.
-
குறிப்பிடப்படாத குறிக்கோள்கள் - தவறான கணிப்பை உங்களால் வரையறுக்க முடியாவிட்டால், உங்கள் தரவும் வரையறுக்காது.
-
ஒழுங்கற்ற உரிமங்கள் - இப்போது ரத்து செய்துவிட்டு, பின்னர் மன்னிப்பு கேட்பது ஒரு உத்தி அல்ல.
-
அதிகப்படியான பெருக்கம் - பிளாஸ்டிக் பழங்களில் ஒரு சமையல்காரருக்கு பயிற்சி அளிப்பது போன்ற, நடைமுறைக்கு மாறான கலைப்பொருட்களை கற்பிக்கும் செயற்கை தரவு.
இந்த சொற்றொடரைப் பற்றிய விரைவான கேள்விகள் ❓
-
"AI தரவுத்தொகுப்பு என்றால் என்ன?" என்பது வெறும் வரையறை விஷயமா? பெரும்பாலும், ஆனால் இது மாதிரிகளை நம்பகமானதாக மாற்றும் சலிப்பான பிட்களைப் பற்றி நீங்கள் அக்கறை கொள்கிறீர்கள் என்பதற்கான சமிக்ஞையாகும்.
-
எனக்கு எப்போதும் லேபிள்கள் தேவையா? இல்லை. மேற்பார்வை செய்யப்படாத, சுய மேற்பார்வையிடப்பட்ட மற்றும் RL அமைப்புகள் பெரும்பாலும் வெளிப்படையான லேபிள்களைத் தவிர்க்கின்றன, ஆனால் க்யூரேஷனை இன்னும் முக்கியம்.
-
பொதுத் தரவை எதற்கும் பயன்படுத்தலாமா? இல்லை. உரிமங்கள், தள விதிமுறைகள் மற்றும் தனியுரிமைக் கடமைகளை மதிக்கவும் [4].
-
பெரியதா அல்லது சிறந்ததா? இரண்டுமே சிறந்தது. நீங்கள் தேர்வு செய்ய வேண்டும் என்றால், முதலில் சிறந்ததைத் தேர்வுசெய்க.
இறுதி குறிப்புகள் - நீங்கள் என்ன ஸ்கிரீன்ஷாட் எடுக்கலாம் 📌
AI தரவுத்தொகுப்பு என்றால் என்ன என்று யாராவது உங்களிடம் கேட்டால் , சொல்லுங்கள்: இது ஒரு மாதிரியைக் கற்பிக்கும் மற்றும் சோதிக்கும் எடுத்துக்காட்டுகளின் ஒரு தொகுக்கப்பட்ட, ஆவணப்படுத்தப்பட்ட தொகுப்பு, மக்கள் முடிவுகளை நம்பும் வகையில் நிர்வாகத்தில் மூடப்பட்டிருக்கும். சிறந்த தரவுத்தொகுப்புகள் பிரதிநிதித்துவம், நன்கு பெயரிடப்பட்டவை, சட்டப்பூர்வமாக சுத்தமாகவும், தொடர்ந்து பராமரிக்கப்படும் வகையிலும் உள்ளன. மீதமுள்ளவை விவரங்கள்-முக்கியமான விவரங்கள்-கட்டமைப்பு, பிளவுகள் மற்றும் மாதிரிகள் போக்குவரத்தில் அலைவதைத் தடுக்கும் அனைத்து சிறிய பாதுகாப்புத் தடுப்புகள் பற்றியது. சில நேரங்களில் செயல்முறை விரிதாள்களுடன் தோட்டக்கலை செய்வது போல உணர்கிறது; சில நேரங்களில் பிக்சல்களை மேய்ப்பது போல. எப்படியிருந்தாலும், தரவில் முதலீடு செய்யுங்கள், உங்கள் மாதிரிகள் குறைவாக வித்தியாசமாக செயல்படும். 🌱🤖
குறிப்புகள்
[1] தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள் - கெப்ரு மற்றும் பலர், arXiv. இணைப்பு
[2] மாதிரி அறிக்கையிடலுக்கான மாதிரி அட்டைகள் - மிட்செல் மற்றும் பலர், arXiv. இணைப்பு
[3] NIST செயற்கை நுண்ணறிவு இடர் மேலாண்மை கட்டமைப்பு (AI RMF 1.0) . இணைப்பு
[4] UK GDPR வழிகாட்டுதல் மற்றும் வளங்கள் - தகவல் ஆணையர் அலுவலகம் (ICO). இணைப்பு
[5] குறுக்கு சரிபார்ப்பு: மதிப்பீட்டாளர் செயல்திறனை மதிப்பீடு செய்தல் - scikit-learn பயனர் வழிகாட்டி. இணைப்பு