நீங்கள் எப்போதாவது ஒரு மாடலை ஒரு நோட்புக்கில் பிரமிக்க வைத்தாலும், உற்பத்தியில் தடுமாறினீர்கள் என்றால், உங்களுக்கு ஏற்கனவே ரகசியம் தெரியும்: AI செயல்திறனை எவ்வாறு அளவிடுவது என்பது ஒரு மாயாஜால அளவீடு அல்ல. இது நிஜ உலக இலக்குகளுடன் இணைக்கப்பட்ட சோதனைகளின் அமைப்பு. துல்லியம் அழகாக இருக்கிறது. நம்பகத்தன்மை, பாதுகாப்பு மற்றும் வணிக தாக்கம் சிறந்தது.
இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:
🔗 AI உடன் எப்படி பேசுவது
தொடர்ந்து சிறந்த முடிவுகளுக்கு AI உடன் திறம்பட தொடர்புகொள்வதற்கான வழிகாட்டி.
🔗 AI தூண்டுதல் என்றால் என்ன?
தூண்டுதல்கள் AI பதில்களையும் வெளியீட்டு தரத்தையும் எவ்வாறு வடிவமைக்கின்றன என்பதை விளக்குகிறது.
🔗 AI தரவு லேபிளிங் என்றால் என்ன?
பயிற்சி மாதிரிகளுக்கான தரவுகளுக்கு துல்லியமான லேபிள்களை ஒதுக்குவது பற்றிய கண்ணோட்டம்.
🔗 AI நெறிமுறைகள் என்றால் என்ன?
பொறுப்பான AI மேம்பாடு மற்றும் பயன்பாட்டை வழிநடத்தும் நெறிமுறைக் கொள்கைகளுக்கான அறிமுகம்.
நல்ல AI செயல்திறனை உருவாக்குவது எது? ✅
சுருக்கமான விளக்கம்: நல்ல AI செயல்திறன் என்பது உங்கள் கணினி பயனுள்ளதாகவும், நம்பகமானதாகவும், குழப்பமான, மாறிவரும் சூழ்நிலைகளில் மீண்டும் மீண்டும் செய்யக்கூடியதாகவும் இருப்பதைக் குறிக்கிறது. திட்டவட்டமாக:
-
பணியின் தரம் - சரியான காரணங்களுக்காக சரியான பதில்களைப் பெறுகிறது.
-
அளவுத்திருத்தம் - நம்பிக்கை மதிப்பெண்கள் யதார்த்தத்துடன் ஒத்துப்போகின்றன, எனவே நீங்கள் புத்திசாலித்தனமான நடவடிக்கை எடுக்கலாம்.
-
உறுதித்தன்மை - இது சறுக்கல், விளிம்பு நிலைகள் மற்றும் எதிராளியின் குழப்பங்களுக்கு ஆளாகாமல் தாங்கும்.
-
பாதுகாப்பு மற்றும் நியாயம் - இது தீங்கு விளைவிக்கும், பாரபட்சமான அல்லது இணக்கமற்ற நடத்தையைத் தவிர்க்கிறது.
-
செயல்திறன் - இது போதுமான அளவு வேகமானது, போதுமான மலிவானது மற்றும் அளவில் இயங்கும் அளவுக்கு நிலையானது.
-
வணிக தாக்கம் - இது உண்மையில் நீங்கள் விரும்பும் KPI ஐ நகர்த்துகிறது.
அளவீடுகள் மற்றும் அபாயங்களை சீரமைப்பதற்கான முறையான குறிப்புப் புள்ளியை நீங்கள் விரும்பினால், நம்பகமான அமைப்பு மதிப்பீட்டிற்கு NIST AI இடர் மேலாண்மை கட்டமைப்பு

AI செயல்திறனை அளவிடுவதற்கான உயர்நிலை செய்முறை 🍳
மூன்று நிலைகளில் சிந்தியுங்கள் :
-
பணி அளவீடுகள் - பணி வகைக்கான சரியான தன்மை: வகைப்பாடு, பின்னடைவு, தரவரிசை, உருவாக்கம், கட்டுப்பாடு போன்றவை.
-
கணினி அளவீடுகள் - தாமதம், செயல்திறன், அழைப்புக்கான செலவு, தோல்வி விகிதங்கள், சறுக்கல் அலாரங்கள், இயக்க நேர SLAகள்.
-
விளைவு அளவீடுகள் - நீங்கள் உண்மையில் விரும்பும் வணிகம் மற்றும் பயனர் விளைவுகள்: மாற்றம், தக்கவைப்பு, பாதுகாப்பு சம்பவங்கள், கைமுறை மதிப்பாய்வு சுமை, டிக்கெட் அளவு.
ஒரு சிறந்த அளவீட்டுத் திட்டம் வேண்டுமென்றே மூன்றையும் கலக்கிறது. இல்லையெனில், ஏவுதளத்தை விட்டு ஒருபோதும் வெளியேறாத ஒரு ராக்கெட்டைப் பெறுவீர்கள்.
சிக்கல் வகையின் அடிப்படையில் முக்கிய அளவீடுகள் - மற்றும் எப்போது எதைப் பயன்படுத்த வேண்டும் 🎯
1) வகைப்பாடு
-
துல்லியம், நினைவுகூரல், F1 - முதல் நாள் மூவர். F1 என்பது துல்லியம் மற்றும் நினைவுகூரல் ஆகியவற்றின் ஹார்மோனிக் சராசரி; வகுப்புகள் சமநிலையற்றதாக இருக்கும்போது அல்லது செலவுகள் சமச்சீரற்றதாக இருக்கும்போது பயனுள்ளதாக இருக்கும். [2]
-
ROC-AUC - வகைப்படுத்திகளின் வரம்பு-அக்னோஸ்டிக் தரவரிசை; நேர்மறைகள் அரிதாக இருக்கும்போது, PR-AUC . [2]
-
சமச்சீர் துல்லியம் - வகுப்புகள் முழுவதும் நினைவுகூரும் சராசரி; சாய்ந்த லேபிள்களுக்கு ஏற்றது. [2]
ஆபத்து கண்காணிப்பு: துல்லியம் மட்டுமே சமநிலையின்மையுடன் பெருமளவில் தவறாக வழிநடத்தும். 99% பயனர்கள் முறையானவர்களாக இருந்தால், ஒரு முட்டாள் எப்போதும் முறையான மாடல் 99% மதிப்பெண் பெற்று மதிய உணவுக்கு முன் உங்கள் மோசடி குழுவைத் தோல்வியடையச் செய்யும்.
2) பின்னடைவு
-
மனிதர்களால் புரிந்துகொள்ளக்கூடிய பிழைக்கு MAE பெரிய தவறுகளைத் தண்டிக்க விரும்பும் போது RMSE மாறுபாட்டிற்கு
R² (பங்குதாரர்கள் உண்மையில் பிழையை உணரக்கூடிய வகையில் டொமைன்-நட்பு அலகுகளைப் பயன்படுத்தவும்.)
3) தரவரிசைப்படுத்தல், மீட்டெடுப்பு, பரிந்துரைகள்
-
nDCG - நிலை மற்றும் தரப்படுத்தப்பட்ட பொருத்தத்தைப் பற்றி அக்கறை கொண்டுள்ளது; தேடல் தரத்திற்கான தரநிலை.
-
MRR - முதல் தொடர்புடைய உருப்படி எவ்வளவு விரைவாகத் தோன்றும் என்பதில் கவனம் செலுத்துகிறது ("ஒரு நல்ல பதிலைக் கண்டறிய" பணிகளுக்கு சிறந்தது).
(செயல்படுத்தல் குறிப்புகள் மற்றும் வேலை செய்யப்பட்ட எடுத்துக்காட்டுகள் பிரதான மெட்ரிக் நூலகங்களில் உள்ளன.) [2]
4) உரை உருவாக்கம் மற்றும் சுருக்கம்
-
BLEU மற்றும் ROUGE - கிளாசிக் மேற்பொருந்துதல் அளவீடுகள்; அடிப்படைகளாக பயனுள்ளதாக இருக்கும்.
-
உட்பொதித்தல் அடிப்படையிலான அளவீடுகள் (எ.கா., BERTScore ) பெரும்பாலும் மனித தீர்ப்புடன் சிறப்பாக தொடர்புடையவை; எப்போதும் பாணி, நம்பகத்தன்மை மற்றும் பாதுகாப்பிற்கான மனித மதிப்பீடுகளுடன் இணைக்கப்படுகின்றன. [4]
5) கேள்வி பதில்
-
Exact Match மற்றும் டோக்கன்-நிலை F1 பொதுவானவை; பதில்கள் மூலங்களை மேற்கோள் காட்ட வேண்டும் என்றால், அடிப்படையையும் (பதில்-ஆதரவு சரிபார்ப்புகள்).
அளவுத்திருத்தம், நம்பிக்கை மற்றும் பிரையர் லென்ஸ் 🎚️
நம்பிக்கை மதிப்பெண்கள் என்பது பல அமைப்புகள் அமைதியாக இருக்கும் இடமாகும். யதார்த்தத்தை பிரதிபலிக்கும் நிகழ்தகவுகளை நீங்கள் விரும்புகிறீர்கள், இதனால் ops வரம்புகள், மனிதர்களுக்கான பாதை அல்லது விலை அபாயத்தை அமைக்க முடியும்.
-
அளவுத்திருத்த வளைவுகள் - கணிக்கப்பட்ட நிகழ்தகவு vs. அனுபவ அதிர்வெண்ணைக் காட்சிப்படுத்துங்கள்.
-
பிரையர் மதிப்பெண் - நிகழ்தகவு துல்லியத்திற்கான சரியான மதிப்பெண் விதி; குறைவாக இருந்தால் நல்லது. தரவரிசையில் மட்டுமல்லாமல், நிகழ்தகவின் தரத்திலும்
கள குறிப்பு: சற்று "மோசமான" F1 ஆனால் மிகச் சிறந்த அளவுத்திருத்தம் பெருமளவில் மேம்படுத்தலாம் - ஏனெனில் மக்கள் இறுதியாக மதிப்பெண்களை நம்பலாம்.
பாதுகாப்பு, சார்பு மற்றும் நியாயம் - எது முக்கியம் என்பதை அளவிடவும் 🛡️⚖️
ஒரு அமைப்பு ஒட்டுமொத்தமாக துல்லியமாக இருக்க முடியும், அதே நேரத்தில் குறிப்பிட்ட குழுக்களுக்கு தீங்கு விளைவிக்கும். தொகுக்கப்பட்ட அளவீடுகள் மற்றும் நியாயத்தன்மை அளவுகோல்களைக் கண்காணிக்கவும்:
-
மக்கள்தொகை சமநிலை - குழுக்களிடையே சமமான நேர்மறை விகிதங்கள்.
-
சமப்படுத்தப்பட்ட முரண்பாடுகள் / சம வாய்ப்பு - குழுக்களிடையே சமமான பிழை விகிதங்கள் அல்லது உண்மை-நேர்மறை விகிதங்கள்; இவற்றை ஒரு முறை மட்டுமே கடந்து செல்லும்-தோல்வி முத்திரைகளாக அல்லாமல், வர்த்தக பரிமாற்றங்களைக் கண்டறிந்து நிர்வகிக்கப் பயன்படுத்தவும். [5]
நடைமுறை குறிப்பு: முக்கிய அளவீடுகளை முக்கிய பண்புகளின் அடிப்படையில் பிரிக்கும் டாஷ்போர்டுகளுடன் தொடங்குங்கள், பின்னர் உங்கள் கொள்கைகளுக்குத் தேவையான குறிப்பிட்ட நியாயத்தன்மை அளவீடுகளைச் சேர்க்கவும். இது சிக்கலானதாகத் தோன்றலாம், ஆனால் இது ஒரு சம்பவத்தை விட மலிவானது.
LLMகள் மற்றும் RAG - உண்மையில் வேலை செய்யும் ஒரு அளவீட்டு விளையாட்டு புத்தகம் 📚🔍
உற்பத்தி அமைப்புகளை அளவிடுவது... கடினமானது. இதைச் செய்யுங்கள்:
-
விளைவுகளை வரையறுக்கவும் : சரியான தன்மை, உதவிகரமான தன்மை, தீங்கற்ற தன்மை, பாணி பின்பற்றுதல், பிராண்டின் தொனி, மேற்கோள் அடிப்படை, மறுப்பு தரம்.
-
வலுவான கட்டமைப்புகளுடன் (எ.கா., உங்கள் அடுக்கில் மதிப்பீட்டு கருவி) அடிப்படை மதிப்பீடுகளை தானியங்குபடுத்தி
-
நல்லறிவுக்காக சொற்பொருள் அளவீடுகள் (உட்பொதித்தல் அடிப்படையிலானது) மற்றும் மேற்பொருந்துதல் அளவீடுகள் (BLEU/ROUGE) ஆகியவற்றைச் சேர்க்கவும்
-
கருவி அடிப்படை : மீட்டெடுப்பு வெற்றி விகிதம், சூழல் துல்லியம்/நினைவுகூர்தல், பதில்-ஆதரவு ஒன்றுடன் ஒன்று.
-
உடன்பாட்டுடன் கூடிய மனித மதிப்பாய்வு - மதிப்பீட்டாளர் நிலைத்தன்மையை அளவிடவும் (எ.கா., கோஹனின் κ அல்லது ஃப்ளீஸ்' κ) எனவே உங்கள் லேபிள்கள் அதிர்வுகளாக இருக்காது.
போனஸ்: தாமத சதவீதங்களைப் பதிவுசெய்தல் மற்றும் ஒரு பணிக்கான டோக்கன் அல்லது கணக்கீட்டு செலவு. அடுத்த செவ்வாய்க்கிழமை வரும் கவிதை பதிலை யாரும் விரும்புவதில்லை.
ஒப்பீட்டு அட்டவணை - AI செயல்திறனை அளவிட உதவும் கருவிகள் 🛠️📊
(ஆமாம், இது வேண்டுமென்றே கொஞ்சம் குழப்பமாக இருக்கிறது - உண்மையான குறிப்புகள் குழப்பமாக இருக்கின்றன.)
| கருவி | சிறந்த பார்வையாளர்கள் | விலை | இது ஏன் வேலை செய்கிறது - விரைவாக எடுத்துக் கொள்ளுங்கள் |
|---|---|---|---|
| scikit-கற்றல் அளவீடுகள் | எம்.எல். பயிற்சியாளர்கள் | இலவசம் | வகைப்பாடு, பின்னடைவு, தரவரிசைப்படுத்தலுக்கான நியமன செயல்படுத்தல்கள்; சோதனைகளில் சேர்க்க எளிதானது. [2] |
| MLflow மதிப்பீடு / GenAI | தரவு விஞ்ஞானிகள், எம்.எல்.ஓ.பி.எஸ். | இலவசம் + கட்டணம் | மையப்படுத்தப்பட்ட ரன்கள், தானியங்கி அளவீடுகள், LLM நடுவர்கள், தனிப்பயன் மதிப்பெண் பெற்றவர்கள்; கலைப்பொருட்களை சுத்தமாக பதிவு செய்கிறார்கள். |
| வெளிப்படையாக | டாஷ்போர்டுகளை விரைவாக விரும்பும் அணிகள் | OSS + மேகம் | 100+ அளவீடுகள், சறுக்கல் மற்றும் தர அறிக்கைகள், கண்காணிப்பு ஹூக்குகள் - ஒரு சிட்டிகையில் அழகான காட்சிகள். |
| எடைகள் & சார்புகள் | பரிசோதனை மிகுந்த அமைப்புகள் | இலவச அடுக்கு | பக்கவாட்டு ஒப்பீடுகள், மதிப்பீடு தரவுத்தொகுப்புகள், நீதிபதிகள்; அட்டவணைகள் மற்றும் சுவடுகளும் நேர்த்தியாக உள்ளன. |
| லாங்ஸ்மித் | எல்எல்எம் செயலி உருவாக்குநர்கள் | செலுத்தப்பட்டது | ஒவ்வொரு அடியையும் தடமறிந்து, விதி அல்லது LLM மதிப்பீட்டாளர்களுடன் மனித மதிப்பாய்வை கலக்கவும்; RAGக்கு சிறந்தது. |
| ட்ரூலென்ஸ் | திறந்த மூல LLM மதிப்பீட்டு ஆர்வலர்கள் | ஓஎஸ்எஸ் | நச்சுத்தன்மை, அடிப்படைத்தன்மை, பொருத்தம் ஆகியவற்றை மதிப்பிடுவதற்கான பின்னூட்ட செயல்பாடுகள்; எங்கும் ஒருங்கிணைக்கவும். |
| பெரும் எதிர்பார்ப்புகள் | தரவு தரத்திற்கு முதலிடம் கொடுக்கும் நிறுவனங்கள் | ஓஎஸ்எஸ் | தரவு மீதான எதிர்பார்ப்புகளை முறைப்படுத்துங்கள் - ஏனென்றால் மோசமான தரவு எப்படியும் ஒவ்வொரு அளவீட்டையும் அழித்துவிடும். |
| டீப் செக்ஸ் | ML-க்கான சோதனை மற்றும் CI/CD | OSS + மேகம் | தரவு சறுக்கல், மாதிரி சிக்கல்கள் மற்றும் கண்காணிப்புக்கான பேட்டரிகள்-உள்ளடக்கிய சோதனை; நல்ல பாதுகாப்புத் தடுப்புகள். |
விலைகள் மாறும் - ஆவணங்களைச் சரிபார்க்கவும். ஆம், கருவிப் போலீஸ் வராமலேயே இவற்றை நீங்கள் கலக்கலாம்.
வரம்புகள், செலவுகள் மற்றும் முடிவு வளைவுகள் - ரகசிய சாஸ் 🧪
வரம்பு மற்றும் செலவு விகிதங்களைப் பொறுத்து மிகவும் மாறுபட்ட வணிக மதிப்பைக் கொண்டிருக்கலாம் .
விரைவாக உருவாக்கக்கூடிய தாள்:
-
தவறான நேர்மறை மற்றும் தவறான எதிர்மறையின் விலையை பணம் அல்லது நேரத்தில் அமைக்கவும்.
-
வரம்புகளை விரிவுபடுத்தி, 1k முடிவுகளுக்கு எதிர்பார்க்கப்படும் செலவைக் கணக்கிடுங்கள்.
-
குறைந்தபட்ச எதிர்பார்க்கப்படும் செலவு தேர்ந்தெடுத்து , அதை கண்காணிப்புடன் பூட்டவும்.
நேர்மறைகள் அரிதாக இருக்கும்போது PR வளைவுகளையும், பொதுவான வடிவத்திற்கு ROC வளைவுகளையும், முடிவுகள் நிகழ்தகவுகளை நம்பியிருக்கும்போது அளவுத்திருத்த வளைவுகளையும் பயன்படுத்தவும். [2][3]
மினி-கேஸ்: அளவீடு செய்யப்பட்ட மதிப்பெண் பட்டைகளுடன் இணைக்கப்பட்ட, கடினமான வரம்பிலிருந்து வரிசைப்படுத்தப்பட்ட ரூட்டிங்கிற்கு (எ.கா., "தானியங்கி-தீர்வு," "மனித-மதிப்பாய்வு," "அதிகரிப்பு") மாறிய பிறகு, மிதமான F1 ஆனால் சிறந்த அளவுத்திருத்த வெட்டு கையேடு மறு-வழிகளைக் கொண்ட ஒரு ஆதரவு-டிக்கெட் ட்ரையேஜ் மாதிரி.
ஆன்லைன் கண்காணிப்பு, நகர்வு மற்றும் எச்சரிக்கை 🚨
ஆஃப்லைன் மதிப்பீடுகள் முடிவு அல்ல, தொடக்கமே. உற்பத்தியில்:
-
உள்ளீட்டு சறுக்கல் , வெளியீட்டு சறுக்கல் மற்றும் செயல்திறன் சிதைவை பிரிவு வாரியாகக் கண்காணிக்கவும்
-
பாதுகாப்புத் தண்டவாள சோதனைகளை அமைக்கவும் - அதிகபட்ச மாயத்தோற்ற விகிதம், நச்சுத்தன்மை வரம்புகள், நியாயத்தன்மை டெல்டாக்கள்.
-
p95 தாமதம், காலக்கெடு மற்றும் கோரிக்கைக்கான செலவு ஆகியவற்றிற்கான கேனரி டாஷ்போர்டுகளைச் சேர்க்கவும்
-
இதை விரைவுபடுத்த, நோக்கத்திற்காக உருவாக்கப்பட்ட நூலகங்களைப் பயன்படுத்தவும்; அவை சறுக்கல், தரம் மற்றும் கண்காணிப்பு பழமையானவற்றை பெட்டியிலிருந்து வெளியே வழங்குகின்றன.
சிறிய குறைபாடுள்ள உருவகம்: உங்கள் மாதிரியை ஒரு புளிப்பு மாவை ஸ்டார்ட்டர் போல நினைத்துப் பாருங்கள் - நீங்கள் ஒரு முறை சுட்டுவிட்டு விலகிச் செல்ல மாட்டீர்கள்; நீங்கள் உணவளிக்கிறீர்கள், பார்க்கிறீர்கள், முகர்ந்து பார்க்கிறீர்கள், சில சமயங்களில் மீண்டும் தொடங்குகிறீர்கள்.
நொறுங்காத மனித மதிப்பீடு 🍪
மக்கள் வெளியீடுகளை மதிப்பிடும்போது, செயல்முறை நீங்கள் நினைப்பதை விட முக்கியமானது.
-
பாஸ் vs பார்டர்லைன் vs தோல்விக்கான எடுத்துக்காட்டுகளுடன் இறுக்கமான ரூப்ரிக்குகளை எழுதுங்கள்
-
உங்களால் முடிந்த போதெல்லாம் மாதிரிகளை சீரற்றதாக்கி குருட்டுங்கள்.
-
மதிப்பீட்டாளர்களுக்கு இடையிலான ஒப்பந்தத்தை அளவிடவும் (எ.கா., இரண்டு மதிப்பீட்டாளர்களுக்கு கோஹனின் κ, பலருக்கு ஃப்ளீஸ்ஸின் κ) மற்றும் ஒப்பந்தம் நழுவினால் ரூப்ரிக்ஸைப் புதுப்பிக்கவும்.
இது உங்கள் மனநிலை அல்லது காபி விநியோகத்தால் உங்கள் மனித லேபிள்கள் நகராமல் தடுக்கிறது.
ஆழமான ஆய்வு: RAG-இல் LLM-களுக்கான AI செயல்திறனை எவ்வாறு அளவிடுவது
-
மீட்டெடுப்பு தரம் - recall@k, precision@k, nDCG; தங்க உண்மைகளின் பாதுகாப்பு. [2]
-
பதில் நம்பகத்தன்மை - மேற்கோள் காட்டி சரிபார்க்கும் சோதனைகள், அடிப்படை மதிப்பெண்கள், விரோத ஆய்வுகள்.
-
பயனர் திருப்தி - கட்டைவிரல்கள், பணி நிறைவு, பரிந்துரைக்கப்பட்ட வரைவுகளிலிருந்து திருத்த தூரம்.
-
பாதுகாப்பு - நச்சுத்தன்மை, PII கசிவு, கொள்கை இணக்கம்.
-
செலவு & தாமதம் - டோக்கன்கள், கேச் ஹிட்ஸ், p95 மற்றும் p99 தாமதங்கள்.
இவற்றை வணிக நடவடிக்கைகளுடன் இணைக்கவும்: அடிப்படைத் தன்மை ஒரு கோட்டிற்குக் கீழே குறைந்தால், கண்டிப்பான பயன்முறைக்கு தானாக வழிமாற்றவும் அல்லது மனித மதிப்பாய்வு செய்யவும்.
இன்றே தொடங்குவதற்கு ஒரு எளிய விளையாட்டு புத்தகம் 🪄
-
வேலையை வரையறுக்கவும் - ஒரு வாக்கியத்தை எழுதுங்கள்: AI என்ன செய்ய வேண்டும், யாருக்காக.
-
2-3 பணி அளவீடுகளைத் தேர்ந்தெடுக்கவும் - கூடுதலாக அளவுத்திருத்தம் மற்றும் குறைந்தது ஒரு நியாயத்தன்மை துண்டு. [2][3][5]
-
செலவைப் பயன்படுத்தி வரம்புகளைத் தீர்மானியுங்கள் - யூகிக்க வேண்டாம்.
-
உற்பத்தி கலவையை பிரதிபலிக்கும் 100–500 லேபிளிடப்பட்ட எடுத்துக்காட்டுகளுடன் ஒரு சிறிய மதிப்பீட்டு தொகுப்பை உருவாக்கவும்
-
உங்கள் மதிப்பீடுகளை தானியங்குபடுத்துங்கள் - கம்பி மதிப்பீடு/கண்காணிப்பை CI ஆக மாற்றவும், இதனால் ஒவ்வொரு மாற்றமும் ஒரே மாதிரியான சரிபார்ப்புகளை இயக்கும்.
-
தயாரிப்பில் கண்காணிப்பு - சறுக்கல், தாமதம், செலவு, சம்பவக் கொடிகள்.
-
யாரும் பயன்படுத்தாத அளவீடுகளை மாதாந்திரமாக மதிப்பாய்வு செய்யவும்
-
ஆவண முடிவுகள் - உங்கள் குழு உண்மையில் படிக்கும் ஒரு உயிருள்ள மதிப்பெண் அட்டை.
ஆமாம், அதுதான் உண்மை. அது வேலை செய்கிறது.
பொதுவான தந்திரங்களும் அவற்றை எவ்வாறு தவிர்ப்பது 🕳️🐇
-
ஒற்றை மெட்ரிக்குக்கு மிகையாக பொருத்துதல் முடிவு சூழலுடன் பொருந்தக்கூடிய மெட்ரிக் கூடையைப் பயன்படுத்தவும்
-
அளவுத்திருத்தத்தைப் புறக்கணித்தல் - அளவுத்திருத்தம் இல்லாமல் நம்பிக்கை என்பது வெறும் ஆணவம். [3]
-
பிரிவு இல்லை - எப்போதும் பயனர் குழுக்கள், புவியியல், சாதனம், மொழி ஆகியவற்றின் அடிப்படையில் பிரிக்கவும். [5]
-
வரையறுக்கப்படாத செலவுகள் - நீங்கள் விலை நிர்ணயம் செய்யாவிட்டால், தவறான வரம்பைத் தேர்ந்தெடுப்பீர்கள்.
-
மனித மதிப்பீடு சறுக்கல் - ஒப்பந்தத்தை அளவிடுதல், பிரிவுகளைப் புதுப்பித்தல், மதிப்பாய்வாளர்களுக்கு மறு பயிற்சி அளித்தல்.
-
பாதுகாப்பு கருவிகள் இல்லை - நியாயத்தன்மை, நச்சுத்தன்மை மற்றும் கொள்கை சரிபார்ப்புகளை இப்போது சேர்க்கவும், பின்னர் அல்ல. [1][5]
நீங்கள் வந்த சொற்றொடர்: AI செயல்திறனை எவ்வாறு அளவிடுவது - மிக நீண்டது, நான் அதைப் படிக்கவில்லை 🧾
-
தெளிவான முடிவுகளுடன் தொடங்குங்கள் , பின்னர் பணி , அமைப்பு மற்றும் வணிக அளவீடுகளை அடுக்கி வைக்கவும். [1]
-
வேலைக்கு சரியான அளவீடுகளைப் பயன்படுத்தவும் - வகைப்பாட்டிற்கு F1 மற்றும் ROC-AUC; தரவரிசைக்கு nDCG/MRR; தலைமுறைக்கான ஒன்றுடன் ஒன்று + சொற்பொருள் அளவீடுகள் (மனிதர்களுடன் இணைக்கப்பட்டது). [2][4]
-
உங்கள் நிகழ்தகவுகளை அளவீடு செய்து உங்கள் பிழைகளை விலை நிர்ணயித்து , வரம்புகளைத் தேர்ந்தெடுக்கவும். [2][3]
-
நியாயத்தன்மை சேர்த்து , வர்த்தக பரிமாற்றங்களை வெளிப்படையாக நிர்வகிக்கவும். [5]
-
மதிப்பீடுகள் மற்றும் கண்காணிப்பை தானியங்குபடுத்துங்கள் , இதன் மூலம் நீங்கள் பயமின்றி மீண்டும் மீண்டும் செய்யலாம்.
அது எப்படி என்று உங்களுக்குத் தெரியும் - எது முக்கியம் என்பதை அளவிடுங்கள், இல்லையெனில் நீங்கள் முக்கியமில்லாததை மேம்படுத்துவீர்கள்.
குறிப்புகள்
[1] NIST. AI இடர் மேலாண்மை கட்டமைப்பு (AI RMF). மேலும் படிக்க
[2] scikit-கற்றல். மாதிரி மதிப்பீடு: கணிப்புகளின் தரத்தை அளவிடுதல் (பயனர் வழிகாட்டி). மேலும் படிக்க
[3] scikit-கற்றல். நிகழ்தகவு அளவுத்திருத்தம் (அளவுத்திருத்த வளைவுகள், பிரையர் மதிப்பெண்). மேலும் படிக்க
[4] பாபினேனி மற்றும் பலர். (2002). BLEU: இயந்திர மொழிபெயர்ப்பின் தானியங்கி மதிப்பீட்டிற்கான ஒரு முறை. ACL. மேலும் படிக்க
[5] ஹார்ட், விலை, ஸ்ரெப்ரோ (2016). மேற்பார்வையிடப்பட்ட கற்றலில் வாய்ப்பின் சமத்துவம். நியூரிஐபிஎஸ். மேலும் படிக்க