மடிக்கணினியில் பிரமிக்க வைத்து, ஆனால் உற்பத்தியில் தடுமாறிய ஒரு மாடலை நீங்கள் எப்போதாவது வெளியிட்டிருந்தால், அதன் இரகசியம் உங்களுக்கு ஏற்கெனவே தெரியும்: செயற்கை நுண்ணறிவின் செயல்திறனை அளவிடுவது என்பது ஒரே ஒரு மாயாஜால அளவுகோல் அல்ல. அது நிஜ உலக இலக்குகளுடன் பிணைக்கப்பட்ட சரிபார்ப்புகளின் ஒரு அமைப்பாகும். துல்லியம் என்பது ஒரு அழகான விஷயம். நம்பகத்தன்மை, பாதுகாப்பு மற்றும் வணிகத் தாக்கம் ஆகியவை அதைவிடச் சிறந்தவை.
இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:
🔗 AI உடன் எப்படி பேசுவது
தொடர்ந்து சிறந்த முடிவுகளுக்கு AI உடன் திறம்பட தொடர்புகொள்வதற்கான வழிகாட்டி.
🔗 AI தூண்டுதல் என்றால் என்ன?
தூண்டுதல்கள் AI பதில்களையும் வெளியீட்டு தரத்தையும் எவ்வாறு வடிவமைக்கின்றன என்பதை விளக்குகிறது.
🔗 AI தரவு லேபிளிங் என்றால் என்ன?
பயிற்சி மாதிரிகளுக்கான தரவுகளுக்கு துல்லியமான லேபிள்களை ஒதுக்குவது பற்றிய கண்ணோட்டம்.
🔗 AI நெறிமுறைகள் என்றால் என்ன?
பொறுப்பான AI மேம்பாடு மற்றும் பயன்பாட்டை வழிநடத்தும் நெறிமுறைக் கொள்கைகளுக்கான அறிமுகம்.
நல்ல AI செயல்திறனை உருவாக்குவது எது? ✅
சுருக்கமான விளக்கம்: நல்ல AI செயல்திறன் என்பது உங்கள் கணினி பயனுள்ளதாகவும், நம்பகமானதாகவும், குழப்பமான, மாறிவரும் சூழ்நிலைகளில் மீண்டும் மீண்டும் செய்யக்கூடியதாகவும் இருப்பதைக் குறிக்கிறது. திட்டவட்டமாக:
-
பணியின் தரம் - சரியான காரணங்களுக்காக சரியான பதில்களைப் பெறுகிறது.
-
அளவுத்திருத்தம் - நம்பிக்கை மதிப்பெண்கள் யதார்த்தத்துடன் ஒத்துப்போகின்றன, எனவே நீங்கள் புத்திசாலித்தனமான நடவடிக்கை எடுக்கலாம்.
-
உறுதித்தன்மை - இது சறுக்கல், விளிம்பு நிலைகள் மற்றும் எதிராளியின் குழப்பங்களுக்கு ஆளாகாமல் தாங்கும்.
-
பாதுகாப்பு மற்றும் நேர்மை - இது தீங்கு விளைவிக்கும், பாரபட்சமான அல்லது விதிமுறைகளுக்கு உட்படாத நடத்தையைத் தவிர்க்கிறது.
-
செயல்திறன் - இது பெரிய அளவில் இயங்குவதற்குப் போதுமான வேகமாகவும், மலிவாகவும், நிலையானதாகவும் உள்ளது.
-
வணிக தாக்கம் - இது உண்மையில் நீங்கள் விரும்பும் KPI ஐ நகர்த்துகிறது.
அளவீடுகள் மற்றும் அபாயங்களை சீரமைப்பதற்கான முறையான குறிப்புப் புள்ளியை நீங்கள் விரும்பினால், NIST AI இடர் மேலாண்மை கட்டமைப்பு நம்பகமான அமைப்பு மதிப்பீட்டிற்கு

AI செயல்திறனை அளவிடுவதற்கான உயர்நிலை செய்முறை 🍳
சிந்தியுங்கள் மூன்று நிலைகளில்:
-
பணி அளவீடுகள் - பணி வகைக்கான சரியான தன்மை: வகைப்பாடு, பின்னடைவு, தரவரிசை, உருவாக்கம், கட்டுப்பாடு போன்றவை.
-
கணினி அளவீடுகள் - தாமதம், செயல்திறன், அழைப்புக்கான செலவு, தோல்வி விகிதங்கள், சறுக்கல் அலாரங்கள், இயக்க நேர SLAகள்.
-
விளைவு அளவீடுகள் - நீங்கள் உண்மையில் விரும்பும் வணிகம் மற்றும் பயனர் விளைவுகள்: மாற்றம், தக்கவைப்பு, பாதுகாப்பு சம்பவங்கள், கைமுறை மதிப்பாய்வு சுமை, டிக்கெட் அளவு.
ஒரு சிறந்த அளவீட்டுத் திட்டம் வேண்டுமென்றே மூன்றையும் கலக்கிறது. இல்லையெனில், ஏவுதளத்தை விட்டு ஒருபோதும் வெளியேறாத ஒரு ராக்கெட்டைப் பெறுவீர்கள்.
சிக்கல் வகையின் அடிப்படையில் முக்கிய அளவீடுகள் - மற்றும் எப்போது எதைப் பயன்படுத்த வேண்டும் 🎯
1) வகைப்பாடு
-
துல்லியம், நினைவுகூரல், F1 - முதல் நாள் மூவர். F1 என்பது துல்லியம் மற்றும் நினைவுகூரல் ஆகியவற்றின் ஹார்மோனிக் சராசரி; வகுப்புகள் சமநிலையற்றதாக இருக்கும்போது அல்லது செலவுகள் சமச்சீரற்றதாக இருக்கும்போது பயனுள்ளதாக இருக்கும். [2]
-
ROC-AUC - வகைப்படுத்திகளின் வரம்பு-அக்னோஸ்டிக் தரவரிசை; நேர்மறைகள் அரிதாக இருக்கும்போது, PR-AUC. [2]
-
சமச்சீர் துல்லியம் - வகுப்புகள் முழுவதும் நினைவுகூரும் சராசரி; சாய்ந்த லேபிள்களுக்கு ஏற்றது. [2]
ஆபத்து கண்காணிப்பு: துல்லியம் மட்டுமே சமநிலையின்மையுடன் பெருமளவில் தவறாக வழிநடத்தும். 99% பயனர்கள் முறையானவர்களாக இருந்தால், ஒரு முட்டாள் எப்போதும் முறையான மாடல் 99% மதிப்பெண் பெற்று மதிய உணவுக்கு முன் உங்கள் மோசடி குழுவைத் தோல்வியடையச் செய்யும்.
2) பின்னடைவு
-
MAE மனிதனால் படிக்கக்கூடிய பிழைக்கு RMSE பெரிய தவறுகளைத் தண்டிக்க விரும்பும்போது R² . பின்னர் விநியோகங்கள் மற்றும் மீதமுள்ள வரைபடங்களைச் சரிபார்க்கவும். [2]
(பங்குதாரர்கள் பிழையை உண்மையில் உணரக்கூடிய வகையில் களத்திற்கு ஏற்ற அலகுகளைப் பயன்படுத்தவும்.)
3) தரவரிசைப்படுத்தல், மீட்டெடுப்பு, பரிந்துரைகள்
-
nDCG - நிலை மற்றும் தரப்படுத்தப்பட்ட பொருத்தத்தைப் பற்றி அக்கறை கொண்டுள்ளது; தேடல் தரத்திற்கான தரநிலை.
-
MRR - முதல் தொடர்புடைய உருப்படி எவ்வளவு விரைவாகத் தோன்றுகிறது என்பதில் கவனம் செலுத்துகிறது ("ஒரு நல்ல பதிலைக் கண்டுபிடி" பணிகளுக்கு சிறந்தது).
(செயல்படுத்தல் குறிப்புகள் மற்றும் தீர்க்கப்பட்ட எடுத்துக்காட்டுகள் முக்கிய அளவீட்டு நூலகங்களில் உள்ளன.) [2]
4) உரை உருவாக்கம் மற்றும் சுருக்கம்
-
BLEU மற்றும் ROUGE - கிளாசிக் மேற்பொருந்துதல் அளவீடுகள்; அடிப்படைகளாக பயனுள்ளதாக இருக்கும்.
-
உட்பொதித்தல் அடிப்படையிலான அளவீடுகள் (எ.கா., BERTScore) பெரும்பாலும் மனித தீர்ப்புடன் சிறப்பாக தொடர்புடையவை; எப்போதும் பாணி, நம்பகத்தன்மை மற்றும் பாதுகாப்பிற்கான மனித மதிப்பீடுகளுடன் இணைக்கப்படுகின்றன. [4]
5) கேள்வி பதில்
-
Exact Match மற்றும் டோக்கன்-நிலை F1 பொதுவானவை; பதில்கள் மூலங்களை மேற்கோள் காட்ட வேண்டும் என்றால், அடிப்படையையும் (பதில்-ஆதரவு சரிபார்ப்புகள்).
அளவுத்திருத்தம், நம்பிக்கை மற்றும் பிரையர் லென்ஸ் 🎚️
நம்பிக்கை மதிப்பெண்கள் என்பது பல அமைப்புகள் அமைதியாக இருக்கும் இடமாகும். யதார்த்தத்தை பிரதிபலிக்கும் நிகழ்தகவுகளை நீங்கள் விரும்புகிறீர்கள், இதனால் ops வரம்புகள், மனிதர்களுக்கான பாதை அல்லது விலை அபாயத்தை அமைக்க முடியும்.
-
அளவுத்திருத்த வளைவுகள் - கணிக்கப்பட்ட நிகழ்தகவு vs. அனுபவ அதிர்வெண்ணைக் காட்சிப்படுத்துங்கள்.
-
பிரையர் ஸ்கோர் பற்றி நீங்கள் கவலைப்படும்போது இது குறிப்பாகப் பயனுள்ளதாக இருக்கும் தரத்தைப் தரவரிசையை மட்டும் கருத்தில் கொள்ளாமல், நிகழ்தகவின்
களக் குறிப்பு: சற்றே “மோசமான” F1 மதிப்பெண்ணும், ஆனால் மிகவும் மேம்பட்ட அளவுத்திருத்தமும், பெருமளவில் மேம்படுத்த முடியும் - ஏனெனில், மக்கள் இறுதியாக அந்த மதிப்பெண்களை நம்ப முடியும்.
பாதுகாப்பு, சார்பு மற்றும் நியாயம் - எது முக்கியம் என்பதை அளவிடவும் 🛡️⚖️
ஒரு அமைப்பு ஒட்டுமொத்தமாக துல்லியமாக இருக்க முடியும், அதே நேரத்தில் குறிப்பிட்ட குழுக்களுக்கு தீங்கு விளைவிக்கும். தொகுக்கப்பட்ட அளவீடுகள் மற்றும் நியாயத்தன்மை அளவுகோல்களைக் கண்காணிக்கவும்:
-
மக்கள்தொகை சமநிலை - குழுக்களிடையே சமமான நேர்மறை விகிதங்கள்.
-
சமப்படுத்தப்பட்ட முரண்பாடுகள் / சம வாய்ப்பு - குழுக்களிடையே சமமான பிழை விகிதங்கள் அல்லது உண்மை-நேர்மறை விகிதங்கள்; இவற்றை ஒரு-முறை தேர்ச்சி-தோல்வி முத்திரைகளாக அல்லாமல், வர்த்தக பரிமாற்றங்களைக் கண்டறிந்து நிர்வகிக்கப் பயன்படுத்தவும். [5]
நடைமுறை குறிப்பு: முக்கிய அளவீடுகளை முக்கிய பண்புகளின் அடிப்படையில் பிரிக்கும் டாஷ்போர்டுகளுடன் தொடங்குங்கள், பின்னர் உங்கள் கொள்கைகளுக்குத் தேவையான குறிப்பிட்ட நியாயத்தன்மை அளவீடுகளைச் சேர்க்கவும். இது சிக்கலானதாகத் தோன்றலாம், ஆனால் இது ஒரு சம்பவத்தை விட மலிவானது.
LLMகள் மற்றும் RAG - உண்மையில் வேலை செய்யும் ஒரு அளவீட்டு விளையாட்டு புத்தகம் 📚🔍
உற்பத்தி அமைப்புகளை அளவிடுவது... கடினமானது. இதைச் செய்யுங்கள்:
-
விளைவுகளை வரையறுக்கவும் : சரியான தன்மை, உதவிகரமான தன்மை, தீங்கற்ற தன்மை, பாணி பின்பற்றுதல், பிராண்டின் தொனி, மேற்கோள் அடிப்படை, மறுப்பு தரம்.
-
அடிப்படை மதிப்பீடுகளை தானியங்குபடுத்தி வலுவான கட்டமைப்புகளுடன் (எ.கா., உங்கள் அடுக்கில் மதிப்பீட்டு கருவி)
-
சொற்பொருள் அளவீடுகள் (உட்பொதித்தல் அடிப்படையிலானது) மற்றும் மேற்பொருந்துதல் அளவீடுகள் (BLEU/ROUGE) ஆகியவற்றைச் சேர்க்கவும் நல்லறிவுக்காக
-
கருவி அடிப்படை : மீட்டெடுப்பு வெற்றி விகிதம், சூழல் துல்லியம்/நினைவுகூர்தல், பதில்-ஆதரவு ஒன்றுடன் ஒன்று.
-
ஒப்புதலுடன் கூடிய மனித மதிப்பாய்வு - உங்கள் மதிப்பீடுகள் வெறும் மனநிலைகளாக இல்லாமல் இருக்க, மதிப்பீட்டாளரின் நிலைத்தன்மையை அளவிடுங்கள் (எ.கா., கோஹனின் κ அல்லது ஃபிளீஸின் κ).
போனஸ்: தாமத சதவீதங்களைப் பதிவுசெய்தல் மற்றும் ஒரு பணிக்கான டோக்கன் அல்லது கணக்கீட்டு செலவு. அடுத்த செவ்வாய்க்கிழமை வரும் கவிதை பதிலை யாரும் விரும்புவதில்லை.
ஒப்பீட்டு அட்டவணை - AI செயல்திறனை அளவிட உதவும் கருவிகள் 🛠️📊
(ஆமாம், இது வேண்டுமென்றே கொஞ்சம் குழப்பமாக இருக்கிறது - உண்மையான குறிப்புகள் குழப்பமாக இருக்கின்றன.)
| கருவி | சிறந்த பார்வையாளர்கள் | விலை | இது ஏன் வேலை செய்கிறது - விரைவாக எடுத்துக் கொள்ளுங்கள் |
|---|---|---|---|
| scikit-கற்றல் அளவீடுகள் | எம்.எல். பயிற்சியாளர்கள் | இலவசம் | வகைப்பாடு, பின்னடைவு, தரவரிசைப்படுத்தலுக்கான நியமன செயல்படுத்தல்கள்; சோதனைகளில் சேர்க்க எளிதானது. [2] |
| MLflow மதிப்பீடு / GenAI | தரவு விஞ்ஞானிகள், எம்.எல்.ஓ.பி.எஸ். | இலவசம் + கட்டணம் | மையப்படுத்தப்பட்ட ரன்கள், தானியங்கி அளவீடுகள், LLM நடுவர்கள், தனிப்பயன் மதிப்பெண் பெற்றவர்கள்; கலைப்பொருட்களை சுத்தமாக பதிவு செய்கிறார்கள். |
| வெளிப்படையாக | டாஷ்போர்டுகளை விரைவாக விரும்பும் அணிகள் | OSS + மேகம் | 100+ அளவீடுகள், சறுக்கல் மற்றும் தர அறிக்கைகள், கண்காணிப்பு ஹூக்குகள் - ஒரு சிட்டிகையில் அழகான காட்சிகள். |
| எடைகள் & சார்புகள் | பரிசோதனை மிகுந்த அமைப்புகள் | இலவச அடுக்கு | பக்கவாட்டு ஒப்பீடுகள், மதிப்பீடு தரவுத்தொகுப்புகள், நீதிபதிகள்; அட்டவணைகள் மற்றும் சுவடுகளும் நேர்த்தியாக உள்ளன. |
| லாங்ஸ்மித் | எல்எல்எம் செயலி உருவாக்குநர்கள் | செலுத்தப்பட்டது | ஒவ்வொரு அடியையும் தடமறிந்து, விதி அல்லது LLM மதிப்பீட்டாளர்களுடன் மனித மதிப்பாய்வை கலக்கவும்; RAGக்கு சிறந்தது. |
| ட்ரூலென்ஸ் | திறந்த மூல LLM மதிப்பீட்டு ஆர்வலர்கள் | ஓஎஸ்எஸ் | நச்சுத்தன்மை, அடிப்படைத்தன்மை, பொருத்தம் ஆகியவற்றை மதிப்பிடுவதற்கான பின்னூட்ட செயல்பாடுகள்; எங்கும் ஒருங்கிணைக்கவும். |
| பெரும் எதிர்பார்ப்புகள் | தரவு தரத்திற்கு முதலிடம் கொடுக்கும் நிறுவனங்கள் | ஓஎஸ்எஸ் | தரவு மீதான எதிர்பார்ப்புகளை முறைப்படுத்துங்கள் - ஏனென்றால் மோசமான தரவு எப்படியும் ஒவ்வொரு அளவீட்டையும் அழித்துவிடும். |
| டீப் செக்ஸ் | ML-க்கான சோதனை மற்றும் CI/CD | OSS + மேகம் | தரவு சறுக்கல், மாதிரி சிக்கல்கள் மற்றும் கண்காணிப்புக்கான பேட்டரிகள்-உள்ளடக்கிய சோதனை; நல்ல பாதுகாப்புத் தடுப்புகள். |
விலைகள் மாறும் - ஆவணங்களைச் சரிபார்க்கவும். ஆம், கருவிப் போலீஸ் வராமலேயே இவற்றை நீங்கள் கலக்கலாம்.
வரம்புகள், செலவுகள் மற்றும் முடிவு வளைவுகள் - ரகசிய சாஸ் 🧪
பொறுத்து மிகவும் மாறுபட்ட வணிக மதிப்பைக் கொண்டிருக்கலாம் வரம்பு மற்றும் செலவு விகிதங்களைப்.
விரைவாக உருவாக்கக்கூடிய தாள்:
-
தவறான நேர்மறை மற்றும் தவறான எதிர்மறையின் விலையை பணம் அல்லது நேரத்தில் அமைக்கவும்.
-
வரம்புகளை விரிவுபடுத்தி, 1k முடிவுகளுக்கு எதிர்பார்க்கப்படும் செலவைக் கணக்கிடுங்கள்.
-
தேர்ந்தெடுத்து குறைந்தபட்ச எதிர்பார்க்கப்படும் செலவு , அதை கண்காணிப்புடன் பூட்டவும்.
நேர்மறைகள் அரிதாக இருக்கும்போது PR வளைவுகளையும், பொதுவான வடிவத்திற்கு ROC வளைவுகளையும், முடிவுகள் நிகழ்தகவுகளை நம்பியிருக்கும்போது அளவுத்திருத்த வளைவுகளையும் பயன்படுத்தவும். [2][3]
சிறு உதாரணம்: மிதமான F1 மதிப்பைக் கொண்டிருந்தாலும், சிறந்த அளவுத்திருத்தத்தைக் கொண்ட ஒரு ஆதரவு-டிக்கெட் வகைப்படுத்தும் மாதிரியானது, செயல்பாட்டுக் குழுவானது ஒரு கடினமான வரம்பிலிருந்து, அளவுத்திருத்தம் செய்யப்பட்ட மதிப்பெண் பட்டைகளுடன் இணைக்கப்பட்ட படிநிலை வழிமுறைக்கு (எ.கா., “தானாகத் தீர்த்தல்,” “மனித மதிப்பாய்வு,” “மேல்நிலைக்குக் கொண்டு செல்லுதல்”) மாறிய பிறகு, கைமுறையான வழிமாற்றங்களைக் குறைத்தது.
ஆன்லைன் கண்காணிப்பு, நகர்வு மற்றும் எச்சரிக்கை 🚨
ஆஃப்லைன் மதிப்பீடுகள் முடிவு அல்ல, தொடக்கமே. உற்பத்தியில்:
-
கண்காணிக்கவும் உள்ளீட்டு சறுக்கல், வெளியீட்டு சறுக்கல்மற்றும் செயல்திறன் சிதைவை பிரிவு வாரியாகக்
-
பாதுகாப்புத் தண்டவாள சோதனைகளை அமைக்கவும் - அதிகபட்ச மாயத்தோற்ற விகிதம், நச்சுத்தன்மை வரம்புகள், நியாயத்தன்மை டெல்டாக்கள்.
-
சேர்க்கவும் கேனரி டாஷ்போர்டுகளைச் p95 தாமதம், காலக்கெடு மற்றும் கோரிக்கைக்கான செலவு ஆகியவற்றிற்கான
-
இதை விரைவுபடுத்த, நோக்கத்திற்காக உருவாக்கப்பட்ட நூலகங்களைப் பயன்படுத்தவும்; அவை சறுக்கல், தரம் மற்றும் கண்காணிப்பு பழமையானவற்றை பெட்டியிலிருந்து வெளியே வழங்குகின்றன.
ஒரு சிறிய குறைபாடுள்ள உவமை: உங்கள் மாதிரியை ஒரு புளிப்பு மாவு ஸ்டார்ட்டர் போல நினைத்துப் பாருங்கள் - நீங்கள் ஒருமுறை சுட்டுவிட்டு அப்படியே விட்டுவிடுவதில்லை; அதற்கு உணவளிக்கிறீர்கள், கவனிக்கிறீர்கள், முகர்ந்து பார்க்கிறீர்கள், சில சமயங்களில் மீண்டும் தொடங்குகிறீர்கள்.
நொறுங்காத மனித மதிப்பீடு 🍪
மக்கள் வெளியீடுகளை மதிப்பிடும்போது, செயல்முறை நீங்கள் நினைப்பதை விட முக்கியமானது.
-
எழுதுங்கள் இறுக்கமான ரூப்ரிக்குகளை பாஸ் vs பார்டர்லைன் vs தோல்விக்கான எடுத்துக்காட்டுகளுடன்
-
உங்களால் முடிந்த போதெல்லாம் மாதிரிகளை சீரற்றதாக்கி குருட்டுங்கள்.
-
அளவிடவும் மதிப்பீட்டாளர்களுக்கு இடையேயான உடன்பாட்டை (எ.கா., இரண்டு மதிப்பீட்டாளர்களுக்கு கோஹனின் κ, பலருக்கு ஃபிளீஸின் κ) மற்றும் உடன்பாடு குறைந்தால் மதிப்பீட்டு அளவுகோல்களைப் புதுப்பிக்கவும்.
இது உங்கள் மனநிலை அல்லது காபி விநியோகத்தால் உங்கள் மனித லேபிள்கள் நகராமல் தடுக்கிறது.
ஆழ்ந்த ஆய்வு: AI செயல்திறனை அளவிடுவது எப்படி RAG-இல் LLM-களுக்கான
-
மீட்டெடுப்பு தரம் - recall@k, precision@k, nDCG; தங்க உண்மைகளின் பாதுகாப்பு. [2]
-
பதில் நம்பகத்தன்மை - மேற்கோள் காட்டி சரிபார்க்கும் சோதனைகள், அடிப்படை மதிப்பெண்கள், விரோத ஆய்வுகள்.
-
பயனர் திருப்தி - கட்டைவிரல்கள், பணி நிறைவு, பரிந்துரைக்கப்பட்ட வரைவுகளிலிருந்து திருத்த தூரம்.
-
பாதுகாப்பு - நச்சுத்தன்மை, PII கசிவு, கொள்கை இணக்கம்.
-
செலவு மற்றும் தாமதம் - டோக்கன்கள், கேச் ஹிட்ஸ், p95 மற்றும் p99 தாமதங்கள்.
இவற்றை வணிக நடவடிக்கைகளுடன் இணைக்கவும்: அடிப்படைத் தன்மை ஒரு கோட்டிற்குக் கீழே குறைந்தால், கண்டிப்பான பயன்முறைக்கு தானாக வழிமாற்றவும் அல்லது மனித மதிப்பாய்வு செய்யவும்.
இன்றே தொடங்குவதற்கு ஒரு எளிய விளையாட்டு புத்தகம் 🪄
-
வேலையை வரையறுக்கவும் - ஒரு வாக்கியத்தை எழுதுங்கள்: AI என்ன செய்ய வேண்டும், யாருக்காக.
-
2–3 பணி அளவீடுகளைத் தேர்ந்தெடுக்கவும் - கூடுதலாக அளவுத்திருத்தம் மற்றும் குறைந்தது ஒரு நியாயமான துண்டு. [2][3][5]
-
செலவைப் பயன்படுத்தி வரம்புகளைத் தீர்மானியுங்கள் - யூகிக்காதீர்கள்.
-
ஒரு சிறிய மதிப்பீட்டுத் தொகுப்பை உருவாக்கவும் உற்பத்திக் கலவையைப் பிரதிபலிக்கும், 100 முதல் 500 வரையிலான பெயரிடப்பட்ட எடுத்துக்காட்டுகளைக் கொண்ட
-
உங்கள் மதிப்பீடுகளை தானியங்குபடுத்துங்கள் - கம்பி மதிப்பீடு/கண்காணிப்பை CI ஆக மாற்றவும், இதனால் ஒவ்வொரு மாற்றமும் ஒரே மாதிரியான சரிபார்ப்புகளை இயக்கும்.
-
தயாரிப்பில் கண்காணிப்பு - சறுக்கல், தாமதம், செலவு, சம்பவக் கொடிகள்.
-
மாதாந்திரமாக மதிப்பாய்வு செய்யவும் யாரும் பயன்படுத்தாத அளவீடுகளை
-
ஆவண முடிவுகள் - உங்கள் குழு உண்மையில் படிக்கும் ஒரு உயிருள்ள மதிப்பெண் அட்டை.
ஆமாம், அதுதான் உண்மை. அது வேலை செய்கிறது.
பொதுவான தந்திரங்களும் அவற்றை எவ்வாறு தவிர்ப்பது 🕳️🐇
-
ஒற்றை மெட்ரிக்குக்கு மிகையாக பொருத்துதல் பயன்படுத்தவும் மெட்ரிக் கூடையைப் முடிவு சூழலுடன் பொருந்தக்கூடிய
-
அளவுத்திருத்தத்தைப் புறக்கணித்தல் - அளவுத்திருத்தம் இல்லாமல் நம்பிக்கை என்பது வெறும் ஆணவம். [3]
-
பிரிவு இல்லை - எப்போதும் பயனர் குழுக்கள், புவியியல், சாதனம், மொழி ஆகியவற்றின் அடிப்படையில் பிரிக்கவும். [5]
-
வரையறுக்கப்படாத செலவுகள் - நீங்கள் பிழைகளுக்கு விலை நிர்ணயம் செய்யாவிட்டால், தவறான வரம்பைத் தேர்ந்தெடுப்பீர்கள்.
-
மனித மதிப்பீடு சறுக்கல் - ஒப்பந்தத்தை அளவிடுதல், பிரிவுகளைப் புதுப்பித்தல், மதிப்பாய்வாளர்களுக்கு மறு பயிற்சி அளித்தல்.
-
பாதுகாப்பு கருவிகள் இல்லை - நியாயத்தன்மை, நச்சுத்தன்மை மற்றும் கொள்கை சரிபார்ப்புகளை இப்போது சேர்க்கவும், பின்னர் அல்ல. [1][5]
நீங்கள் வந்த சொற்றொடர்: AI செயல்திறனை எவ்வாறு அளவிடுவது - மிக நீண்டது, நான் அதைப் படிக்கவில்லை 🧾
-
தொடங்குங்கள் தெளிவான முடிவுகளுடன், பின்னர் பணி, அமைப்புமற்றும் வணிக அளவீடுகளை அடுக்கி வைக்கவும். [1]
-
பயன்படுத்தவும் வேலைக்கு சரியான அளவீடுகளைப் - வகைப்பாட்டிற்கு F1 மற்றும் ROC-AUC; தரவரிசைக்கு nDCG/MRR; தலைமுறைக்கான ஒன்றுடன் ஒன்று + சொற்பொருள் அளவீடுகள் (மனிதர்களுடன் இணைக்கப்பட்டது). [2][4]
-
அளவீடு செய்து உங்கள் நிகழ்தகவுகளை உங்கள் பிழைகளை விலை நிர்ணயித்து , வரம்புகளைத் தேர்ந்தெடுக்கவும். [2][3]
-
சேர்த்து நியாயத்தன்மை , வர்த்தக பரிமாற்றங்களை வெளிப்படையாக நிர்வகிக்கவும். [5]
-
மதிப்பீடுகள் மற்றும் கண்காணிப்பை தானியங்குபடுத்துங்கள் , இதன் மூலம் நீங்கள் பயமின்றி மீண்டும் மீண்டும் செய்யலாம்.
அது எப்படி என்று உங்களுக்குத் தெரியும் - எது முக்கியம் என்பதை அளவிடுங்கள், இல்லையெனில் நீங்கள் முக்கியமில்லாததை மேம்படுத்துவீர்கள்.
குறிப்புகள்
[1] NIST. AI இடர் மேலாண்மை கட்டமைப்பு (AI RMF). மேலும் படிக்க
[2] scikit-learn. மாதிரி மதிப்பீடு: கணிப்புகளின் தரத்தை அளவிடுதல் (பயனர் வழிகாட்டி). மேலும் படிக்க
[3] scikit-learn. நிகழ்தகவு அளவுத்திருத்தம் (அளவுத்திருத்த வளைவுகள், பிரையர் மதிப்பெண்). மேலும் படிக்க
[4] பாபினேனி மற்றும் பலர். (2002). BLEU: இயந்திர மொழிபெயர்ப்பின் தானியங்கி மதிப்பீட்டிற்கான ஒரு முறை. ACL. மேலும் படிக்க
[5] ஹார்ட், பிரைஸ், ஸ்ரெப்ரோ (2016). மேற்பார்வையிடப்பட்ட கற்றலில் வாய்ப்பு சமத்துவம். NeurIPS. மேலும் படிக்க