AI செயல்திறனை எவ்வாறு அளவிடுவது?

நீங்கள் எப்போதாவது ஒரு மாடலை ஒரு நோட்புக்கில் பிரமிக்க வைத்தாலும், உற்பத்தியில் தடுமாறினீர்கள் என்றால், உங்களுக்கு ஏற்கனவே ரகசியம் தெரியும்: AI செயல்திறனை எவ்வாறு அளவிடுவது என்பது ஒரு மாயாஜால அளவீடு அல்ல. இது நிஜ உலக இலக்குகளுடன் இணைக்கப்பட்ட சோதனைகளின் அமைப்பு. துல்லியம் அழகாக இருக்கிறது. நம்பகத்தன்மை, பாதுகாப்பு மற்றும் வணிக தாக்கம் சிறந்தது.

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 AI உடன் எப்படி பேசுவது
தொடர்ந்து சிறந்த முடிவுகளுக்கு AI உடன் திறம்பட தொடர்புகொள்வதற்கான வழிகாட்டி.

🔗 AI தூண்டுதல் என்றால் என்ன?
தூண்டுதல்கள் AI பதில்களையும் வெளியீட்டு தரத்தையும் எவ்வாறு வடிவமைக்கின்றன என்பதை விளக்குகிறது.

🔗 AI தரவு லேபிளிங் என்றால் என்ன?
பயிற்சி மாதிரிகளுக்கான தரவுகளுக்கு துல்லியமான லேபிள்களை ஒதுக்குவது பற்றிய கண்ணோட்டம்.

🔗 AI நெறிமுறைகள் என்றால் என்ன?
பொறுப்பான AI மேம்பாடு மற்றும் பயன்பாட்டை வழிநடத்தும் நெறிமுறைக் கொள்கைகளுக்கான அறிமுகம்.

நல்ல AI செயல்திறனை உருவாக்குவது எது? ✅

சுருக்கமான விளக்கம்: நல்ல AI செயல்திறன் என்பது உங்கள் கணினி பயனுள்ளதாகவும், நம்பகமானதாகவும், குழப்பமான, மாறிவரும் சூழ்நிலைகளில் மீண்டும் மீண்டும் செய்யக்கூடியதாகவும் இருப்பதைக் குறிக்கிறது. திட்டவட்டமாக:

பணியின் தரம் - சரியான காரணங்களுக்காக சரியான பதில்களைப் பெறுகிறது.
அளவுத்திருத்தம் - நம்பிக்கை மதிப்பெண்கள் யதார்த்தத்துடன் ஒத்துப்போகின்றன, எனவே நீங்கள் புத்திசாலித்தனமான நடவடிக்கை எடுக்கலாம்.
உறுதித்தன்மை - இது சறுக்கல், விளிம்பு நிலைகள் மற்றும் எதிராளியின் குழப்பங்களுக்கு ஆளாகாமல் தாங்கும்.
பாதுகாப்பு மற்றும் நியாயம் - இது தீங்கு விளைவிக்கும், பாரபட்சமான அல்லது இணக்கமற்ற நடத்தையைத் தவிர்க்கிறது.
செயல்திறன் - இது போதுமான அளவு வேகமானது, போதுமான மலிவானது மற்றும் அளவில் இயங்கும் அளவுக்கு நிலையானது.
வணிக தாக்கம் - இது உண்மையில் நீங்கள் விரும்பும் KPI ஐ நகர்த்துகிறது.

அளவீடுகள் மற்றும் அபாயங்களை சீரமைப்பதற்கான முறையான குறிப்புப் புள்ளியை நீங்கள் விரும்பினால், நம்பகமான அமைப்பு மதிப்பீட்டிற்கு NIST AI இடர் மேலாண்மை கட்டமைப்பு

AI செயல்திறனை அளவிடுவதற்கான உயர்நிலை செய்முறை 🍳

மூன்று நிலைகளில் சிந்தியுங்கள் :

பணி அளவீடுகள் - பணி வகைக்கான சரியான தன்மை: வகைப்பாடு, பின்னடைவு, தரவரிசை, உருவாக்கம், கட்டுப்பாடு போன்றவை.
கணினி அளவீடுகள் - தாமதம், செயல்திறன், அழைப்புக்கான செலவு, தோல்வி விகிதங்கள், சறுக்கல் அலாரங்கள், இயக்க நேர SLAகள்.
விளைவு அளவீடுகள் - நீங்கள் உண்மையில் விரும்பும் வணிகம் மற்றும் பயனர் விளைவுகள்: மாற்றம், தக்கவைப்பு, பாதுகாப்பு சம்பவங்கள், கைமுறை மதிப்பாய்வு சுமை, டிக்கெட் அளவு.

ஒரு சிறந்த அளவீட்டுத் திட்டம் வேண்டுமென்றே மூன்றையும் கலக்கிறது. இல்லையெனில், ஏவுதளத்தை விட்டு ஒருபோதும் வெளியேறாத ஒரு ராக்கெட்டைப் பெறுவீர்கள்.

சிக்கல் வகையின் அடிப்படையில் முக்கிய அளவீடுகள் - மற்றும் எப்போது எதைப் பயன்படுத்த வேண்டும் 🎯

1) வகைப்பாடு

துல்லியம், நினைவுகூரல், F1 - முதல் நாள் மூவர். F1 என்பது துல்லியம் மற்றும் நினைவுகூரல் ஆகியவற்றின் ஹார்மோனிக் சராசரி; வகுப்புகள் சமநிலையற்றதாக இருக்கும்போது அல்லது செலவுகள் சமச்சீரற்றதாக இருக்கும்போது பயனுள்ளதாக இருக்கும். [2]
ROC-AUC - வகைப்படுத்திகளின் வரம்பு-அக்னோஸ்டிக் தரவரிசை; நேர்மறைகள் அரிதாக இருக்கும்போது, PR-AUC . [2]
சமச்சீர் துல்லியம் - வகுப்புகள் முழுவதும் நினைவுகூரும் சராசரி; சாய்ந்த லேபிள்களுக்கு ஏற்றது. [2]

ஆபத்து கண்காணிப்பு: துல்லியம் மட்டுமே சமநிலையின்மையுடன் பெருமளவில் தவறாக வழிநடத்தும். 99% பயனர்கள் முறையானவர்களாக இருந்தால், ஒரு முட்டாள் எப்போதும் முறையான மாடல் 99% மதிப்பெண் பெற்று மதிய உணவுக்கு முன் உங்கள் மோசடி குழுவைத் தோல்வியடையச் செய்யும்.

2) பின்னடைவு

மனிதர்களால் புரிந்துகொள்ளக்கூடிய பிழைக்கு MAE பெரிய தவறுகளைத் தண்டிக்க விரும்பும் போது RMSE மாறுபாட்டிற்கு
R² (பங்குதாரர்கள் உண்மையில் பிழையை உணரக்கூடிய வகையில் டொமைன்-நட்பு அலகுகளைப் பயன்படுத்தவும்.)

3) தரவரிசைப்படுத்தல், மீட்டெடுப்பு, பரிந்துரைகள்

nDCG - நிலை மற்றும் தரப்படுத்தப்பட்ட பொருத்தத்தைப் பற்றி அக்கறை கொண்டுள்ளது; தேடல் தரத்திற்கான தரநிலை.
MRR - முதல் தொடர்புடைய உருப்படி எவ்வளவு விரைவாகத் தோன்றும் என்பதில் கவனம் செலுத்துகிறது ("ஒரு நல்ல பதிலைக் கண்டறிய" பணிகளுக்கு சிறந்தது).
(செயல்படுத்தல் குறிப்புகள் மற்றும் வேலை செய்யப்பட்ட எடுத்துக்காட்டுகள் பிரதான மெட்ரிக் நூலகங்களில் உள்ளன.) [2]

4) உரை உருவாக்கம் மற்றும் சுருக்கம்

BLEU மற்றும் ROUGE - கிளாசிக் மேற்பொருந்துதல் அளவீடுகள்; அடிப்படைகளாக பயனுள்ளதாக இருக்கும்.
உட்பொதித்தல் அடிப்படையிலான அளவீடுகள் (எ.கா., BERTScore ) பெரும்பாலும் மனித தீர்ப்புடன் சிறப்பாக தொடர்புடையவை; எப்போதும் பாணி, நம்பகத்தன்மை மற்றும் பாதுகாப்பிற்கான மனித மதிப்பீடுகளுடன் இணைக்கப்படுகின்றன. [4]

5) கேள்வி பதில்

Exact Match மற்றும் டோக்கன்-நிலை F1 பொதுவானவை; பதில்கள் மூலங்களை மேற்கோள் காட்ட வேண்டும் என்றால், அடிப்படையையும் (பதில்-ஆதரவு சரிபார்ப்புகள்).

அளவுத்திருத்தம், நம்பிக்கை மற்றும் பிரையர் லென்ஸ் 🎚️

நம்பிக்கை மதிப்பெண்கள் என்பது பல அமைப்புகள் அமைதியாக இருக்கும் இடமாகும். யதார்த்தத்தை பிரதிபலிக்கும் நிகழ்தகவுகளை நீங்கள் விரும்புகிறீர்கள், இதனால் ops வரம்புகள், மனிதர்களுக்கான பாதை அல்லது விலை அபாயத்தை அமைக்க முடியும்.

அளவுத்திருத்த வளைவுகள் - கணிக்கப்பட்ட நிகழ்தகவு vs. அனுபவ அதிர்வெண்ணைக் காட்சிப்படுத்துங்கள்.
பிரையர் மதிப்பெண் - நிகழ்தகவு துல்லியத்திற்கான சரியான மதிப்பெண் விதி; குறைவாக இருந்தால் நல்லது. தரவரிசையில் மட்டுமல்லாமல், நிகழ்தகவின் தரத்திலும்

கள குறிப்பு: சற்று "மோசமான" F1 ஆனால் மிகச் சிறந்த அளவுத்திருத்தம் பெருமளவில் மேம்படுத்தலாம் - ஏனெனில் மக்கள் இறுதியாக மதிப்பெண்களை நம்பலாம்.

பாதுகாப்பு, சார்பு மற்றும் நியாயம் - எது முக்கியம் என்பதை அளவிடவும் 🛡️⚖️

ஒரு அமைப்பு ஒட்டுமொத்தமாக துல்லியமாக இருக்க முடியும், அதே நேரத்தில் குறிப்பிட்ட குழுக்களுக்கு தீங்கு விளைவிக்கும். தொகுக்கப்பட்ட அளவீடுகள் மற்றும் நியாயத்தன்மை அளவுகோல்களைக் கண்காணிக்கவும்:

மக்கள்தொகை சமநிலை - குழுக்களிடையே சமமான நேர்மறை விகிதங்கள்.
சமப்படுத்தப்பட்ட முரண்பாடுகள் / சம வாய்ப்பு - குழுக்களிடையே சமமான பிழை விகிதங்கள் அல்லது உண்மை-நேர்மறை விகிதங்கள்; இவற்றை ஒரு முறை மட்டுமே கடந்து செல்லும்-தோல்வி முத்திரைகளாக அல்லாமல், வர்த்தக பரிமாற்றங்களைக் கண்டறிந்து நிர்வகிக்கப் பயன்படுத்தவும். [5]

நடைமுறை குறிப்பு: முக்கிய அளவீடுகளை முக்கிய பண்புகளின் அடிப்படையில் பிரிக்கும் டாஷ்போர்டுகளுடன் தொடங்குங்கள், பின்னர் உங்கள் கொள்கைகளுக்குத் தேவையான குறிப்பிட்ட நியாயத்தன்மை அளவீடுகளைச் சேர்க்கவும். இது சிக்கலானதாகத் தோன்றலாம், ஆனால் இது ஒரு சம்பவத்தை விட மலிவானது.

LLMகள் மற்றும் RAG - உண்மையில் வேலை செய்யும் ஒரு அளவீட்டு விளையாட்டு புத்தகம் 📚🔍

உற்பத்தி அமைப்புகளை அளவிடுவது... கடினமானது. இதைச் செய்யுங்கள்:

விளைவுகளை வரையறுக்கவும் : சரியான தன்மை, உதவிகரமான தன்மை, தீங்கற்ற தன்மை, பாணி பின்பற்றுதல், பிராண்டின் தொனி, மேற்கோள் அடிப்படை, மறுப்பு தரம்.
வலுவான கட்டமைப்புகளுடன் (எ.கா., உங்கள் அடுக்கில் மதிப்பீட்டு கருவி) அடிப்படை மதிப்பீடுகளை தானியங்குபடுத்தி
நல்லறிவுக்காக சொற்பொருள் அளவீடுகள் (உட்பொதித்தல் அடிப்படையிலானது) மற்றும் மேற்பொருந்துதல் அளவீடுகள் (BLEU/ROUGE) ஆகியவற்றைச் சேர்க்கவும்
கருவி அடிப்படை : மீட்டெடுப்பு வெற்றி விகிதம், சூழல் துல்லியம்/நினைவுகூர்தல், பதில்-ஆதரவு ஒன்றுடன் ஒன்று.
உடன்பாட்டுடன் கூடிய மனித மதிப்பாய்வு - மதிப்பீட்டாளர் நிலைத்தன்மையை அளவிடவும் (எ.கா., கோஹனின் κ அல்லது ஃப்ளீஸ்' κ) எனவே உங்கள் லேபிள்கள் அதிர்வுகளாக இருக்காது.

போனஸ்: தாமத சதவீதங்களைப் பதிவுசெய்தல் மற்றும் ஒரு பணிக்கான டோக்கன் அல்லது கணக்கீட்டு செலவு. அடுத்த செவ்வாய்க்கிழமை வரும் கவிதை பதிலை யாரும் விரும்புவதில்லை.

ஒப்பீட்டு அட்டவணை - AI செயல்திறனை அளவிட உதவும் கருவிகள் 🛠️📊

(ஆமாம், இது வேண்டுமென்றே கொஞ்சம் குழப்பமாக இருக்கிறது - உண்மையான குறிப்புகள் குழப்பமாக இருக்கின்றன.)

கருவி	சிறந்த பார்வையாளர்கள்	விலை	இது ஏன் வேலை செய்கிறது - விரைவாக எடுத்துக் கொள்ளுங்கள்
scikit-கற்றல் அளவீடுகள்	எம்.எல். பயிற்சியாளர்கள்	இலவசம்	வகைப்பாடு, பின்னடைவு, தரவரிசைப்படுத்தலுக்கான நியமன செயல்படுத்தல்கள்; சோதனைகளில் சேர்க்க எளிதானது. [2]
MLflow மதிப்பீடு / GenAI	தரவு விஞ்ஞானிகள், எம்.எல்.ஓ.பி.எஸ்.	இலவசம் + கட்டணம்	மையப்படுத்தப்பட்ட ரன்கள், தானியங்கி அளவீடுகள், LLM நடுவர்கள், தனிப்பயன் மதிப்பெண் பெற்றவர்கள்; கலைப்பொருட்களை சுத்தமாக பதிவு செய்கிறார்கள்.
வெளிப்படையாக	டாஷ்போர்டுகளை விரைவாக விரும்பும் அணிகள்	OSS + மேகம்	100+ அளவீடுகள், சறுக்கல் மற்றும் தர அறிக்கைகள், கண்காணிப்பு ஹூக்குகள் - ஒரு சிட்டிகையில் அழகான காட்சிகள்.
எடைகள் & சார்புகள்	பரிசோதனை மிகுந்த அமைப்புகள்	இலவச அடுக்கு	பக்கவாட்டு ஒப்பீடுகள், மதிப்பீடு தரவுத்தொகுப்புகள், நீதிபதிகள்; அட்டவணைகள் மற்றும் சுவடுகளும் நேர்த்தியாக உள்ளன.
லாங்ஸ்மித்	எல்எல்எம் செயலி உருவாக்குநர்கள்	செலுத்தப்பட்டது	ஒவ்வொரு அடியையும் தடமறிந்து, விதி அல்லது LLM மதிப்பீட்டாளர்களுடன் மனித மதிப்பாய்வை கலக்கவும்; RAGக்கு சிறந்தது.
ட்ரூலென்ஸ்	திறந்த மூல LLM மதிப்பீட்டு ஆர்வலர்கள்	ஓஎஸ்எஸ்	நச்சுத்தன்மை, அடிப்படைத்தன்மை, பொருத்தம் ஆகியவற்றை மதிப்பிடுவதற்கான பின்னூட்ட செயல்பாடுகள்; எங்கும் ஒருங்கிணைக்கவும்.
பெரும் எதிர்பார்ப்புகள்	தரவு தரத்திற்கு முதலிடம் கொடுக்கும் நிறுவனங்கள்	ஓஎஸ்எஸ்	தரவு மீதான எதிர்பார்ப்புகளை முறைப்படுத்துங்கள் - ஏனென்றால் மோசமான தரவு எப்படியும் ஒவ்வொரு அளவீட்டையும் அழித்துவிடும்.
டீப் செக்ஸ்	ML-க்கான சோதனை மற்றும் CI/CD	OSS + மேகம்	தரவு சறுக்கல், மாதிரி சிக்கல்கள் மற்றும் கண்காணிப்புக்கான பேட்டரிகள்-உள்ளடக்கிய சோதனை; நல்ல பாதுகாப்புத் தடுப்புகள்.

விலைகள் மாறும் - ஆவணங்களைச் சரிபார்க்கவும். ஆம், கருவிப் போலீஸ் வராமலேயே இவற்றை நீங்கள் கலக்கலாம்.

வரம்புகள், செலவுகள் மற்றும் முடிவு வளைவுகள் - ரகசிய சாஸ் 🧪

வரம்பு மற்றும் செலவு விகிதங்களைப் பொறுத்து மிகவும் மாறுபட்ட வணிக மதிப்பைக் கொண்டிருக்கலாம் .

விரைவாக உருவாக்கக்கூடிய தாள்:

தவறான நேர்மறை மற்றும் தவறான எதிர்மறையின் விலையை பணம் அல்லது நேரத்தில் அமைக்கவும்.
வரம்புகளை விரிவுபடுத்தி, 1k முடிவுகளுக்கு எதிர்பார்க்கப்படும் செலவைக் கணக்கிடுங்கள்.
குறைந்தபட்ச எதிர்பார்க்கப்படும் செலவு தேர்ந்தெடுத்து , அதை கண்காணிப்புடன் பூட்டவும்.

நேர்மறைகள் அரிதாக இருக்கும்போது PR வளைவுகளையும், பொதுவான வடிவத்திற்கு ROC வளைவுகளையும், முடிவுகள் நிகழ்தகவுகளை நம்பியிருக்கும்போது அளவுத்திருத்த வளைவுகளையும் பயன்படுத்தவும். [2][3]

மினி-கேஸ்: அளவீடு செய்யப்பட்ட மதிப்பெண் பட்டைகளுடன் இணைக்கப்பட்ட, கடினமான வரம்பிலிருந்து வரிசைப்படுத்தப்பட்ட ரூட்டிங்கிற்கு (எ.கா., "தானியங்கி-தீர்வு," "மனித-மதிப்பாய்வு," "அதிகரிப்பு") மாறிய பிறகு, மிதமான F1 ஆனால் சிறந்த அளவுத்திருத்த வெட்டு கையேடு மறு-வழிகளைக் கொண்ட ஒரு ஆதரவு-டிக்கெட் ட்ரையேஜ் மாதிரி.

ஆன்லைன் கண்காணிப்பு, நகர்வு மற்றும் எச்சரிக்கை 🚨

ஆஃப்லைன் மதிப்பீடுகள் முடிவு அல்ல, தொடக்கமே. உற்பத்தியில்:

உள்ளீட்டு சறுக்கல் , வெளியீட்டு சறுக்கல் மற்றும் செயல்திறன் சிதைவை பிரிவு வாரியாகக் கண்காணிக்கவும்
பாதுகாப்புத் தண்டவாள சோதனைகளை அமைக்கவும் - அதிகபட்ச மாயத்தோற்ற விகிதம், நச்சுத்தன்மை வரம்புகள், நியாயத்தன்மை டெல்டாக்கள்.
p95 தாமதம், காலக்கெடு மற்றும் கோரிக்கைக்கான செலவு ஆகியவற்றிற்கான கேனரி டாஷ்போர்டுகளைச் சேர்க்கவும்
இதை விரைவுபடுத்த, நோக்கத்திற்காக உருவாக்கப்பட்ட நூலகங்களைப் பயன்படுத்தவும்; அவை சறுக்கல், தரம் மற்றும் கண்காணிப்பு பழமையானவற்றை பெட்டியிலிருந்து வெளியே வழங்குகின்றன.

சிறிய குறைபாடுள்ள உருவகம்: உங்கள் மாதிரியை ஒரு புளிப்பு மாவை ஸ்டார்ட்டர் போல நினைத்துப் பாருங்கள் - நீங்கள் ஒரு முறை சுட்டுவிட்டு விலகிச் செல்ல மாட்டீர்கள்; நீங்கள் உணவளிக்கிறீர்கள், பார்க்கிறீர்கள், முகர்ந்து பார்க்கிறீர்கள், சில சமயங்களில் மீண்டும் தொடங்குகிறீர்கள்.

நொறுங்காத மனித மதிப்பீடு 🍪

மக்கள் வெளியீடுகளை மதிப்பிடும்போது, செயல்முறை நீங்கள் நினைப்பதை விட முக்கியமானது.

பாஸ் vs பார்டர்லைன் vs தோல்விக்கான எடுத்துக்காட்டுகளுடன் இறுக்கமான ரூப்ரிக்குகளை எழுதுங்கள்
உங்களால் முடிந்த போதெல்லாம் மாதிரிகளை சீரற்றதாக்கி குருட்டுங்கள்.
மதிப்பீட்டாளர்களுக்கு இடையிலான ஒப்பந்தத்தை அளவிடவும் (எ.கா., இரண்டு மதிப்பீட்டாளர்களுக்கு கோஹனின் κ, பலருக்கு ஃப்ளீஸ்ஸின் κ) மற்றும் ஒப்பந்தம் நழுவினால் ரூப்ரிக்ஸைப் புதுப்பிக்கவும்.

இது உங்கள் மனநிலை அல்லது காபி விநியோகத்தால் உங்கள் மனித லேபிள்கள் நகராமல் தடுக்கிறது.

ஆழமான ஆய்வு: RAG-இல் LLM-களுக்கான AI செயல்திறனை எவ்வாறு அளவிடுவது

மீட்டெடுப்பு தரம் - recall@k, precision@k, nDCG; தங்க உண்மைகளின் பாதுகாப்பு. [2]
பதில் நம்பகத்தன்மை - மேற்கோள் காட்டி சரிபார்க்கும் சோதனைகள், அடிப்படை மதிப்பெண்கள், விரோத ஆய்வுகள்.
பயனர் திருப்தி - கட்டைவிரல்கள், பணி நிறைவு, பரிந்துரைக்கப்பட்ட வரைவுகளிலிருந்து திருத்த தூரம்.
பாதுகாப்பு - நச்சுத்தன்மை, PII கசிவு, கொள்கை இணக்கம்.
செலவு & தாமதம் - டோக்கன்கள், கேச் ஹிட்ஸ், p95 மற்றும் p99 தாமதங்கள்.

இவற்றை வணிக நடவடிக்கைகளுடன் இணைக்கவும்: அடிப்படைத் தன்மை ஒரு கோட்டிற்குக் கீழே குறைந்தால், கண்டிப்பான பயன்முறைக்கு தானாக வழிமாற்றவும் அல்லது மனித மதிப்பாய்வு செய்யவும்.

இன்றே தொடங்குவதற்கு ஒரு எளிய விளையாட்டு புத்தகம் 🪄

வேலையை வரையறுக்கவும் - ஒரு வாக்கியத்தை எழுதுங்கள்: AI என்ன செய்ய வேண்டும், யாருக்காக.
2-3 பணி அளவீடுகளைத் தேர்ந்தெடுக்கவும் - கூடுதலாக அளவுத்திருத்தம் மற்றும் குறைந்தது ஒரு நியாயத்தன்மை துண்டு. [2][3][5]
செலவைப் பயன்படுத்தி வரம்புகளைத் தீர்மானியுங்கள் - யூகிக்க வேண்டாம்.
உற்பத்தி கலவையை பிரதிபலிக்கும் 100–500 லேபிளிடப்பட்ட எடுத்துக்காட்டுகளுடன் ஒரு சிறிய மதிப்பீட்டு தொகுப்பை உருவாக்கவும்
உங்கள் மதிப்பீடுகளை தானியங்குபடுத்துங்கள் - கம்பி மதிப்பீடு/கண்காணிப்பை CI ஆக மாற்றவும், இதனால் ஒவ்வொரு மாற்றமும் ஒரே மாதிரியான சரிபார்ப்புகளை இயக்கும்.
தயாரிப்பில் கண்காணிப்பு - சறுக்கல், தாமதம், செலவு, சம்பவக் கொடிகள்.
யாரும் பயன்படுத்தாத அளவீடுகளை மாதாந்திரமாக மதிப்பாய்வு செய்யவும்
ஆவண முடிவுகள் - உங்கள் குழு உண்மையில் படிக்கும் ஒரு உயிருள்ள மதிப்பெண் அட்டை.

ஆமாம், அதுதான் உண்மை. அது வேலை செய்கிறது.

பொதுவான தந்திரங்களும் அவற்றை எவ்வாறு தவிர்ப்பது 🕳️🐇

ஒற்றை மெட்ரிக்குக்கு மிகையாக பொருத்துதல் முடிவு சூழலுடன் பொருந்தக்கூடிய மெட்ரிக் கூடையைப் பயன்படுத்தவும்
அளவுத்திருத்தத்தைப் புறக்கணித்தல் - அளவுத்திருத்தம் இல்லாமல் நம்பிக்கை என்பது வெறும் ஆணவம். [3]
பிரிவு இல்லை - எப்போதும் பயனர் குழுக்கள், புவியியல், சாதனம், மொழி ஆகியவற்றின் அடிப்படையில் பிரிக்கவும். [5]
வரையறுக்கப்படாத செலவுகள் - நீங்கள் விலை நிர்ணயம் செய்யாவிட்டால், தவறான வரம்பைத் தேர்ந்தெடுப்பீர்கள்.
மனித மதிப்பீடு சறுக்கல் - ஒப்பந்தத்தை அளவிடுதல், பிரிவுகளைப் புதுப்பித்தல், மதிப்பாய்வாளர்களுக்கு மறு பயிற்சி அளித்தல்.
பாதுகாப்பு கருவிகள் இல்லை - நியாயத்தன்மை, நச்சுத்தன்மை மற்றும் கொள்கை சரிபார்ப்புகளை இப்போது சேர்க்கவும், பின்னர் அல்ல. [1][5]

நீங்கள் வந்த சொற்றொடர்: AI செயல்திறனை எவ்வாறு அளவிடுவது - மிக நீண்டது, நான் அதைப் படிக்கவில்லை 🧾

தெளிவான முடிவுகளுடன் தொடங்குங்கள் , பின்னர் பணி , அமைப்பு மற்றும் வணிக அளவீடுகளை அடுக்கி வைக்கவும். [1]
வேலைக்கு சரியான அளவீடுகளைப் பயன்படுத்தவும் - வகைப்பாட்டிற்கு F1 மற்றும் ROC-AUC; தரவரிசைக்கு nDCG/MRR; தலைமுறைக்கான ஒன்றுடன் ஒன்று + சொற்பொருள் அளவீடுகள் (மனிதர்களுடன் இணைக்கப்பட்டது). [2][4]
உங்கள் நிகழ்தகவுகளை அளவீடு செய்து உங்கள் பிழைகளை விலை நிர்ணயித்து , வரம்புகளைத் தேர்ந்தெடுக்கவும். [2][3]
நியாயத்தன்மை சேர்த்து , வர்த்தக பரிமாற்றங்களை வெளிப்படையாக நிர்வகிக்கவும். [5]
மதிப்பீடுகள் மற்றும் கண்காணிப்பை தானியங்குபடுத்துங்கள் , இதன் மூலம் நீங்கள் பயமின்றி மீண்டும் மீண்டும் செய்யலாம்.

அது எப்படி என்று உங்களுக்குத் தெரியும் - எது முக்கியம் என்பதை அளவிடுங்கள், இல்லையெனில் நீங்கள் முக்கியமில்லாததை மேம்படுத்துவீர்கள்.

குறிப்புகள்

[1] NIST. AI இடர் மேலாண்மை கட்டமைப்பு (AI RMF). மேலும் படிக்க
[2] scikit-கற்றல். மாதிரி மதிப்பீடு: கணிப்புகளின் தரத்தை அளவிடுதல் (பயனர் வழிகாட்டி). மேலும் படிக்க
[3] scikit-கற்றல். நிகழ்தகவு அளவுத்திருத்தம் (அளவுத்திருத்த வளைவுகள், பிரையர் மதிப்பெண்). மேலும் படிக்க
[4] பாபினேனி மற்றும் பலர். (2002). BLEU: இயந்திர மொழிபெயர்ப்பின் தானியங்கி மதிப்பீட்டிற்கான ஒரு முறை. ACL. மேலும் படிக்க
[5] ஹார்ட், விலை, ஸ்ரெப்ரோ (2016). மேற்பார்வையிடப்பட்ட கற்றலில் வாய்ப்பின் சமத்துவம். நியூரிஐபிஎஸ். மேலும் படிக்க

அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு

நாடு/பிராந்தியம்