சுருக்கமான பதில்: AI மாதிரிகளை நன்றாக மதிப்பிட, உண்மையான பயனருக்கும் கையில் இருக்கும் முடிவுக்கும் "நல்லது" எப்படி இருக்கும் என்பதை வரையறுப்பதன் மூலம் தொடங்கவும். பின்னர் பிரதிநிதித்துவ தரவு, இறுக்கமான கசிவு கட்டுப்பாடுகள் மற்றும் பல அளவீடுகளுடன் மீண்டும் மீண்டும் மதிப்பீடுகளை உருவாக்கவும். மன அழுத்தம், சார்பு மற்றும் பாதுகாப்பு சோதனைகளைச் சேர்க்கவும், மேலும் ஏதாவது மாறும்போது (தரவு, அறிவுறுத்தல்கள், கொள்கை), ஹார்னஸை மீண்டும் இயக்கவும், அறிமுகப்படுத்தப்பட்ட பிறகு தொடர்ந்து கண்காணிக்கவும்.
முக்கிய குறிப்புகள்:
வெற்றி அளவுகோல்கள் : அளவீடுகளைத் தேர்ந்தெடுப்பதற்கு முன் பயனர்கள், முடிவுகள், கட்டுப்பாடுகள் மற்றும் மோசமான தோல்விகளை வரையறுக்கவும்.
மீண்டும் மீண்டும் செய்யக்கூடிய தன்மை : ஒவ்வொரு மாற்றத்துடனும் ஒப்பிடக்கூடிய சோதனைகளை மீண்டும் இயக்கும் ஒரு சோதனை சேனலை உருவாக்குங்கள்.
தரவு சுகாதாரம் : நிலையான பிளவுகளை வைத்திருங்கள், நகல்களைத் தடுக்கவும், அம்சக் கசிவை முன்கூட்டியே தடுக்கவும்.
நம்பிக்கை சோதனைகள் : மன அழுத்த சோதனை வலிமை, நியாயத்தன்மை துண்டுகள் மற்றும் தெளிவான சொற்களுடன் கூடிய LLM பாதுகாப்பு நடத்தைகள்.
வாழ்க்கைச் சுழற்சி ஒழுக்கம் : நிலைகளில் விரிவுபடுத்துதல், சறுக்கல்கள் மற்றும் சம்பவங்களைக் கண்காணித்தல் மற்றும் அறியப்பட்ட இடைவெளிகளை ஆவணப்படுத்துதல்.
இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:
🔗 AI நெறிமுறைகள் என்றால் என்ன?
பொறுப்பான AI வடிவமைப்பு, பயன்பாடு மற்றும் நிர்வாகத்தை வழிநடத்தும் கொள்கைகளை ஆராயுங்கள்.
🔗 AI சார்பு என்றால் என்ன?
சார்புடைய தரவு எவ்வாறு AI முடிவுகள் மற்றும் விளைவுகளைச் சாய்க்கிறது என்பதை அறிக.
🔗 AI அளவிடுதல் என்றால் என்ன
செயல்திறன், செலவு மற்றும் நம்பகத்தன்மைக்கான அளவிடுதல் AI அமைப்புகளைப் புரிந்து கொள்ளுங்கள்.
🔗 AI என்றால் என்ன?
செயற்கை நுண்ணறிவு, வகைகள் மற்றும் நிஜ உலகப் பயன்பாடுகள் பற்றிய தெளிவான கண்ணோட்டம்.
1) "நல்லது" என்பதன் அழகற்ற வரையறையுடன் தொடங்குங்கள்
அளவீடுகளுக்கு முன், டேஷ்போர்டுகளுக்கு முன், எந்த அளவுகோலை வளைப்பதற்கு முன் - வெற்றி எப்படி இருக்கும் என்பதை முடிவு செய்யுங்கள்.
தெளிவுபடுத்தவும்:
-
பயனர்: உள் ஆய்வாளர், வாடிக்கையாளர், மருத்துவர், ஓட்டுநர், மாலை 4 மணிக்கு சோர்வடைந்த ஒரு ஆதரவு முகவர்...
-
முடிவு: கடனை அங்கீகரித்தல், மோசடியைக் கொடியிடுதல், உள்ளடக்கத்தைப் பரிந்துரைத்தல், குறிப்புகளைச் சுருக்குதல்
-
மிக முக்கியமான தோல்விகள்:
-
தவறான நேர்மறைகள் (எரிச்சலூட்டும்) vs தவறான எதிர்மறைகள் (ஆபத்தானது)
-
-
கட்டுப்பாடுகள்: தாமதம், கோரிக்கைக்கான செலவு, தனியுரிமை விதிகள், விளக்கத் தேவைகள், அணுகல்தன்மை
"அர்த்தமுள்ள விளைவு" என்பதற்குப் பதிலாக "அழகான மெட்ரிக்" என்பதை மேம்படுத்த அணிகள் நகரும் பகுதி இது. இது நிறைய நடக்கிறது. இப்படி... நிறைய.
இந்த ஆபத்து-விழிப்புணர்வை (மற்றும் அதிர்வுகளை அடிப்படையாகக் கொண்டதல்ல) வைத்திருப்பதற்கான ஒரு உறுதியான வழி, நம்பகத்தன்மை மற்றும் வாழ்க்கைச் சுழற்சி இடர் மேலாண்மையைச் சுற்றி சோதனையை வடிவமைப்பதாகும், இது AI இடர் மேலாண்மை கட்டமைப்பில் (AI RMF 1.0) [1].

2) “AI மாதிரிகளை எவ்வாறு சோதிப்பது” என்பதன் நல்ல பதிப்பை உருவாக்குவது எது ✅
ஒரு திடமான சோதனை அணுகுமுறையில் சில பேச்சுவார்த்தைக்கு மாறான அம்சங்கள் உள்ளன:
-
பிரதிநிதித்துவ தரவு (சுத்தமான ஆய்வக தரவு மட்டுமல்ல)
-
தெளிவான பிளவுகள் (ஒரு நொடியில் அதைப் பற்றி மேலும்)
-
அடிப்படைக் கோடுகள் (நீங்கள் வேண்டிய - போலி மதிப்பீட்டாளர்கள் ஒரு காரணத்திற்காக இருக்கிறார்கள் [4])
-
பல அளவீடுகள் (ஏனென்றால் ஒரு எண் உங்களுக்கு, பணிவுடன், உங்கள் முகத்திற்குப் பொய் சொல்கிறது)
-
மன அழுத்த சோதனைகள் (விரிவான சூழ்நிலைகள், அசாதாரண உள்ளீடுகள், விரோத சூழ்நிலைகள்)
-
மனித மதிப்பாய்வு சுழல்கள் (குறிப்பாக உருவாக்கும் மாதிரிகளுக்கு)
-
ஏவப்பட்ட பிறகு கண்காணித்தல் (ஏனெனில் உலகம் மாறுகிறது, குழாய்வழிகள் உடைகின்றன, பயனர்கள் ... படைப்பாற்றல் மிக்கவர்கள் [1])
மேலும்: ஒரு நல்ல அணுகுமுறையில் நீங்கள் என்ன சோதித்தீர்கள், என்ன செய்யவில்லை, நீங்கள் எதைப் பற்றி பதட்டமாக இருக்கிறீர்கள் என்பதை ஆவணப்படுத்துவதும் அடங்கும். "நான் எதைப் பற்றி பதட்டமாக இருக்கிறேன்" என்ற பகுதி சங்கடமாக உணர்கிறது - மேலும் நம்பிக்கை குவியத் தொடங்கும் இடமும் இதுதான்.
குழுக்கள் நேர்மையாக இருக்க தொடர்ந்து உதவும் இரண்டு ஆவண முறைகள்:
-
மாதிரி அட்டைகள் (மாதிரி எதற்காக, அது எவ்வாறு மதிப்பிடப்பட்டது, எங்கு தோல்வியடைகிறது) [2]
-
தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள் (தரவு என்ன, அது எவ்வாறு சேகரிக்கப்பட்டது, எதற்காகப் பயன்படுத்தப்பட வேண்டும்/பயன்படுத்தக்கூடாது) [3]
3) கருவி யதார்த்தம்: மக்கள் நடைமுறையில் என்ன பயன்படுத்துகிறார்கள் 🧰
கருவிகள் விருப்பத்திற்குரியவை. நல்ல மதிப்பீட்டு பழக்கங்கள் விருப்பத்திற்குரியவை அல்ல.
நீங்கள் ஒரு நடைமுறை ரீதியான அமைப்பை விரும்பினால், பெரும்பாலான அணிகள் மூன்று வாளிகளுடன் முடிவடைகின்றன:
-
பரிசோதனை கண்காணிப்பு (ஓட்டங்கள், கட்டமைப்புகள், கலைப்பொருட்கள்)
-
மதிப்பீட்டு சேணம் (மீண்டும் மீண்டும் செய்யக்கூடிய ஆஃப்லைன் சோதனைகள் + பின்னடைவு தொகுப்புகள்)
-
கண்காணிப்பு (சறுக்கல் போன்ற சமிக்ஞைகள், செயல்திறன் பிரதிநிதிகள், சம்பவ எச்சரிக்கைகள்)
உதாரணங்களாக நீங்கள் காட்டுப்பகுதியில் நிறையப் பார்ப்பீர்கள் (ஒப்புதல்கள் அல்ல, ஆம் - அம்சங்கள்/விலை மாற்றம்): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.
இந்தப் பகுதியிலிருந்து நீங்கள் ஒரே ஒரு யோசனையைத் மீண்டும் மீண்டும் செய்யக்கூடிய ஒரு சோதனைச் சேனலை உருவாக்குங்கள் . நீங்கள் "நோட்புக்கை மீண்டும் இயக்கி பிரார்த்தனை செய்யுங்கள்" என்பதை விட, "பொத்தானை அழுத்தி → ஒப்பிடக்கூடிய முடிவுகளைப் பெறுங்கள்" என்பதை நீங்கள் விரும்புகிறீர்கள்.
4) சரியான சோதனைத் தொகுப்பை உருவாக்குங்கள் (மேலும் தரவு கசிவை நிறுத்துங்கள்) 🚧
அதிர்ச்சியூட்டும் எண்ணிக்கையிலான "அற்புதமான" மாதிரிகள் தற்செயலாக ஏமாற்றுகின்றன.
நிலையான MLக்கு
தொழில் வாழ்க்கையை காப்பாற்றும் சில கவர்ச்சியற்ற விதிகள்:
-
பயிற்சி/சரிபார்ப்பு/சோதனை வைத்திருங்கள் (மற்றும் பிளவு தர்க்கத்தை எழுதுங்கள்)
-
பிளவுகளில் நகல்களைத் தடுக்கவும் (ஒரே பயனர், ஒரே ஆவணம், ஒரே தயாரிப்பு, கிட்டத்தட்ட நகல்)
-
அம்சக் கசிவுகளைக் கவனியுங்கள் (எதிர்காலத் தகவல்கள் "தற்போதைய" அம்சங்களுக்குள் ஊடுருவுகின்றன)
-
நீங்கள் அடித்ததைக் கொண்டாடாமல் இருக்க அடிப்படைகளை (போலி மதிப்பீட்டாளர்கள்) பயன்படுத்தவும்... ஒன்றுமில்லை [4]
கசிவு வரையறை (விரைவான பதிப்பு): பயிற்சி/விளையாட்டுத் துறையில் மாதிரிக்கு முடிவெடுக்கும் நேரத்தில் இல்லாத தகவல்களை அணுக அனுமதிக்கும் எதுவும். அது வெளிப்படையாகவோ (“எதிர்கால லேபிள்”) அல்லது நுட்பமாகவோ (“நிகழ்வுக்குப் பிந்தைய நேர முத்திரை வாளி”) இருக்கலாம்.
எல்.எல்.எம் மற்றும் ஜெனரேட்டிவ் மாதிரிகளுக்கு
வெறும் "ஒரு மாதிரி" அல்ல, ஒரு உடனடி-மற்றும்-கொள்கை அமைப்பை உருவாக்குகிறீர்கள்
-
தங்க நிற குறிப்புகளின் தொகுப்பை உருவாக்கவும் (சிறிய, உயர்தர, நிலையான)
-
சமீபத்திய உண்மையான மாதிரிகளைச் சேர்க்கவும் (அநாமதேயமாக்கப்பட்டது + தனியுரிமைக்கு பாதுகாப்பானது)
-
எழுத்துப் பிழைகள், பேச்சுப் பிழைகள், தரமற்ற வடிவமைப்பு, வெற்று உள்ளீடுகள், பன்மொழி ஆச்சரியங்கள் 🌍 என எட்ஜ்-கேஸ் பேக்கை வைத்திருங்கள்
நான் பலமுறை பார்த்த ஒரு நடைமுறை விஷயம்: ஒரு குழு "வலுவான" ஆஃப்லைன் மதிப்பெண்ணுடன் வருகிறது, பின்னர் வாடிக்கையாளர் ஆதரவு, "அருமை. இது முக்கியமான ஒரு வாக்கியத்தை நம்பிக்கையுடன் தவறவிட்டது" என்று கூறுகிறது. சரிசெய்தல் "பெரிய மாதிரி" அல்ல. இது சிறந்த சோதனைத் தூண்டுதல்கள் , தெளிவான ரூப்ரிக்ஸ் மற்றும் அந்த சரியான தோல்வி பயன்முறையைத் தண்டிக்கும் ஒரு பின்னடைவுத் தொகுப்பு. எளிமையானது. பயனுள்ளது.
5) ஆஃப்லைன் மதிப்பீடு: எதையாவது குறிக்கும் அளவீடுகள் 📏
அளவீடுகள் பரவாயில்லை. மெட்ரிக் ஒற்றைப் பயிர் சாகுபடி இல்லை.
வகைப்பாடு (ஸ்பேம், மோசடி, நோக்கம், வகைப்படுத்தல்)
துல்லியத்தை விட அதிகமாகப் பயன்படுத்துங்கள்.
-
துல்லியம், நினைவுகூரல், F1
-
வரம்பு சரிசெய்தல் (உங்கள் இயல்புநிலை வரம்பு உங்கள் செலவுகளுக்கு அரிதாகவே "சரியானது") [4]
-
பிரிவுக்கு குழப்ப அணிகள் (பிராந்தியம், சாதன வகை, பயனர் குழுமம்)
பின்னடைவு (முன்கணிப்பு, விலை நிர்ணயம், மதிப்பெண்)
-
MAE / RMSE (பிழைகளை எவ்வாறு தண்டிக்க விரும்புகிறீர்கள் என்பதைப் பொறுத்து தேர்ந்தெடுக்கவும்)
-
வெளியீடுகள் "மதிப்பெண்களாக" பயன்படுத்தப்படும்போது அளவுத்திருத்த-சார் சோதனைகள் (மதிப்பெண்கள் யதார்த்தத்துடன் ஒத்துப்போகிறதா?)
தரவரிசை / பரிந்துரை அமைப்புகள்
-
NDCG, MAP, MRR
-
வினவல் வகையின்படி துண்டு (தலை vs வால்)
கணினி பார்வை
-
எம்ஏபி, ஐஓயு
-
ஒவ்வொரு வகுப்பிற்கும் செயல்திறன் (அரிதான வகுப்புகள் மாதிரிகள் உங்களை சங்கடப்படுத்தும் இடங்களாகும்)
உருவாக்க மாதிரிகள் (LLMகள்)
இதுதான் மக்கள் பெறும் இடம்... தத்துவார்த்தம் 😵💫
உண்மையான குழுக்களில் செயல்படும் நடைமுறை விருப்பங்கள்:
-
மனித மதிப்பீடு (சிறந்த சமிக்ஞை, மெதுவான சுழற்சி)
-
ஜோடிவாரி விருப்பம் / வெற்றி விகிதம் (A vs B முழுமையான மதிப்பெண்ணை விட எளிதானது)
-
தானியங்கி உரை அளவீடுகள் (சில பணிகளுக்கு எளிது, மற்றவற்றுக்கு தவறாக வழிநடத்தும்)
-
பணி அடிப்படையிலான சரிபார்ப்புகள்: “சரியான புலங்களைப் பிரித்தெடுத்ததா?” “கொள்கையைப் பின்பற்றியதா?” “தேவைப்படும்போது அது ஆதாரங்களை மேற்கோள் காட்டியதா?”
நீங்கள் ஒரு கட்டமைக்கப்பட்ட "மல்டி-மெட்ரிக், பல-சூழல்கள்" குறிப்பு புள்ளியை விரும்பினால், HELM ஒரு நல்ல நங்கூரமாகும்: இது துல்லியத்திற்கு அப்பால் மதிப்பீட்டை அளவுத்திருத்தம், வலுவான தன்மை, சார்பு/நச்சுத்தன்மை மற்றும் செயல்திறன் வர்த்தகம் போன்ற விஷயங்களுக்கு வெளிப்படையாகத் தள்ளுகிறது [5].
கொஞ்சம் திசைதிருப்பல்: எழுத்துத் தரத்திற்கான தானியங்கி அளவீடுகள் சில நேரங்களில் ஒரு சாண்ட்விச்சை எடைபோட்டு மதிப்பிடுவது போல் இருக்கும். இது ஒன்றுமில்லை, ஆனால்... வாருங்கள் 🥪
6) வலிமை சோதனை: கொஞ்சம் வியர்க்க வைக்கவும் 🥵🧪
உங்கள் மாடல் நேர்த்தியான உள்ளீடுகளில் மட்டுமே வேலை செய்தால், அது அடிப்படையில் ஒரு கண்ணாடி குவளை. அழகானது, உடையக்கூடியது, விலை உயர்ந்தது.
சோதனை:
-
சத்தம்: எழுத்துப் பிழைகள், விடுபட்ட மதிப்புகள், தரமற்ற யூனிகோட், வடிவமைப்பு குறைபாடுகள்
-
விநியோக மாற்றம்: புதிய தயாரிப்பு வகைகள், புதிய பேச்சுவழக்கு, புதிய உணரிகள்
-
தீவிர மதிப்புகள்: வரம்பிற்கு வெளியே உள்ள எண்கள், மாபெரும் பேலோடுகள், வெற்று சரங்கள்
-
உங்கள் பயிற்சித் தொகுப்பைப் போல இல்லாமல் பயனர்களைப் போல தோற்றமளிக்கும் “
LLM களுக்கு, பின்வருவன அடங்கும்:
-
உடனடி ஊசி முயற்சிகள் (பயனர் உள்ளடக்கத்திற்குள் மறைந்திருக்கும் வழிமுறைகள்)
-
"முந்தைய வழிமுறைகளைப் புறக்கணிக்கவும்" வடிவங்கள்
-
கருவி-பயன்பாட்டு எட்ஜ் கேஸ்கள் (மோசமான URLகள், காலக்கெடு, பகுதி வெளியீடுகள்)
உறுதித்தன்மை என்பது சம்பவங்கள் நிகழும் வரை சுருக்கமாகத் தோன்றும் நம்பகத்தன்மை பண்புகளில் ஒன்றாகும். பின்னர் அது... மிகவும் உறுதியானதாக மாறும் [1].
7) சார்பு, நியாயம், அது யாருக்காக வேலை செய்கிறது ⚖️
ஒரு மாதிரி ஒட்டுமொத்தமாக "துல்லியமாக" இருக்கலாம், அதே நேரத்தில் குறிப்பிட்ட குழுக்களுக்கு தொடர்ந்து மோசமாக இருக்கலாம். அது ஒரு சிறிய பிழை அல்ல. அது ஒரு தயாரிப்பு மற்றும் நம்பிக்கை பிரச்சனை.
நடைமுறை படிகள்:
-
அர்த்தமுள்ள பிரிவுகளின் அடிப்படையில் செயல்திறனை மதிப்பிடுங்கள் (சட்டப்பூர்வமாக/நெறிமுறைப்படி அளவிடுவதற்கு ஏற்றது)
-
குழுக்களிடையே பிழை விகிதங்களையும் அளவுத்திருத்தத்தையும் ஒப்பிடுக
-
முக்கியமான பண்புகளை குறியாக்கம் செய்யக்கூடிய ப்ராக்ஸி அம்சங்களுக்கான (ஜிப் குறியீடு, சாதன வகை, மொழி) சோதனை
நீங்கள் இதை எங்காவது ஆவணப்படுத்தவில்லை என்றால், நீங்கள் அடிப்படையில் எதிர்காலத்தை-உங்களிடம் வரைபடம் இல்லாமல் ஒரு நம்பிக்கை நெருக்கடியை பிழைத்திருத்தம் செய்யக் கேட்கிறீர்கள். மாதிரி அட்டைகள் அதைச் சொல்ல ஒரு உறுதியான இடம் [2], மேலும் NIST இன் நம்பகத்தன்மை சட்டகம் "நல்லது" என்ன சேர்க்க வேண்டும் என்பதற்கான வலுவான சரிபார்ப்புப் பட்டியலை உங்களுக்கு வழங்குகிறது [1].
8) பாதுகாப்பு மற்றும் பாதுகாப்பு சோதனை (குறிப்பாக LLM களுக்கு) 🛡️
உங்கள் மாதிரி உள்ளடக்கத்தை உருவாக்க முடிந்தால், நீங்கள் துல்லியத்தை விட அதிகமாக சோதிக்கிறீர்கள். நீங்கள் நடத்தையை சோதிக்கிறீர்கள்.
இதற்கான சோதனைகளைச் சேர்க்கவும்:
-
அனுமதிக்கப்படாத உள்ளடக்க உருவாக்கம் (கொள்கை மீறல்கள்)
-
தனியுரிமை கசிவு (இது ரகசியங்களை எதிரொலிக்கிறதா?)
-
அதிக பங்கு வகிக்கும் பகுதிகளில் மாயத்தோற்றங்கள்
-
அதிகமாக மறுத்தல் (மாதிரி சாதாரண கோரிக்கைகளை மறுக்கிறது)
-
நச்சுத்தன்மை மற்றும் துன்புறுத்தல் வெளியீடுகள்
-
உடனடி ஊசி மூலம் தரவு வெளியேற்ற முயற்சிகள்
ஒரு அடிப்படை அணுகுமுறை: கொள்கை விதிகளை வரையறுத்தல் → சோதனைத் தூண்டுதல்களை உருவாக்குதல் → மனித + தானியங்கி சரிபார்ப்புகளுடன் வெளியீடுகளை மதிப்பெண் செய்தல் → ஏதாவது மாறும்போது அதை இயக்குதல். அந்த "ஒவ்வொரு முறையும்" பகுதி வாடகை.
இது வாழ்க்கைச் சுழற்சி ஆபத்து மனநிலையில் சரியாகப் பொருந்துகிறது: நிர்வகித்தல், சூழலை வரைபடமாக்குதல், அளவிடுதல், நிர்வகித்தல், மீண்டும் செய்தல் [1].
9) ஆன்லைன் சோதனை: படிப்படியாக வெளியீடுகள் (உண்மை வாழும் இடத்தில்) 🚀
ஆஃப்லைன் சோதனைகள் அவசியம். ஆன்லைன் வெளிப்பாடு என்பது சேற்று காலணிகளை அணிந்து யதார்த்தம் வெளிப்படும் இடம்.
நீங்கள் ஆடம்பரமாக இருக்க வேண்டியதில்லை. நீங்கள் ஒழுக்கமாக இருந்தால் போதும்:
-
நிழல் பயன்முறையில் இயக்கவும் (மாடல் இயங்கும், பயனர்களைப் பாதிக்காது)
-
படிப்படியாக வெளியீடு (முதலில் குறைந்த போக்குவரத்து, சரியாக இருந்தால் விரிவாக்கவும்)
-
மற்றும் கண்காணிக்கவும் (புகார்கள், அதிகரிப்புகள், கொள்கை தோல்விகள்)
உடனடி லேபிள்களைப் பெற முடியாவிட்டாலும், ப்ராக்ஸி சிக்னல்கள் மற்றும் செயல்பாட்டு ஆரோக்கியத்தை (தாமதம், தோல்வி விகிதங்கள், செலவு) நீங்கள் கண்காணிக்கலாம். முக்கிய விஷயம்: உங்கள் முழு பயனர் தளமும் [1] தோல்விகளைக் கண்டறியும் முன்,
10) பயன்படுத்தப்பட்ட பிறகு கண்காணிப்பு: சறுக்கல், சிதைவு மற்றும் அமைதியான தோல்வி 📉👀
நீங்கள் சோதித்த மாதிரி நீங்கள் வாழும் மாதிரி அல்ல. தரவு மாறுகிறது. பயனர்கள் மாறுகிறார்கள். உலகம் மாறுகிறது. அதிகாலை 2 மணிக்கு குழாய் உடைகிறது. அது எப்படி என்று உங்களுக்குத் தெரியும்..
கண்காணிக்கவும்:
-
உள்ளீட்டுத் தரவு சறுக்கல் (திட்ட மாற்றங்கள், காணாமல் போதல், விநியோக மாற்றங்கள்)
-
வெளியீட்டு சறுக்கல் (வகுப்பு இருப்பு மாற்றங்கள், மதிப்பெண் மாற்றங்கள்)
-
செயல்திறன் ப்ராக்ஸிகள் (ஏனெனில் லேபிள் தாமதங்கள் உண்மையானவை)
-
கருத்து சமிக்ஞைகள் (கட்டைவிரலைக் குறைத்தல், மறு திருத்தங்கள், அதிகரிப்புகள்)
-
பிரிவு-நிலை பின்னடைவுகள் (அமைதியான கொலையாளிகள்)
மேலும் அதிக இழுப்பு இல்லாத எச்சரிக்கை வரம்புகளை அமைக்கவும். தொடர்ந்து அலறும் ஒரு மானிட்டர் புறக்கணிக்கப்படுகிறது - ஒரு நகரத்தில் கார் அலாரம் போல.
நம்பகத்தன்மையைப் பற்றி நீங்கள் அக்கறை கொண்டிருந்தால், இந்த “கண்காணிப்பு + காலப்போக்கில் மேம்பாடு” வளையம் விருப்பத்திற்குரியது அல்ல [1].
11) நீங்கள் நகலெடுக்கக்கூடிய ஒரு நடைமுறை பணிப்பாய்வு 🧩
அளவிடும் ஒரு எளிய வளையம் இங்கே:
-
வெற்றி + தோல்வி முறைகளை வரையறுக்கவும் (செலவு/தாமதம்/பாதுகாப்பு உட்பட) [1]
-
தரவுத்தொகுப்புகளை உருவாக்கவும்:
-
தங்கத் தொகுப்பு
-
விளிம்பு உறை பொதி
-
சமீபத்திய உண்மையான மாதிரிகள் (தனியுரிமைக்கு பாதுகாப்பானது)
-
-
அளவீடுகளைத் தேர்வுசெய்க:
-
பணி அளவீடுகள் (F1, MAE, வெற்றி விகிதம்) [4][5]
-
பாதுகாப்பு அளவீடுகள் (கொள்கை தேர்ச்சி விகிதம்) [1][5]
-
செயல்பாட்டு அளவீடுகள் (தாமதம், செலவு)
-
-
ஒரு மதிப்பீட்டு சேணத்தை உருவாக்குங்கள் (ஒவ்வொரு மாதிரி/உடனடி மாற்றத்திலும் இயங்கும்) [4][5]
-
மன அழுத்த சோதனைகள் + எதிர்மறையான சோதனைகளைச் சேர்க்கவும் [1][5]
-
ஒரு மாதிரிக்கான மனித மதிப்பாய்வு (குறிப்பாக LLM வெளியீடுகளுக்கு) [5]
-
நிழல் + நிலைமாற்ற வெளியீடு வழியாக அனுப்புதல் [1]
-
கண்காணிப்பு + எச்சரிக்கை + ஒழுக்கத்துடன் மீண்டும் பயிற்சி [1]
-
ஆவணம் மாதிரி-அட்டை பாணி எழுத்தில் விளைகிறது [2][3]
பயிற்சி என்பது கவர்ச்சிகரமானது. தேர்வு என்பது வாடகை செலுத்துவதாகும்.
12) இறுதிக் குறிப்புகள் + விரைவான சுருக்கம் 🧠✨
AI மாதிரிகளை எவ்வாறு சோதிப்பது என்பது பற்றிய சில விஷயங்களை மட்டும் நீங்கள் நினைவில் வைத்திருந்தால் :
-
பிரதிநிதித்துவ சோதனைத் தரவைப் பயன்படுத்தி கசிவைத் தவிர்க்கவும் [4]
-
உண்மையான விளைவுகளுடன் தொடர்புடைய பல அளவீடுகளைத் தேர்ந்தெடுக்கவும்
-
மனித மதிப்பாய்வு + வெற்றி விகித பாணி ஒப்பீடுகளை நம்புங்கள் [5]
-
சோதனை வலிமை - அசாதாரண உள்ளீடுகள் மாறுவேடத்தில் உள்ள சாதாரண உள்ளீடுகள் [1]
-
மாதிரிகள் நகர்ந்து குழாய்கள் உடைந்து போவதால், பாதுகாப்பாக உருட்டி கண்காணிக்கவும் [1]
-
நீங்கள் என்ன செய்தீர்கள், என்ன சோதிக்கவில்லை என்பதை ஆவணப்படுத்துங்கள் (சங்கடமாக இருந்தாலும் சக்திவாய்ந்ததாக இருந்தாலும்) [2][3]
சோதனை என்பது வெறும் "அது வேலை செய்கிறது என்பதை நிரூபிப்பது" மட்டுமல்ல. அது "உங்கள் பயனர்கள் தோல்வியடைவதற்கு முன்பு அது எவ்வாறு தோல்வியடைகிறது என்பதைக் கண்டுபிடிப்பது". ஆம், அது குறைவான கவர்ச்சியானது - ஆனால் விஷயங்கள் தடுமாறும்போது உங்கள் கணினியை நிலைநிறுத்தும் பகுதி இது... 🧱🙂
அடிக்கடி கேட்கப்படும் கேள்விகள்
உண்மையான பயனர் தேவைகளுக்கு ஏற்றவாறு AI மாதிரிகளைச் சோதிப்பதற்கான சிறந்த வழி
"நல்லது" என்பதை உண்மையான பயனர் மற்றும் மாதிரி ஆதரிக்கும் முடிவு ஆகியவற்றின் அடிப்படையில் வரையறுப்பதன் மூலம் தொடங்கவும், லீடர்போர்டு அளவீடு மட்டுமல்ல. அதிக விலை தோல்வி முறைகளை (தவறான நேர்மறைகள் vs தவறான எதிர்மறைகள்) அடையாளம் கண்டு, தாமதம், செலவு, தனியுரிமை மற்றும் விளக்கக்கூடிய தன்மை போன்ற கடுமையான கட்டுப்பாடுகளை உச்சரிக்கவும். பின்னர் அந்த விளைவுகளை பிரதிபலிக்கும் அளவீடுகள் மற்றும் சோதனை நிகழ்வுகளைத் தேர்வு செய்யவும். இது ஒருபோதும் சிறந்த தயாரிப்பாக மொழிபெயர்க்காத "அழகான அளவீட்டை" மேம்படுத்துவதிலிருந்து உங்களைத் தடுக்கிறது.
மதிப்பீட்டு அளவீடுகளைத் தேர்ந்தெடுப்பதற்கு முன் வெற்றி அளவுகோல்களை வரையறுத்தல்
பயனர் யார், மாதிரி எந்த முடிவை ஆதரிக்க வேண்டும், மற்றும் உற்பத்தியில் "மோசமான தோல்வி" எப்படி இருக்கும் என்பதை எழுதுங்கள். ஏற்றுக்கொள்ளக்கூடிய தாமதம் மற்றும் கோரிக்கைக்கான செலவு போன்ற செயல்பாட்டுக் கட்டுப்பாடுகளைச் சேர்க்கவும், மேலும் தனியுரிமை விதிகள் மற்றும் பாதுகாப்புக் கொள்கைகள் போன்ற நிர்வாகத் தேவைகளையும் சேர்க்கவும். அவை தெளிவாகத் தெரிந்தவுடன், அளவீடுகள் சரியானதை அளவிடுவதற்கான ஒரு வழியாக மாறும். அந்த கட்டமைப்பு இல்லாமல், அளவிட எளிதானதை மேம்படுத்துவதை நோக்கி அணிகள் நகர்கின்றன.
மாதிரி மதிப்பீட்டில் தரவு கசிவு மற்றும் தற்செயலான மோசடியைத் தடுத்தல்
பயிற்சி/சரிபார்ப்பு/சோதனை பிளவுகளை நிலையானதாக வைத்திருங்கள் மற்றும் பிளவு தர்க்கத்தை ஆவணப்படுத்துங்கள், இதனால் முடிவுகள் மீண்டும் உருவாக்கப்படும். பிளவுகளில் (ஒரே பயனர், ஆவணம், தயாரிப்பு அல்லது மீண்டும் மீண்டும் வரும் வடிவங்கள்) நகல்களையும் கிட்டத்தட்ட நகல்களையும் செயலில் தடுக்கவும். நேர முத்திரைகள் அல்லது நிகழ்வுக்குப் பிந்தைய புலங்கள் மூலம் "எதிர்கால" தகவல் உள்ளீடுகளில் நழுவும் அம்சக் கசிவைக் கவனியுங்கள். நீங்கள் சத்தத்தைக் கொண்டாடும்போது கவனிக்க ஒரு வலுவான அடிப்படை (போலி மதிப்பீட்டாளர்கள் கூட) உங்களுக்கு உதவுகிறது.
மாற்றங்கள் முழுவதும் சோதனைகள் மீண்டும் மீண்டும் நிகழக்கூடியதாக இருக்க, மதிப்பீட்டுச் சேணத்தில் என்னென்ன உள்ளடக்கியிருக்க வேண்டும்?
ஒரு நடைமுறை ஹார்னஸ், ஒவ்வொரு மாதிரி, ப்ராம்ட் அல்லது கொள்கை மாற்றத்திலும் ஒரே மாதிரியான தரவுத்தொகுப்புகள் மற்றும் மதிப்பெண் விதிகளைப் பயன்படுத்தி ஒப்பிடக்கூடிய சோதனைகளை மீண்டும் இயக்குகிறது. இது பொதுவாக ஒரு பின்னடைவு தொகுப்பு, தெளிவான அளவீட்டு டாஷ்போர்டுகள் மற்றும் சேமிக்கப்பட்ட கட்டமைப்புகள் மற்றும் தடமறிதலுக்கான கலைப்பொருட்களை உள்ளடக்கியது. LLM அமைப்புகளுக்கு, இதற்கு நிலையான "கோல்டன் செட்" ப்ராம்ட்கள் மற்றும் ஒரு எட்ஜ்-கேஸ் பேக் தேவை. குறிக்கோள் "நோட்புக்கை மீண்டும் இயக்கி பிரார்த்தனை" அல்ல, "பொத்தானை அழுத்தவும் → ஒப்பிடக்கூடிய முடிவுகள்" ஆகும்
துல்லியத்திற்கு அப்பால் AI மாதிரிகளைச் சோதிப்பதற்கான அளவீடுகள்
பல அளவீடுகளைப் பயன்படுத்தவும், ஏனெனில் ஒரு ஒற்றை எண் முக்கியமான சமரசங்களை மறைக்கக்கூடும். வகைப்பாட்டிற்கு, துல்லியம்/மீள்நினைவு/F1 ஐ பிரிவு வாரியாக வரம்பு சரிசெய்தல் மற்றும் குழப்ப அணிகளுடன் இணைக்கவும். பின்னடைவுக்கு, பிழைகளை எவ்வாறு தண்டிக்க விரும்புகிறீர்கள் என்பதன் அடிப்படையில் MAE அல்லது RMSE ஐத் தேர்வுசெய்து, வெளியீடுகள் மதிப்பெண்களைப் போல செயல்படும்போது அளவுத்திருத்த பாணி சரிபார்ப்புகளைச் சேர்க்கவும். தரவரிசைக்கு, சீரற்ற செயல்திறனைப் பிடிக்க, NDCG/MAP/MRR ஐப் பயன்படுத்தி தலை vs வால் வினவல்களால் வெட்டவும்.
தானியங்கி அளவீடுகள் குறைவாக இருக்கும்போது LLM வெளியீடுகளை மதிப்பிடுதல்
உரை ஒற்றுமையை மட்டும் கருத்தில் கொள்ளாமல், ஒரு உடனடி-மற்றும்-கொள்கை அமைப்பு மற்றும் மதிப்பெண் நடத்தையாக இதை நடத்துங்கள். பல குழுக்கள் மனித மதிப்பீட்டை ஜோடிவாரி விருப்பத்தேர்வு (A/B வெற்றி விகிதம்) மற்றும் "சரியான புலங்களைப் பிரித்தெடுத்ததா" அல்லது "கொள்கையைப் பின்பற்றினதா" போன்ற பணி அடிப்படையிலான சரிபார்ப்புகளுடன் இணைக்கின்றன. தானியங்கி உரை அளவீடுகள் குறுகிய சந்தர்ப்பங்களில் உதவக்கூடும், ஆனால் அவை பெரும்பாலும் பயனர்கள் அக்கறை கொள்வதைத் தவறவிடுகின்றன. தெளிவான ரூப்ரிக்ஸ் மற்றும் பின்னடைவு தொகுப்பு பொதுவாக ஒரு மதிப்பெண்ணை விட முக்கியமானது.
சத்தம் உள்ளீடுகளில் மாதிரி உடைந்து போகாமல் இருக்க, வலிமை சோதனைகள் இயக்கப்பட வேண்டும்
உண்மையான பயனர்கள் அரிதாகவே நேர்த்தியாக இருப்பதால், எழுத்துப் பிழைகள், விடுபட்ட மதிப்புகள், விசித்திரமான வடிவமைப்பு மற்றும் தரமற்ற யூனிகோடு ஆகியவற்றைக் கொண்டு மாதிரியை அழுத்தமாகச் சோதிக்கவும். புதிய வகைகள், ஸ்லாங், சென்சார்கள் அல்லது மொழி வடிவங்கள் போன்ற விநியோக மாற்ற நிகழ்வுகளைச் சேர்க்கவும். உடையக்கூடிய நடத்தையை மேற்பரப்புக்கு தீவிர மதிப்புகளை (வெற்று சரங்கள், பெரிய பேலோடுகள், வரம்பிற்கு வெளியே உள்ள எண்கள்) சேர்க்கவும். LLM களுக்கு, உடனடி ஊசி வடிவங்கள் மற்றும் காலக்கெடு அல்லது பகுதி வெளியீடுகள் போன்ற கருவி-பயன்பாட்டு தோல்விகளையும் சோதிக்கவும்.
கோட்பாட்டில் தொலைந்து போகாமல் சார்பு மற்றும் நியாயத்தன்மை சிக்கல்களைச் சரிபார்த்தல்
அர்த்தமுள்ள துண்டுகளில் செயல்திறனை மதிப்பிடுங்கள், சட்டப்பூர்வமாகவும் நெறிமுறை ரீதியாகவும் அளவிடுவதற்குப் பொருத்தமான குழுக்களிடையே பிழை விகிதங்கள் மற்றும் அளவுத்திருத்தத்தை ஒப்பிடுங்கள். மறைமுகமாக உணர்திறன் பண்புகளை குறியாக்கம் செய்யக்கூடிய ப்ராக்ஸி அம்சங்களை (ஜிப் குறியீடு, சாதன வகை அல்லது மொழி போன்றவை) தேடுங்கள். ஒரு மாதிரி "ஒட்டுமொத்தமாக துல்லியமாக" இருக்கும் அதே வேளையில் குறிப்பிட்ட குழுக்களுக்கு தொடர்ந்து தோல்வியடையும். நீங்கள் என்ன அளந்தீர்கள், என்ன செய்யவில்லை என்பதை ஆவணப்படுத்துங்கள், எனவே எதிர்கால மாற்றங்கள் அமைதியாக பின்னடைவுகளை மீண்டும் அறிமுகப்படுத்தாது.
ஜெனரேட்டிவ் AI மற்றும் LLM அமைப்புகளுக்கு பாதுகாப்பு மற்றும் பாதுகாப்பு சோதனைகள் சேர்க்கப்பட வேண்டும்
அனுமதிக்கப்படாத உள்ளடக்க உருவாக்கம், தனியுரிமை கசிவு, அதிக பங்குள்ள டொமைன்களில் மாயத்தோற்றங்கள் மற்றும் மாதிரி சாதாரண கோரிக்கைகளைத் தடுக்கும் இடங்களில் அதிகப்படியான மறுப்பு ஆகியவற்றிற்கான சோதனை. குறிப்பாக கணினி கருவிகளைப் பயன்படுத்தும் போது அல்லது உள்ளடக்கத்தை மீட்டெடுக்கும் போது, உடனடி ஊசி மற்றும் தரவு வெளியேற்ற முயற்சிகளைச் சேர்க்கவும். ஒரு அடிப்படை பணிப்பாய்வு: கொள்கை விதிகளை வரையறுத்தல், சோதனை தூண்டுதல் தொகுப்பை உருவாக்குதல், மனித மற்றும் தானியங்கி காசோலைகளுடன் மதிப்பெண் பெறுதல் மற்றும் தூண்டுதல்கள், தரவு அல்லது கொள்கைகள் மாறும் போதெல்லாம் அதை மீண்டும் இயக்குதல். நிலைத்தன்மை என்பது நீங்கள் செலுத்தும் வாடகை.
சறுக்கல் மற்றும் சம்பவங்களைக் கண்டறிய, அறிமுகப்படுத்தப்பட்ட பிறகு AI மாதிரிகளை உருவாக்கி கண்காணித்தல்
உங்கள் முழு பயனர் தளமும் தோல்விகளைக் கண்டறியும் முன், நிழல் பயன்முறை மற்றும் படிப்படியான போக்குவரத்து சாய்வுகள் போன்ற படிநிலை ரோல்அவுட் முறைகளைப் பயன்படுத்தவும். உள்ளீட்டு சறுக்கல் (திட்ட மாற்றங்கள், காணாமல் போதல், விநியோக மாற்றங்கள்) மற்றும் வெளியீட்டு சறுக்கல் (மதிப்பெண் மாற்றங்கள், வகுப்பு இருப்பு மாற்றங்கள்), அத்துடன் தாமதம் மற்றும் செலவு போன்ற செயல்பாட்டு ஆரோக்கியத்தையும் கண்காணிக்கவும். திருத்தங்கள், அதிகரிப்புகள் மற்றும் புகார்கள் போன்ற பின்னூட்ட சமிக்ஞைகளைக் கண்காணிக்கவும், பிரிவு-நிலை பின்னடைவுகளைப் பார்க்கவும். ஏதாவது மாறும்போது, அதே ஹார்னஸை மீண்டும் இயக்கி தொடர்ந்து கண்காணித்துக்கொண்டே இருங்கள்.
குறிப்புகள்
[1] NIST - செயற்கை நுண்ணறிவு இடர் மேலாண்மை கட்டமைப்பு (AI RMF 1.0) (PDF)
[2] மிட்செல் மற்றும் பலர் - “மாதிரி அறிக்கையிடலுக்கான மாதிரி அட்டைகள்” (arXiv:1810.03993)
[3] கெப்ரு மற்றும் பலர் - “தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள்” (arXiv:1803.09010)
[4] scikit-learn - “மாதிரி தேர்வு மற்றும் மதிப்பீடு” ஆவணங்கள்
[5] லியாங் மற்றும் பலர் - “மொழி மாதிரிகளின் முழுமையான மதிப்பீடு” (arXiv:2211.09110)