AI மாதிரிகளை எவ்வாறு சோதிப்பது

AI மாதிரிகளை எவ்வாறு சோதிப்பது

சுருக்கமான பதில்: AI மாதிரிகளை நன்றாக மதிப்பிட, உண்மையான பயனருக்கும் கையில் இருக்கும் முடிவுக்கும் "நல்லது" எப்படி இருக்கும் என்பதை வரையறுப்பதன் மூலம் தொடங்கவும். பின்னர் பிரதிநிதித்துவ தரவு, இறுக்கமான கசிவு கட்டுப்பாடுகள் மற்றும் பல அளவீடுகளுடன் மீண்டும் மீண்டும் மதிப்பீடுகளை உருவாக்கவும். மன அழுத்தம், சார்பு மற்றும் பாதுகாப்பு சோதனைகளைச் சேர்க்கவும், மேலும் ஏதாவது மாறும்போது (தரவு, அறிவுறுத்தல்கள், கொள்கை), ஹார்னஸை மீண்டும் இயக்கவும், அறிமுகப்படுத்தப்பட்ட பிறகு தொடர்ந்து கண்காணிக்கவும்.

முக்கிய குறிப்புகள்:

வெற்றி அளவுகோல்கள் : அளவீடுகளைத் தேர்ந்தெடுப்பதற்கு முன் பயனர்கள், முடிவுகள், கட்டுப்பாடுகள் மற்றும் மோசமான தோல்விகளை வரையறுக்கவும்.

மீண்டும் மீண்டும் செய்யக்கூடிய தன்மை : ஒவ்வொரு மாற்றத்துடனும் ஒப்பிடக்கூடிய சோதனைகளை மீண்டும் இயக்கும் ஒரு சோதனை சேனலை உருவாக்குங்கள்.

தரவு சுகாதாரம் : நிலையான பிளவுகளை வைத்திருங்கள், நகல்களைத் தடுக்கவும், அம்சக் கசிவை முன்கூட்டியே தடுக்கவும்.

நம்பிக்கை சோதனைகள் : மன அழுத்த சோதனை வலிமை, நியாயத்தன்மை துண்டுகள் மற்றும் தெளிவான சொற்களுடன் கூடிய LLM பாதுகாப்பு நடத்தைகள்.

வாழ்க்கைச் சுழற்சி ஒழுக்கம் : நிலைகளில் விரிவுபடுத்துதல், சறுக்கல்கள் மற்றும் சம்பவங்களைக் கண்காணித்தல் மற்றும் அறியப்பட்ட இடைவெளிகளை ஆவணப்படுத்துதல்.

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 AI நெறிமுறைகள் என்றால் என்ன?
பொறுப்பான AI வடிவமைப்பு, பயன்பாடு மற்றும் நிர்வாகத்தை வழிநடத்தும் கொள்கைகளை ஆராயுங்கள்.

🔗 AI சார்பு என்றால் என்ன?
சார்புடைய தரவு எவ்வாறு AI முடிவுகள் மற்றும் விளைவுகளைச் சாய்க்கிறது என்பதை அறிக.

🔗 AI அளவிடுதல் என்றால் என்ன
செயல்திறன், செலவு மற்றும் நம்பகத்தன்மைக்கான அளவிடுதல் AI அமைப்புகளைப் புரிந்து கொள்ளுங்கள்.

🔗 AI என்றால் என்ன?
செயற்கை நுண்ணறிவு, வகைகள் மற்றும் நிஜ உலகப் பயன்பாடுகள் பற்றிய தெளிவான கண்ணோட்டம்.


1) "நல்லது" என்பதன் அழகற்ற வரையறையுடன் தொடங்குங்கள் 

அளவீடுகளுக்கு முன், டேஷ்போர்டுகளுக்கு முன், எந்த அளவுகோலை வளைப்பதற்கு முன் - வெற்றி எப்படி இருக்கும் என்பதை முடிவு செய்யுங்கள்.

தெளிவுபடுத்தவும்:

  • பயனர்: உள் ஆய்வாளர், வாடிக்கையாளர், மருத்துவர், ஓட்டுநர், மாலை 4 மணிக்கு சோர்வடைந்த ஒரு ஆதரவு முகவர்...

  • முடிவு: கடனை அங்கீகரித்தல், மோசடியைக் கொடியிடுதல், உள்ளடக்கத்தைப் பரிந்துரைத்தல், குறிப்புகளைச் சுருக்குதல்

  • மிக முக்கியமான தோல்விகள்:

    • தவறான நேர்மறைகள் (எரிச்சலூட்டும்) vs தவறான எதிர்மறைகள் (ஆபத்தானது)

  • கட்டுப்பாடுகள்: தாமதம், கோரிக்கைக்கான செலவு, தனியுரிமை விதிகள், விளக்கத் தேவைகள், அணுகல்தன்மை

"அர்த்தமுள்ள விளைவு" என்பதற்குப் பதிலாக "அழகான மெட்ரிக்" என்பதை மேம்படுத்த அணிகள் நகரும் பகுதி இது. இது நிறைய நடக்கிறது. இப்படி... நிறைய.

இந்த ஆபத்து-விழிப்புணர்வை (மற்றும் அதிர்வுகளை அடிப்படையாகக் கொண்டதல்ல) வைத்திருப்பதற்கான ஒரு உறுதியான வழி, நம்பகத்தன்மை மற்றும் வாழ்க்கைச் சுழற்சி இடர் மேலாண்மையைச் சுற்றி சோதனையை வடிவமைப்பதாகும், இது AI இடர் மேலாண்மை கட்டமைப்பில் (AI RMF 1.0) [1].

 

AI மாதிரிகளைச் சோதித்தல்

2) “AI மாதிரிகளை எவ்வாறு சோதிப்பது” என்பதன் நல்ல பதிப்பை உருவாக்குவது எது ✅

ஒரு திடமான சோதனை அணுகுமுறையில் சில பேச்சுவார்த்தைக்கு மாறான அம்சங்கள் உள்ளன:

  • பிரதிநிதித்துவ தரவு (சுத்தமான ஆய்வக தரவு மட்டுமல்ல)

  • தெளிவான பிளவுகள் (ஒரு நொடியில் அதைப் பற்றி மேலும்)

  • அடிப்படைக் கோடுகள் (நீங்கள் வேண்டிய - போலி மதிப்பீட்டாளர்கள் ஒரு காரணத்திற்காக இருக்கிறார்கள் [4])

  • பல அளவீடுகள் (ஏனென்றால் ஒரு எண் உங்களுக்கு, பணிவுடன், உங்கள் முகத்திற்குப் பொய் சொல்கிறது)

  • மன அழுத்த சோதனைகள் (விரிவான சூழ்நிலைகள், அசாதாரண உள்ளீடுகள், விரோத சூழ்நிலைகள்)

  • மனித மதிப்பாய்வு சுழல்கள் (குறிப்பாக உருவாக்கும் மாதிரிகளுக்கு)

  • ஏவப்பட்ட பிறகு கண்காணித்தல் (ஏனெனில் உலகம் மாறுகிறது, குழாய்வழிகள் உடைகின்றன, பயனர்கள் ... படைப்பாற்றல் மிக்கவர்கள் [1])

மேலும்: ஒரு நல்ல அணுகுமுறையில் நீங்கள் என்ன சோதித்தீர்கள், என்ன செய்யவில்லை, நீங்கள் எதைப் பற்றி பதட்டமாக இருக்கிறீர்கள் என்பதை ஆவணப்படுத்துவதும் அடங்கும். "நான் எதைப் பற்றி பதட்டமாக இருக்கிறேன்" என்ற பகுதி சங்கடமாக உணர்கிறது - மேலும் நம்பிக்கை குவியத் தொடங்கும் இடமும் இதுதான்.

குழுக்கள் நேர்மையாக இருக்க தொடர்ந்து உதவும் இரண்டு ஆவண முறைகள்:

  • மாதிரி அட்டைகள் (மாதிரி எதற்காக, அது எவ்வாறு மதிப்பிடப்பட்டது, எங்கு தோல்வியடைகிறது) [2]

  • தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள் (தரவு என்ன, அது எவ்வாறு சேகரிக்கப்பட்டது, எதற்காகப் பயன்படுத்தப்பட வேண்டும்/பயன்படுத்தக்கூடாது) [3]


3) கருவி யதார்த்தம்: மக்கள் நடைமுறையில் என்ன பயன்படுத்துகிறார்கள் 🧰

கருவிகள் விருப்பத்திற்குரியவை. நல்ல மதிப்பீட்டு பழக்கங்கள் விருப்பத்திற்குரியவை அல்ல.

நீங்கள் ஒரு நடைமுறை ரீதியான அமைப்பை விரும்பினால், பெரும்பாலான அணிகள் மூன்று வாளிகளுடன் முடிவடைகின்றன:

  1. பரிசோதனை கண்காணிப்பு (ஓட்டங்கள், கட்டமைப்புகள், கலைப்பொருட்கள்)

  2. மதிப்பீட்டு சேணம் (மீண்டும் மீண்டும் செய்யக்கூடிய ஆஃப்லைன் சோதனைகள் + பின்னடைவு தொகுப்புகள்)

  3. கண்காணிப்பு (சறுக்கல் போன்ற சமிக்ஞைகள், செயல்திறன் பிரதிநிதிகள், சம்பவ எச்சரிக்கைகள்)

உதாரணங்களாக நீங்கள் காட்டுப்பகுதியில் நிறையப் பார்ப்பீர்கள் (ஒப்புதல்கள் அல்ல, ஆம் - அம்சங்கள்/விலை மாற்றம்): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.

இந்தப் பகுதியிலிருந்து நீங்கள் ஒரே ஒரு யோசனையைத் மீண்டும் மீண்டும் செய்யக்கூடிய ஒரு சோதனைச் சேனலை உருவாக்குங்கள் . நீங்கள் "நோட்புக்கை மீண்டும் இயக்கி பிரார்த்தனை செய்யுங்கள்" என்பதை விட, "பொத்தானை அழுத்தி → ஒப்பிடக்கூடிய முடிவுகளைப் பெறுங்கள்" என்பதை நீங்கள் விரும்புகிறீர்கள்.


4) சரியான சோதனைத் தொகுப்பை உருவாக்குங்கள் (மேலும் தரவு கசிவை நிறுத்துங்கள்) 🚧

அதிர்ச்சியூட்டும் எண்ணிக்கையிலான "அற்புதமான" மாதிரிகள் தற்செயலாக ஏமாற்றுகின்றன.

நிலையான MLக்கு

தொழில் வாழ்க்கையை காப்பாற்றும் சில கவர்ச்சியற்ற விதிகள்:

  • பயிற்சி/சரிபார்ப்பு/சோதனை வைத்திருங்கள் (மற்றும் பிளவு தர்க்கத்தை எழுதுங்கள்)

  • பிளவுகளில் நகல்களைத் தடுக்கவும் (ஒரே பயனர், ஒரே ஆவணம், ஒரே தயாரிப்பு, கிட்டத்தட்ட நகல்)

  • அம்சக் கசிவுகளைக் கவனியுங்கள் (எதிர்காலத் தகவல்கள் "தற்போதைய" அம்சங்களுக்குள் ஊடுருவுகின்றன)

  • நீங்கள் அடித்ததைக் கொண்டாடாமல் இருக்க அடிப்படைகளை (போலி மதிப்பீட்டாளர்கள்) பயன்படுத்தவும்... ஒன்றுமில்லை [4]

கசிவு வரையறை (விரைவான பதிப்பு): பயிற்சி/விளையாட்டுத் துறையில் மாதிரிக்கு முடிவெடுக்கும் நேரத்தில் இல்லாத தகவல்களை அணுக அனுமதிக்கும் எதுவும். அது வெளிப்படையாகவோ (“எதிர்கால லேபிள்”) அல்லது நுட்பமாகவோ (“நிகழ்வுக்குப் பிந்தைய நேர முத்திரை வாளி”) இருக்கலாம்.

எல்.எல்.எம் மற்றும் ஜெனரேட்டிவ் மாதிரிகளுக்கு

வெறும் "ஒரு மாதிரி" அல்ல, ஒரு உடனடி-மற்றும்-கொள்கை அமைப்பை உருவாக்குகிறீர்கள்

  • தங்க நிற குறிப்புகளின் தொகுப்பை உருவாக்கவும் (சிறிய, உயர்தர, நிலையான)

  • சமீபத்திய உண்மையான மாதிரிகளைச் சேர்க்கவும் (அநாமதேயமாக்கப்பட்டது + தனியுரிமைக்கு பாதுகாப்பானது)

  • எழுத்துப் பிழைகள், பேச்சுப் பிழைகள், தரமற்ற வடிவமைப்பு, வெற்று உள்ளீடுகள், பன்மொழி ஆச்சரியங்கள் 🌍 என எட்ஜ்-கேஸ் பேக்கை வைத்திருங்கள்

நான் பலமுறை பார்த்த ஒரு நடைமுறை விஷயம்: ஒரு குழு "வலுவான" ஆஃப்லைன் மதிப்பெண்ணுடன் வருகிறது, பின்னர் வாடிக்கையாளர் ஆதரவு, "அருமை. இது முக்கியமான ஒரு வாக்கியத்தை நம்பிக்கையுடன் தவறவிட்டது" என்று கூறுகிறது. சரிசெய்தல் "பெரிய மாதிரி" அல்ல. இது சிறந்த சோதனைத் தூண்டுதல்கள் , தெளிவான ரூப்ரிக்ஸ் மற்றும் அந்த சரியான தோல்வி பயன்முறையைத் தண்டிக்கும் ஒரு பின்னடைவுத் தொகுப்பு. எளிமையானது. பயனுள்ளது.


5) ஆஃப்லைன் மதிப்பீடு: எதையாவது குறிக்கும் அளவீடுகள் 📏

அளவீடுகள் பரவாயில்லை. மெட்ரிக் ஒற்றைப் பயிர் சாகுபடி இல்லை.

வகைப்பாடு (ஸ்பேம், மோசடி, நோக்கம், வகைப்படுத்தல்)

துல்லியத்தை விட அதிகமாகப் பயன்படுத்துங்கள்.

  • துல்லியம், நினைவுகூரல், F1

  • வரம்பு சரிசெய்தல் (உங்கள் இயல்புநிலை வரம்பு உங்கள் செலவுகளுக்கு அரிதாகவே "சரியானது") [4]

  • பிரிவுக்கு குழப்ப அணிகள் (பிராந்தியம், சாதன வகை, பயனர் குழுமம்)

பின்னடைவு (முன்கணிப்பு, விலை நிர்ணயம், மதிப்பெண்)

  • MAE / RMSE (பிழைகளை எவ்வாறு தண்டிக்க விரும்புகிறீர்கள் என்பதைப் பொறுத்து தேர்ந்தெடுக்கவும்)

  • வெளியீடுகள் "மதிப்பெண்களாக" பயன்படுத்தப்படும்போது அளவுத்திருத்த-சார் சோதனைகள் (மதிப்பெண்கள் யதார்த்தத்துடன் ஒத்துப்போகிறதா?)

தரவரிசை / பரிந்துரை அமைப்புகள்

  • NDCG, MAP, MRR

  • வினவல் வகையின்படி துண்டு (தலை vs வால்)

கணினி பார்வை

  • எம்ஏபி, ஐஓயு

  • ஒவ்வொரு வகுப்பிற்கும் செயல்திறன் (அரிதான வகுப்புகள் மாதிரிகள் உங்களை சங்கடப்படுத்தும் இடங்களாகும்)

உருவாக்க மாதிரிகள் (LLMகள்)

இதுதான் மக்கள் பெறும் இடம்... தத்துவார்த்தம் 😵💫

உண்மையான குழுக்களில் செயல்படும் நடைமுறை விருப்பங்கள்:

  • மனித மதிப்பீடு (சிறந்த சமிக்ஞை, மெதுவான சுழற்சி)

  • ஜோடிவாரி விருப்பம் / வெற்றி விகிதம் (A vs B முழுமையான மதிப்பெண்ணை விட எளிதானது)

  • தானியங்கி உரை அளவீடுகள் (சில பணிகளுக்கு எளிது, மற்றவற்றுக்கு தவறாக வழிநடத்தும்)

  • பணி அடிப்படையிலான சரிபார்ப்புகள்: “சரியான புலங்களைப் பிரித்தெடுத்ததா?” “கொள்கையைப் பின்பற்றியதா?” “தேவைப்படும்போது அது ஆதாரங்களை மேற்கோள் காட்டியதா?”

நீங்கள் ஒரு கட்டமைக்கப்பட்ட "மல்டி-மெட்ரிக், பல-சூழல்கள்" குறிப்பு புள்ளியை விரும்பினால், HELM ஒரு நல்ல நங்கூரமாகும்: இது துல்லியத்திற்கு அப்பால் மதிப்பீட்டை அளவுத்திருத்தம், வலுவான தன்மை, சார்பு/நச்சுத்தன்மை மற்றும் செயல்திறன் வர்த்தகம் போன்ற விஷயங்களுக்கு வெளிப்படையாகத் தள்ளுகிறது [5].

கொஞ்சம் திசைதிருப்பல்: எழுத்துத் தரத்திற்கான தானியங்கி அளவீடுகள் சில நேரங்களில் ஒரு சாண்ட்விச்சை எடைபோட்டு மதிப்பிடுவது போல் இருக்கும். இது ஒன்றுமில்லை, ஆனால்... வாருங்கள் 🥪


6) வலிமை சோதனை: கொஞ்சம் வியர்க்க வைக்கவும் 🥵🧪

உங்கள் மாடல் நேர்த்தியான உள்ளீடுகளில் மட்டுமே வேலை செய்தால், அது அடிப்படையில் ஒரு கண்ணாடி குவளை. அழகானது, உடையக்கூடியது, விலை உயர்ந்தது.

சோதனை:

  • சத்தம்: எழுத்துப் பிழைகள், விடுபட்ட மதிப்புகள், தரமற்ற யூனிகோட், வடிவமைப்பு குறைபாடுகள்

  • விநியோக மாற்றம்: புதிய தயாரிப்பு வகைகள், புதிய பேச்சுவழக்கு, புதிய உணரிகள்

  • தீவிர மதிப்புகள்: வரம்பிற்கு வெளியே உள்ள எண்கள், மாபெரும் பேலோடுகள், வெற்று சரங்கள்

  • உங்கள் பயிற்சித் தொகுப்பைப் போல இல்லாமல் பயனர்களைப் போல தோற்றமளிக்கும்

LLM களுக்கு, பின்வருவன அடங்கும்:

  • உடனடி ஊசி முயற்சிகள் (பயனர் உள்ளடக்கத்திற்குள் மறைந்திருக்கும் வழிமுறைகள்)

  • "முந்தைய வழிமுறைகளைப் புறக்கணிக்கவும்" வடிவங்கள்

  • கருவி-பயன்பாட்டு எட்ஜ் கேஸ்கள் (மோசமான URLகள், காலக்கெடு, பகுதி வெளியீடுகள்)

உறுதித்தன்மை என்பது சம்பவங்கள் நிகழும் வரை சுருக்கமாகத் தோன்றும் நம்பகத்தன்மை பண்புகளில் ஒன்றாகும். பின்னர் அது... மிகவும் உறுதியானதாக மாறும் [1].


7) சார்பு, நியாயம், அது யாருக்காக வேலை செய்கிறது ⚖️

ஒரு மாதிரி ஒட்டுமொத்தமாக "துல்லியமாக" இருக்கலாம், அதே நேரத்தில் குறிப்பிட்ட குழுக்களுக்கு தொடர்ந்து மோசமாக இருக்கலாம். அது ஒரு சிறிய பிழை அல்ல. அது ஒரு தயாரிப்பு மற்றும் நம்பிக்கை பிரச்சனை.

நடைமுறை படிகள்:

  • அர்த்தமுள்ள பிரிவுகளின் அடிப்படையில் செயல்திறனை மதிப்பிடுங்கள் (சட்டப்பூர்வமாக/நெறிமுறைப்படி அளவிடுவதற்கு ஏற்றது)

  • குழுக்களிடையே பிழை விகிதங்களையும் அளவுத்திருத்தத்தையும் ஒப்பிடுக

  • முக்கியமான பண்புகளை குறியாக்கம் செய்யக்கூடிய ப்ராக்ஸி அம்சங்களுக்கான (ஜிப் குறியீடு, சாதன வகை, மொழி) சோதனை

நீங்கள் இதை எங்காவது ஆவணப்படுத்தவில்லை என்றால், நீங்கள் அடிப்படையில் எதிர்காலத்தை-உங்களிடம் வரைபடம் இல்லாமல் ஒரு நம்பிக்கை நெருக்கடியை பிழைத்திருத்தம் செய்யக் கேட்கிறீர்கள். மாதிரி அட்டைகள் அதைச் சொல்ல ஒரு உறுதியான இடம் [2], மேலும் NIST இன் நம்பகத்தன்மை சட்டகம் "நல்லது" என்ன சேர்க்க வேண்டும் என்பதற்கான வலுவான சரிபார்ப்புப் பட்டியலை உங்களுக்கு வழங்குகிறது [1].


8) பாதுகாப்பு மற்றும் பாதுகாப்பு சோதனை (குறிப்பாக LLM களுக்கு) 🛡️

உங்கள் மாதிரி உள்ளடக்கத்தை உருவாக்க முடிந்தால், நீங்கள் துல்லியத்தை விட அதிகமாக சோதிக்கிறீர்கள். நீங்கள் நடத்தையை சோதிக்கிறீர்கள்.

இதற்கான சோதனைகளைச் சேர்க்கவும்:

  • அனுமதிக்கப்படாத உள்ளடக்க உருவாக்கம் (கொள்கை மீறல்கள்)

  • தனியுரிமை கசிவு (இது ரகசியங்களை எதிரொலிக்கிறதா?)

  • அதிக பங்கு வகிக்கும் பகுதிகளில் மாயத்தோற்றங்கள்

  • அதிகமாக மறுத்தல் (மாதிரி சாதாரண கோரிக்கைகளை மறுக்கிறது)

  • நச்சுத்தன்மை மற்றும் துன்புறுத்தல் வெளியீடுகள்

  • உடனடி ஊசி மூலம் தரவு வெளியேற்ற முயற்சிகள்

ஒரு அடிப்படை அணுகுமுறை: கொள்கை விதிகளை வரையறுத்தல் → சோதனைத் தூண்டுதல்களை உருவாக்குதல் → மனித + தானியங்கி சரிபார்ப்புகளுடன் வெளியீடுகளை மதிப்பெண் செய்தல் → ஏதாவது மாறும்போது அதை இயக்குதல். அந்த "ஒவ்வொரு முறையும்" பகுதி வாடகை.

இது வாழ்க்கைச் சுழற்சி ஆபத்து மனநிலையில் சரியாகப் பொருந்துகிறது: நிர்வகித்தல், சூழலை வரைபடமாக்குதல், அளவிடுதல், நிர்வகித்தல், மீண்டும் செய்தல் [1].


9) ஆன்லைன் சோதனை: படிப்படியாக வெளியீடுகள் (உண்மை வாழும் இடத்தில்) 🚀

ஆஃப்லைன் சோதனைகள் அவசியம். ஆன்லைன் வெளிப்பாடு என்பது சேற்று காலணிகளை அணிந்து யதார்த்தம் வெளிப்படும் இடம்.

நீங்கள் ஆடம்பரமாக இருக்க வேண்டியதில்லை. நீங்கள் ஒழுக்கமாக இருந்தால் போதும்:

  • நிழல் பயன்முறையில் இயக்கவும் (மாடல் இயங்கும், பயனர்களைப் பாதிக்காது)

  • படிப்படியாக வெளியீடு (முதலில் குறைந்த போக்குவரத்து, சரியாக இருந்தால் விரிவாக்கவும்)

  • மற்றும் கண்காணிக்கவும் (புகார்கள், அதிகரிப்புகள், கொள்கை தோல்விகள்)

உடனடி லேபிள்களைப் பெற முடியாவிட்டாலும், ப்ராக்ஸி சிக்னல்கள் மற்றும் செயல்பாட்டு ஆரோக்கியத்தை (தாமதம், தோல்வி விகிதங்கள், செலவு) நீங்கள் கண்காணிக்கலாம். முக்கிய விஷயம்: உங்கள் முழு பயனர் தளமும் [1] தோல்விகளைக் கண்டறியும் முன்,


10) பயன்படுத்தப்பட்ட பிறகு கண்காணிப்பு: சறுக்கல், சிதைவு மற்றும் அமைதியான தோல்வி 📉👀

நீங்கள் சோதித்த மாதிரி நீங்கள் வாழும் மாதிரி அல்ல. தரவு மாறுகிறது. பயனர்கள் மாறுகிறார்கள். உலகம் மாறுகிறது. அதிகாலை 2 மணிக்கு குழாய் உடைகிறது. அது எப்படி என்று உங்களுக்குத் தெரியும்..

கண்காணிக்கவும்:

  • உள்ளீட்டுத் தரவு சறுக்கல் (திட்ட மாற்றங்கள், காணாமல் போதல், விநியோக மாற்றங்கள்)

  • வெளியீட்டு சறுக்கல் (வகுப்பு இருப்பு மாற்றங்கள், மதிப்பெண் மாற்றங்கள்)

  • செயல்திறன் ப்ராக்ஸிகள் (ஏனெனில் லேபிள் தாமதங்கள் உண்மையானவை)

  • கருத்து சமிக்ஞைகள் (கட்டைவிரலைக் குறைத்தல், மறு திருத்தங்கள், அதிகரிப்புகள்)

  • பிரிவு-நிலை பின்னடைவுகள் (அமைதியான கொலையாளிகள்)

மேலும் அதிக இழுப்பு இல்லாத எச்சரிக்கை வரம்புகளை அமைக்கவும். தொடர்ந்து அலறும் ஒரு மானிட்டர் புறக்கணிக்கப்படுகிறது - ஒரு நகரத்தில் கார் அலாரம் போல.

நம்பகத்தன்மையைப் பற்றி நீங்கள் அக்கறை கொண்டிருந்தால், இந்த “கண்காணிப்பு + காலப்போக்கில் மேம்பாடு” வளையம் விருப்பத்திற்குரியது அல்ல [1].


11) நீங்கள் நகலெடுக்கக்கூடிய ஒரு நடைமுறை பணிப்பாய்வு 🧩

அளவிடும் ஒரு எளிய வளையம் இங்கே:

  1. வெற்றி + தோல்வி முறைகளை வரையறுக்கவும் (செலவு/தாமதம்/பாதுகாப்பு உட்பட) [1]

  2. தரவுத்தொகுப்புகளை உருவாக்கவும்:

    • தங்கத் தொகுப்பு

    • விளிம்பு உறை பொதி

    • சமீபத்திய உண்மையான மாதிரிகள் (தனியுரிமைக்கு பாதுகாப்பானது)

  3. அளவீடுகளைத் தேர்வுசெய்க:

    • பணி அளவீடுகள் (F1, MAE, வெற்றி விகிதம்) [4][5]

    • பாதுகாப்பு அளவீடுகள் (கொள்கை தேர்ச்சி விகிதம்) [1][5]

    • செயல்பாட்டு அளவீடுகள் (தாமதம், செலவு)

  4. ஒரு மதிப்பீட்டு சேணத்தை உருவாக்குங்கள் (ஒவ்வொரு மாதிரி/உடனடி மாற்றத்திலும் இயங்கும்) [4][5]

  5. மன அழுத்த சோதனைகள் + எதிர்மறையான சோதனைகளைச் சேர்க்கவும் [1][5]

  6. ஒரு மாதிரிக்கான மனித மதிப்பாய்வு (குறிப்பாக LLM வெளியீடுகளுக்கு) [5]

  7. நிழல் + நிலைமாற்ற வெளியீடு வழியாக அனுப்புதல் [1]

  8. கண்காணிப்பு + எச்சரிக்கை + ஒழுக்கத்துடன் மீண்டும் பயிற்சி [1]

  9. ஆவணம் மாதிரி-அட்டை பாணி எழுத்தில் விளைகிறது [2][3]

பயிற்சி என்பது கவர்ச்சிகரமானது. தேர்வு என்பது வாடகை செலுத்துவதாகும்.


12) இறுதிக் குறிப்புகள் + விரைவான சுருக்கம் 🧠✨

AI மாதிரிகளை எவ்வாறு சோதிப்பது என்பது பற்றிய சில விஷயங்களை மட்டும் நீங்கள் நினைவில் வைத்திருந்தால் :

  • பிரதிநிதித்துவ சோதனைத் தரவைப் பயன்படுத்தி கசிவைத் தவிர்க்கவும் [4]

  • உண்மையான விளைவுகளுடன் தொடர்புடைய பல அளவீடுகளைத் தேர்ந்தெடுக்கவும்

  • மனித மதிப்பாய்வு + வெற்றி விகித பாணி ஒப்பீடுகளை நம்புங்கள் [5]

  • சோதனை வலிமை - அசாதாரண உள்ளீடுகள் மாறுவேடத்தில் உள்ள சாதாரண உள்ளீடுகள் [1]

  • மாதிரிகள் நகர்ந்து குழாய்கள் உடைந்து போவதால், பாதுகாப்பாக உருட்டி கண்காணிக்கவும் [1]

  • நீங்கள் என்ன செய்தீர்கள், என்ன சோதிக்கவில்லை என்பதை ஆவணப்படுத்துங்கள் (சங்கடமாக இருந்தாலும் சக்திவாய்ந்ததாக இருந்தாலும்) [2][3]

சோதனை என்பது வெறும் "அது வேலை செய்கிறது என்பதை நிரூபிப்பது" மட்டுமல்ல. அது "உங்கள் பயனர்கள் தோல்வியடைவதற்கு முன்பு அது எவ்வாறு தோல்வியடைகிறது என்பதைக் கண்டுபிடிப்பது". ஆம், அது குறைவான கவர்ச்சியானது - ஆனால் விஷயங்கள் தடுமாறும்போது உங்கள் கணினியை நிலைநிறுத்தும் பகுதி இது... 🧱🙂


அடிக்கடி கேட்கப்படும் கேள்விகள்

உண்மையான பயனர் தேவைகளுக்கு ஏற்றவாறு AI மாதிரிகளைச் சோதிப்பதற்கான சிறந்த வழி

"நல்லது" என்பதை உண்மையான பயனர் மற்றும் மாதிரி ஆதரிக்கும் முடிவு ஆகியவற்றின் அடிப்படையில் வரையறுப்பதன் மூலம் தொடங்கவும், லீடர்போர்டு அளவீடு மட்டுமல்ல. அதிக விலை தோல்வி முறைகளை (தவறான நேர்மறைகள் vs தவறான எதிர்மறைகள்) அடையாளம் கண்டு, தாமதம், செலவு, தனியுரிமை மற்றும் விளக்கக்கூடிய தன்மை போன்ற கடுமையான கட்டுப்பாடுகளை உச்சரிக்கவும். பின்னர் அந்த விளைவுகளை பிரதிபலிக்கும் அளவீடுகள் மற்றும் சோதனை நிகழ்வுகளைத் தேர்வு செய்யவும். இது ஒருபோதும் சிறந்த தயாரிப்பாக மொழிபெயர்க்காத "அழகான அளவீட்டை" மேம்படுத்துவதிலிருந்து உங்களைத் தடுக்கிறது.

மதிப்பீட்டு அளவீடுகளைத் தேர்ந்தெடுப்பதற்கு முன் வெற்றி அளவுகோல்களை வரையறுத்தல்

பயனர் யார், மாதிரி எந்த முடிவை ஆதரிக்க வேண்டும், மற்றும் உற்பத்தியில் "மோசமான தோல்வி" எப்படி இருக்கும் என்பதை எழுதுங்கள். ஏற்றுக்கொள்ளக்கூடிய தாமதம் மற்றும் கோரிக்கைக்கான செலவு போன்ற செயல்பாட்டுக் கட்டுப்பாடுகளைச் சேர்க்கவும், மேலும் தனியுரிமை விதிகள் மற்றும் பாதுகாப்புக் கொள்கைகள் போன்ற நிர்வாகத் தேவைகளையும் சேர்க்கவும். அவை தெளிவாகத் தெரிந்தவுடன், அளவீடுகள் சரியானதை அளவிடுவதற்கான ஒரு வழியாக மாறும். அந்த கட்டமைப்பு இல்லாமல், அளவிட எளிதானதை மேம்படுத்துவதை நோக்கி அணிகள் நகர்கின்றன.

மாதிரி மதிப்பீட்டில் தரவு கசிவு மற்றும் தற்செயலான மோசடியைத் தடுத்தல்

பயிற்சி/சரிபார்ப்பு/சோதனை பிளவுகளை நிலையானதாக வைத்திருங்கள் மற்றும் பிளவு தர்க்கத்தை ஆவணப்படுத்துங்கள், இதனால் முடிவுகள் மீண்டும் உருவாக்கப்படும். பிளவுகளில் (ஒரே பயனர், ஆவணம், தயாரிப்பு அல்லது மீண்டும் மீண்டும் வரும் வடிவங்கள்) நகல்களையும் கிட்டத்தட்ட நகல்களையும் செயலில் தடுக்கவும். நேர முத்திரைகள் அல்லது நிகழ்வுக்குப் பிந்தைய புலங்கள் மூலம் "எதிர்கால" தகவல் உள்ளீடுகளில் நழுவும் அம்சக் கசிவைக் கவனியுங்கள். நீங்கள் சத்தத்தைக் கொண்டாடும்போது கவனிக்க ஒரு வலுவான அடிப்படை (போலி மதிப்பீட்டாளர்கள் கூட) உங்களுக்கு உதவுகிறது.

மாற்றங்கள் முழுவதும் சோதனைகள் மீண்டும் மீண்டும் நிகழக்கூடியதாக இருக்க, மதிப்பீட்டுச் சேணத்தில் என்னென்ன உள்ளடக்கியிருக்க வேண்டும்?

ஒரு நடைமுறை ஹார்னஸ், ஒவ்வொரு மாதிரி, ப்ராம்ட் அல்லது கொள்கை மாற்றத்திலும் ஒரே மாதிரியான தரவுத்தொகுப்புகள் மற்றும் மதிப்பெண் விதிகளைப் பயன்படுத்தி ஒப்பிடக்கூடிய சோதனைகளை மீண்டும் இயக்குகிறது. இது பொதுவாக ஒரு பின்னடைவு தொகுப்பு, தெளிவான அளவீட்டு டாஷ்போர்டுகள் மற்றும் சேமிக்கப்பட்ட கட்டமைப்புகள் மற்றும் தடமறிதலுக்கான கலைப்பொருட்களை உள்ளடக்கியது. LLM அமைப்புகளுக்கு, இதற்கு நிலையான "கோல்டன் செட்" ப்ராம்ட்கள் மற்றும் ஒரு எட்ஜ்-கேஸ் பேக் தேவை. குறிக்கோள் "நோட்புக்கை மீண்டும் இயக்கி பிரார்த்தனை" அல்ல, "பொத்தானை அழுத்தவும் → ஒப்பிடக்கூடிய முடிவுகள்" ஆகும்

துல்லியத்திற்கு அப்பால் AI மாதிரிகளைச் சோதிப்பதற்கான அளவீடுகள்

பல அளவீடுகளைப் பயன்படுத்தவும், ஏனெனில் ஒரு ஒற்றை எண் முக்கியமான சமரசங்களை மறைக்கக்கூடும். வகைப்பாட்டிற்கு, துல்லியம்/மீள்நினைவு/F1 ஐ பிரிவு வாரியாக வரம்பு சரிசெய்தல் மற்றும் குழப்ப அணிகளுடன் இணைக்கவும். பின்னடைவுக்கு, பிழைகளை எவ்வாறு தண்டிக்க விரும்புகிறீர்கள் என்பதன் அடிப்படையில் MAE அல்லது RMSE ஐத் தேர்வுசெய்து, வெளியீடுகள் மதிப்பெண்களைப் போல செயல்படும்போது அளவுத்திருத்த பாணி சரிபார்ப்புகளைச் சேர்க்கவும். தரவரிசைக்கு, சீரற்ற செயல்திறனைப் பிடிக்க, NDCG/MAP/MRR ஐப் பயன்படுத்தி தலை vs வால் வினவல்களால் வெட்டவும்.

தானியங்கி அளவீடுகள் குறைவாக இருக்கும்போது LLM வெளியீடுகளை மதிப்பிடுதல்

உரை ஒற்றுமையை மட்டும் கருத்தில் கொள்ளாமல், ஒரு உடனடி-மற்றும்-கொள்கை அமைப்பு மற்றும் மதிப்பெண் நடத்தையாக இதை நடத்துங்கள். பல குழுக்கள் மனித மதிப்பீட்டை ஜோடிவாரி விருப்பத்தேர்வு (A/B வெற்றி விகிதம்) மற்றும் "சரியான புலங்களைப் பிரித்தெடுத்ததா" அல்லது "கொள்கையைப் பின்பற்றினதா" போன்ற பணி அடிப்படையிலான சரிபார்ப்புகளுடன் இணைக்கின்றன. தானியங்கி உரை அளவீடுகள் குறுகிய சந்தர்ப்பங்களில் உதவக்கூடும், ஆனால் அவை பெரும்பாலும் பயனர்கள் அக்கறை கொள்வதைத் தவறவிடுகின்றன. தெளிவான ரூப்ரிக்ஸ் மற்றும் பின்னடைவு தொகுப்பு பொதுவாக ஒரு மதிப்பெண்ணை விட முக்கியமானது.

சத்தம் உள்ளீடுகளில் மாதிரி உடைந்து போகாமல் இருக்க, வலிமை சோதனைகள் இயக்கப்பட வேண்டும்

உண்மையான பயனர்கள் அரிதாகவே நேர்த்தியாக இருப்பதால், எழுத்துப் பிழைகள், விடுபட்ட மதிப்புகள், விசித்திரமான வடிவமைப்பு மற்றும் தரமற்ற யூனிகோடு ஆகியவற்றைக் கொண்டு மாதிரியை அழுத்தமாகச் சோதிக்கவும். புதிய வகைகள், ஸ்லாங், சென்சார்கள் அல்லது மொழி வடிவங்கள் போன்ற விநியோக மாற்ற நிகழ்வுகளைச் சேர்க்கவும். உடையக்கூடிய நடத்தையை மேற்பரப்புக்கு தீவிர மதிப்புகளை (வெற்று சரங்கள், பெரிய பேலோடுகள், வரம்பிற்கு வெளியே உள்ள எண்கள்) சேர்க்கவும். LLM களுக்கு, உடனடி ஊசி வடிவங்கள் மற்றும் காலக்கெடு அல்லது பகுதி வெளியீடுகள் போன்ற கருவி-பயன்பாட்டு தோல்விகளையும் சோதிக்கவும்.

கோட்பாட்டில் தொலைந்து போகாமல் சார்பு மற்றும் நியாயத்தன்மை சிக்கல்களைச் சரிபார்த்தல்

அர்த்தமுள்ள துண்டுகளில் செயல்திறனை மதிப்பிடுங்கள், சட்டப்பூர்வமாகவும் நெறிமுறை ரீதியாகவும் அளவிடுவதற்குப் பொருத்தமான குழுக்களிடையே பிழை விகிதங்கள் மற்றும் அளவுத்திருத்தத்தை ஒப்பிடுங்கள். மறைமுகமாக உணர்திறன் பண்புகளை குறியாக்கம் செய்யக்கூடிய ப்ராக்ஸி அம்சங்களை (ஜிப் குறியீடு, சாதன வகை அல்லது மொழி போன்றவை) தேடுங்கள். ஒரு மாதிரி "ஒட்டுமொத்தமாக துல்லியமாக" இருக்கும் அதே வேளையில் குறிப்பிட்ட குழுக்களுக்கு தொடர்ந்து தோல்வியடையும். நீங்கள் என்ன அளந்தீர்கள், என்ன செய்யவில்லை என்பதை ஆவணப்படுத்துங்கள், எனவே எதிர்கால மாற்றங்கள் அமைதியாக பின்னடைவுகளை மீண்டும் அறிமுகப்படுத்தாது.

ஜெனரேட்டிவ் AI மற்றும் LLM அமைப்புகளுக்கு பாதுகாப்பு மற்றும் பாதுகாப்பு சோதனைகள் சேர்க்கப்பட வேண்டும்

அனுமதிக்கப்படாத உள்ளடக்க உருவாக்கம், தனியுரிமை கசிவு, அதிக பங்குள்ள டொமைன்களில் மாயத்தோற்றங்கள் மற்றும் மாதிரி சாதாரண கோரிக்கைகளைத் தடுக்கும் இடங்களில் அதிகப்படியான மறுப்பு ஆகியவற்றிற்கான சோதனை. குறிப்பாக கணினி கருவிகளைப் பயன்படுத்தும் போது அல்லது உள்ளடக்கத்தை மீட்டெடுக்கும் போது, ​​உடனடி ஊசி மற்றும் தரவு வெளியேற்ற முயற்சிகளைச் சேர்க்கவும். ஒரு அடிப்படை பணிப்பாய்வு: கொள்கை விதிகளை வரையறுத்தல், சோதனை தூண்டுதல் தொகுப்பை உருவாக்குதல், மனித மற்றும் தானியங்கி காசோலைகளுடன் மதிப்பெண் பெறுதல் மற்றும் தூண்டுதல்கள், தரவு அல்லது கொள்கைகள் மாறும் போதெல்லாம் அதை மீண்டும் இயக்குதல். நிலைத்தன்மை என்பது நீங்கள் செலுத்தும் வாடகை.

சறுக்கல் மற்றும் சம்பவங்களைக் கண்டறிய, அறிமுகப்படுத்தப்பட்ட பிறகு AI மாதிரிகளை உருவாக்கி கண்காணித்தல்

உங்கள் முழு பயனர் தளமும் தோல்விகளைக் கண்டறியும் முன், நிழல் பயன்முறை மற்றும் படிப்படியான போக்குவரத்து சாய்வுகள் போன்ற படிநிலை ரோல்அவுட் முறைகளைப் பயன்படுத்தவும். உள்ளீட்டு சறுக்கல் (திட்ட மாற்றங்கள், காணாமல் போதல், விநியோக மாற்றங்கள்) மற்றும் வெளியீட்டு சறுக்கல் (மதிப்பெண் மாற்றங்கள், வகுப்பு இருப்பு மாற்றங்கள்), அத்துடன் தாமதம் மற்றும் செலவு போன்ற செயல்பாட்டு ஆரோக்கியத்தையும் கண்காணிக்கவும். திருத்தங்கள், அதிகரிப்புகள் மற்றும் புகார்கள் போன்ற பின்னூட்ட சமிக்ஞைகளைக் கண்காணிக்கவும், பிரிவு-நிலை பின்னடைவுகளைப் பார்க்கவும். ஏதாவது மாறும்போது, ​​அதே ஹார்னஸை மீண்டும் இயக்கி தொடர்ந்து கண்காணித்துக்கொண்டே இருங்கள்.

குறிப்புகள்

[1] NIST - செயற்கை நுண்ணறிவு இடர் மேலாண்மை கட்டமைப்பு (AI RMF 1.0) (PDF)
[2] மிட்செல் மற்றும் பலர் - “மாதிரி அறிக்கையிடலுக்கான மாதிரி அட்டைகள்” (arXiv:1810.03993)
[3] கெப்ரு மற்றும் பலர் - “தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள்” (arXiv:1803.09010)
[4] scikit-learn - “மாதிரி தேர்வு மற்றும் மதிப்பீடு” ஆவணங்கள்
[5] லியாங் மற்றும் பலர் - “மொழி மாதிரிகளின் முழுமையான மதிப்பீடு” (arXiv:2211.09110)

அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு