செயற்கை நுண்ணறிவின் துல்லியத்தை நான் எப்படி அறிந்துகொள்வது?

செயற்கை நுண்ணறிவின் துல்லியத்தைப் புரிந்துகொள்ள, பணியைத் தெளிவாக வரையறுப்பது அவசியம். ஏனெனில், பணி எவ்வளவு சிறப்பாகக் குறிப்பிடப்பட்டுள்ளது மற்றும் செயற்கை நுண்ணறிவு செயல்படும் சூழல்களைப் பொறுத்து துல்லியம் மாறுபடலாம். சரியான தன்மை, நுட்பம், மீட்டெடுப்பு மற்றும் அளவுத்திருத்தம் போன்ற அளவீடுகளை மதிப்பிடுவது, செயற்கை நுண்ணறிவு எவ்வளவு சிறப்பாகச் செயல்படுகிறது என்பது குறித்த புரிதலை வழங்கும்.

செயற்கை நுண்ணறிவின் துல்லியத்திற்காக ஒரே ஒரு மதிப்பெண்ணை நான் ஏன் நம்பியிருக்க முடியாது?

துல்லியம் என்பது ஒரேயொரு அளவுகோல் அல்ல; அது சரியான தன்மை, நம்பகத்தன்மை மற்றும் உறுதித்தன்மை உள்ளிட்ட பல்வேறு கூறுகளை உள்ளடக்கியது. ஒரு மாதிரி, தூய்மையான தரவுத்தொகுப்பில் சிறப்பாகச் செயல்படக்கூடும், ஆனால் உள்ளீடுகள் மாறுபடும் நிஜ உலகச் சூழ்நிலைகளில் அது தோல்வியடையலாம். எனவே, செயல்திறனை அளவிடுவதற்கு ஒரேயொரு மதிப்பெண் போதுமானதாக இருக்காது.

செயற்கை நுண்ணறிவுத் துல்லியத்தின் பின்னணியில் அளவுத்திருத்தம் என்பதன் பொருள் என்ன?

அளவுத்திருத்தம் என்பது ஒரு மாதிரியின் நம்பகத்தன்மை நிலை அதன் உண்மையான செயல்திறனுடன் பொருந்துவதை உறுதிசெய்யும் செயல்முறையைக் குறிக்கிறது. உதாரணமாக, ஒரு செயற்கை நுண்ணறிவு வழிமுறை ஒரு பதிலைப் பற்றி 90% உறுதியாக இருப்பதாகக் கூறினால், அது 90% நேரங்களில் உண்மையிலேயே சரியாக இருக்கிறதா என்பதை அளவுத்திருத்தம் சரிபார்க்கிறது. இது அதீத நம்பிக்கையினால் ஏற்படும் தவறான வெளியீடுகளின் அபாயத்தைக் குறைக்க உதவுகிறது.

காலப்போக்கில் ஒரு செயற்கை நுண்ணறிவு அமைப்பின் துல்லியத்தை நான் எவ்வாறு மேம்படுத்த முடியும்?

காலப்போக்கில் செயற்கை நுண்ணறிவின் துல்லியத்தை மேம்படுத்த, தரவின் தரம் மற்றும் சோதனை முறைகளைத் தொடர்ந்து மதிப்பீடு செய்யுங்கள், விளிம்புநிலைச் சூழல்களை விரிவுபடுத்துங்கள், மேலும் உண்மையான பயனர் சூழ்நிலைகளுக்காக ஒரு 'சிறந்த தொகுப்பை' பராமரிக்கவும். மாறிவரும் சூழல்களில் வழக்கமான கண்காணிப்பு மற்றும் அழுத்தச் சோதனைகளும், அமைப்பைத் திறம்படத் தகவமைப்பதற்கு மிகவும் முக்கியமானவை.

செயற்கை நுண்ணறிவின் துல்லியத்தை மதிப்பிடும்போது ஏற்படும் பொதுவான சிக்கல்கள் யாவை?

பொதுவான தவறுகளில், நிஜ உலகத் தரவுகளைப் பிரதிபலிக்காத தெளிவான சோதனைத் தொகுப்புகளை அதிகமாகச் சார்ந்திருப்பது, மாறுபட்ட உள்ளீடுகளை உருவகப்படுத்தும் விநியோகத்திற்கு அப்பாற்பட்ட சோதனையைப் புறக்கணிப்பது, மற்றும் உங்கள் பயன்பாட்டில் தவறான நேர்மறைகள் அல்லது எதிர்மறைகளின் தாக்கங்களைக் கருத்தில் கொள்ளாமல் வெறும் துல்லியத்தில் மட்டும் கவனம் செலுத்துவது ஆகியவை அடங்கும்.

உருவாக்க செயற்கை நுண்ணறிவு, துல்லியம் குறித்த கண்ணோட்டத்தை எவ்வாறு பாதிக்கக்கூடும்?

உருவாக்கச் செயற்கை நுண்ணறிவு, சரளமாகத் தோன்றும் வெளியீடுகளை உருவாக்கக்கூடும், ஆனால் அவை உண்மையில் சரியாக இல்லாமல் இருக்கலாம். இது 'மாயத்தோற்றங்கள்' எனப்படும் சிக்கல்களுக்கு வழிவகுக்கிறது. பல ஏற்றுக்கொள்ளக்கூடிய பதில்களுக்கு இடமளிப்பதால், உருவாக்கச் செயற்கை நுண்ணறிவின் துல்லியம் மிகவும் சிக்கலானது. எனவே, பதில்களை நம்பகமான ஆதாரங்களில் இருந்து பெறுவது அவசியமாகிறது.

செயற்கை நுண்ணறிவின் துல்லியத்திற்கு தொடர் மதிப்பீடு ஏன் முக்கியமானது?

பயனர் நடத்தை, தரவு உள்ளீடுகள் மற்றும் சுற்றுச்சூழல் தேவைகளில் ஏற்படும் மாற்றங்களால், செயற்கை நுண்ணறிவு அமைப்புகள் காலப்போக்கில் தடம் மாறக்கூடும் என்பதால், தொடர்ச்சியான மதிப்பீடு மிகவும் இன்றியமையாதது. வழக்கமான கண்காணிப்பு, செயல்திறனில் ஏற்படும் எந்தவொரு சரிவையும் கண்டறிந்து சரிசெய்வதை உறுதிசெய்து, அமைப்பின் நம்பகத்தன்மை மீதான நம்பிக்கையை நிலைநிறுத்துகிறது.

செயற்கை நுண்ணறிவு எவ்வளவு துல்லியமானது? [காணொளி மற்றும் வினாவிடை]

சுருக்கமான பதில்: தெளிவான அடிப்படை உண்மைகளைக் கொண்ட, குறுகிய மற்றும் நன்கு வரையறுக்கப்பட்ட பணிகளில் செயற்கை நுண்ணறிவு மிகவும் துல்லியமாகச் செயல்பட முடியும். ஆனால், "துல்லியம்" என்பது உலகளவில் நீங்கள் நம்பக்கூடிய ஒரு ஒற்றை அளவுகோல் அல்ல. பணி, தரவு மற்றும் அளவீடு ஆகியவை செயல்பாட்டுச் சூழலுடன் ஒத்துப்போகும்போது மட்டுமே அது உண்மையாக இருக்கும்; உள்ளீடுகள் மாறும்போதோ அல்லது பணிகள் வரையறுக்கப்படாதவையாக ஆகும்போதோ, பிழைகளும் அதீத நம்பிக்கைகளும் அதிகரிக்கும்.

முக்கிய குறிப்புகள்:

பணிப் பொருத்தம்: “சரி” மற்றும் “தவறு” ஆகியவற்றைச் சோதிக்கக்கூடிய வகையில் பணியைத் துல்லியமாக வரையறுக்கவும்.

மெட்ரிக் தேர்வு: மதிப்பீட்டு அளவீடுகளை பாரம்பரியம் அல்லது வசதிக்காக அல்ல, உண்மையான விளைவுகளுடன் பொருத்துங்கள்.

யதார்த்த சோதனை: பிரதிநிதித்துவ, சத்தமான தரவு மற்றும் பரவலுக்கு அப்பாற்பட்ட அழுத்த சோதனைகளைப் பயன்படுத்தவும்.

அளவுத்திருத்தம்: நம்பிக்கை சரியான தன்மையுடன் ஒத்துப்போகிறதா என்பதை அளவிடவும், குறிப்பாக வரம்புகளுக்கு.

வாழ்க்கைச் சுழற்சி கண்காணிப்பு: பயனர்கள், தரவு மற்றும் சூழல்கள் காலப்போக்கில் மாறும்போது தொடர்ந்து மறு மதிப்பீடு செய்யுங்கள்.

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 படிப்படியாக AI கற்றுக்கொள்வது எப்படி
தொடக்கநிலையாளர்களுக்கு ஏற்ற வழிகாட்டுதல், நம்பிக்கையுடன் AI கற்கத் தொடங்க.

🔗 தரவுகளில் உள்ள முரண்பாடுகளை AI எவ்வாறு கண்டறிகிறது
அசாதாரண வடிவங்களைத் தானாகக் கண்டறிய AI பயன்படுத்தும் முறைகளை விளக்குகிறது.

🔗 AI ஏன் சமூகத்திற்கு மோசமாக இருக்க முடியும்
சார்பு, வேலை பாதிப்பு மற்றும் தனியுரிமை கவலைகள் போன்ற அபாயங்களை உள்ளடக்கியது.

🔗 AI தரவுத்தொகுப்பு என்றால் என்ன, அது ஏன் முக்கியமானது
தரவுத்தொகுப்புகளையும் அவை AI மாதிரிகளைப் பயிற்றுவித்து மதிப்பிடும் விதத்தையும் வரையறுக்கிறது.

1) அப்படியென்றால்… செயற்கை நுண்ணறிவு எவ்வளவு துல்லியமானது?🧠✅

குறுகிய, நன்கு வரையறுக்கப்பட்ட பணிகளில் செயற்கை நுண்ணறிவு மிகவும் துல்லியமாகச் செயல்பட முடியும் - குறிப்பாக, "சரியான விடை" சந்தேகத்திற்கு இடமின்றி தெளிவாகவும், மதிப்பிடுவதற்கு எளிதாகவும் இருக்கும்போது.

ஆனால், வரையறுக்கப்படாத பணிகளில் (குறிப்பாக உருவாக்க செயற்கை நுண்ணறிவில் ), “துல்லியம்” என்பது விரைவாகக் குழப்பமடையக்கூடும், ஏனெனில்:

ஏற்றுக்கொள்ளக்கூடிய பல பதில்கள் இருக்கலாம்.
வெளியீடு சரளமாக இருக்கலாம் ஆனால் உண்மைகளை அடிப்படையாகக் கொண்டிருக்கவில்லை.
இந்த மாதிரி "உதவி" என்ற அதிர்வுகளுக்காக சரிசெய்யப்படலாம், கண்டிப்பான சரியான தன்மைக்காக அல்ல
உலகம் மாறுகிறது, மேலும் அமைப்புகள் யதார்த்தத்தை விட பின்தங்கக்கூடும்

ஒரு பயனுள்ள மன மாதிரி: துல்லியம் என்பது நீங்கள் "வைத்திருக்கும்" ஒரு பண்பு அல்ல. இது ஒரு குறிப்பிட்ட பணிக்காக, ஒரு குறிப்பிட்ட சூழலில், ஒரு குறிப்பிட்ட அளவீட்டு அமைப்பில் நீங்கள் "சம்பாதிக்கும்" ஒரு பண்பு. அதனால்தான் தீவிர வழிகாட்டுதல் மதிப்பீட்டை ஒரு வாழ்க்கைச் சுழற்சி நடவடிக்கையாகக் கருதுகிறது - ஒரு முறை மட்டுமேயான மதிப்பெண் பலகை தருணமாக அல்ல. [1]

2) துல்லியம் என்பது ஒன்றல்ல - அது ஒரு முழுமையான பலதரப்பட்ட குடும்பம் 👨👩👧👦📏

மக்கள் “துல்லியம்” என்று குறிப்பிடும்போது, அவர்கள் இவற்றில் எதையும் குறிக்கலாம் (மேலும், தாங்களே உணராமல், ஒரே நேரத்தில் இவற்றில் இரண்டைக் குறிப்பிடுவதுண்டு ):

சரியானது: அது சரியான லேபிள்/பதிலை உருவாக்கியதா?
துல்லியம் vs நினைவுகூரல்: அது தவறான எச்சரிக்கைகளைத் தவிர்த்ததா, அல்லது எல்லாவற்றையும் பிடித்ததா?
அளவுத்திருத்தம்: "நான் 90% உறுதியாக இருக்கிறேன்" என்று அது கூறும்போது, அது உண்மையில் ~90% நேரம் சரியாக இருக்குமா? [3]
உறுதித்தன்மை: உள்ளீடுகள் சிறிது மாறும்போதும் (சத்தம், புதிய சொற்றொடர், புதிய மூலங்கள், புதிய புள்ளிவிவரங்கள்) அது இன்னும் வேலை செய்யுமா?
நம்பகத்தன்மை: எதிர்பார்க்கப்படும் நிலைமைகளின் கீழ் அது தொடர்ந்து செயல்படுகிறதா?
உண்மைத்தன்மை / உண்மைத்தன்மை (உருவாக்கும் AI): இது நம்பிக்கையான தொனியில் விஷயங்களை உருவாக்குகிறதா (மாயத்தோற்றத்தை ஏற்படுத்துகிறதா)? [2]

இதனால்தான் நம்பிக்கை சார்ந்த கட்டமைப்புகள் "துல்லியத்தை" ஒரு தனிப்பட்ட முதன்மை அளவீடாகக் கருதுவதில்லை. அவை செல்லுபடியாகும் தன்மை, நம்பகத்தன்மை, பாதுகாப்பு, வெளிப்படைத்தன்மை, உறுதித்தன்மை, நேர்மை மற்றும் பலவற்றை ஒரு தொகுப்பாகக் குறிப்பிடுகின்றன - ஏனெனில் நீங்கள் ஒன்றை "உகந்ததாக்கி" தற்செயலாக மற்றொன்றை உடைக்கக்கூடும். [1]

3) "AI எவ்வளவு துல்லியமானது?" என்பதை அளவிடுவதற்கான ஒரு நல்ல பதிப்பாக மாற்றுவது எது? 🧪🔍

இதோ “நல்ல பதிப்பு” சரிபார்ப்புப் பட்டியல் (மக்கள் தவிர்த்துவிடுவார்கள்... பிறகு வருத்தப்படுவார்கள்):

✅ தெளிவான பணி வரையறை (aka: அதை சோதிக்கக்கூடியதாக மாற்றவும்)

"சுருக்கமாக" என்பது தெளிவற்றது.
“5 பொட்டுகளில் சுருக்கவும், மூலத்திலிருந்து 3 உறுதியான எண்களைச் சேர்க்கவும், மேற்கோள்களைக் கண்டுபிடிக்க வேண்டாம்” என்பது சோதிக்கத்தக்கது.

✅ பிரதிநிதித்துவ சோதனை தரவு (aka: எளிதான பயன்முறையில் தரப்படுத்தலை நிறுத்து)

உங்கள் சோதனைத் தொகுப்பு மிகவும் சுத்தமாக இருந்தால், துல்லியம் போலியாகத் தோன்றும். உண்மையான பயனர்கள் எழுத்துப் பிழைகள், விசித்திரமான விளிம்பு வழக்குகள் மற்றும் "நான் இதை என் தொலைபேசியில் அதிகாலை 2 மணிக்கு எழுதினேன்" என்ற சக்தியைக் கொண்டு வருகிறார்கள்.

✅ ஆபத்துடன் பொருந்தக்கூடிய ஒரு அளவீடு

ஒரு மீமை தவறாக வகைப்படுத்துவது என்பது மருத்துவ எச்சரிக்கையை தவறாக வகைப்படுத்துவதைப் போன்றதல்ல. நீங்கள் பாரம்பரியத்தின் அடிப்படையில் அளவீடுகளைத் தேர்ந்தெடுப்பதில்லை - விளைவுகளின் அடிப்படையில் அவற்றைத் தேர்ந்தெடுக்கிறீர்கள். [1]

✅ விநியோகத்திற்கு வெளியே சோதனை (aka: "உண்மை வெளிப்படும்போது என்ன நடக்கும்?")

வித்தியாசமான சொற்றொடர்கள், தெளிவற்ற உள்ளீடுகள், எதிர்மறையான தூண்டுதல்கள், புதிய வகைகள், புதிய காலகட்டங்களை முயற்சிக்கவும். விநியோக மாற்றம் என்பது மாதிரிகள் உற்பத்தியில் முகநூலை உருவாக்குவதற்கான ஒரு உன்னதமான வழியாகும் என்பதால் இது முக்கியமானது. [4]

✅ தொடர்ச்சியான மதிப்பீடு (அதாவது: துல்லியம் என்பது "அமைத்து மறந்துவிடு" அம்சம் அல்ல)

அமைப்புகள் சறுக்கல். பயனர்கள் மாறுகிறார்கள். தரவு மாறுகிறது. உங்கள் “சிறந்த” மாதிரி அமைதியாகக் குறைகிறது - நீங்கள் அதைத் தொடர்ந்து அளவிடாவிட்டால். [1]

நீங்கள் அடையாளம் காணக்கூடிய ஒரு சிறிய நிஜ உலகப் போக்கு இது: குழுக்கள் பெரும்பாலும் வலுவான “செயல்விளக்கத் துல்லியத்துடன்” தங்கள் முடிவுகளை வெளியிடுகின்றன, ஆனால் பின்னர் தங்கள் உண்மையான தோல்விக்கான காரணம் அல்ல , மாறாக “பெரிய அளவில், நம்பிக்கையுடன் வழங்கப்படும் தவறான பதில்கள்” என்பதை உணர்கின்றன. இது ஒரு மதிப்பீட்டு வடிவமைப்புச் சிக்கல், வெறும் மாதிரிச் சிக்கல் மட்டுமல்ல.

4) AI பொதுவாக மிகவும் துல்லியமாக இருக்கும் இடத்தில் (ஏன்) 📈🛠️

சிக்கல் இருக்கும்போது AI பிரகாசிக்கிறது:

குறுகிய
நன்கு பெயரிடப்பட்ட
காலப்போக்கில் நிலையானது
பயிற்சி விநியோகத்தைப் போன்றது
தானாகவே மதிப்பெண் பெறுவது எளிது

எடுத்துக்காட்டுகள்:

ஸ்பேம் வடிகட்டுதல்
சீரான தளவமைப்புகளில் ஆவணப் பிரித்தெடுத்தல்
நிறைய பின்னூட்ட சமிக்ஞைகளுடன் தரவரிசை/பரிந்துரை சுழல்கள்
கட்டுப்படுத்தப்பட்ட அமைப்புகளில் பல பார்வை வகைப்பாடு பணிகள்

இந்த வெற்றிகளுக்குப் பின்னால் உள்ள சலிப்பூட்டும் வல்லரசு: தெளிவான அடிப்படை உண்மை + நிறைய பொருத்தமான உதாரணங்கள். கவர்ச்சியாக இல்லை - மிகவும் பயனுள்ளதாக இருக்கும்.

5) AI துல்லியம் பெரும்பாலும் தோல்வியடையும் இடம் 😬🧯

இது மக்கள் தங்கள் எலும்புகளில் உணரும் பகுதி.

ஜெனரேட்டிவ் AI-யில் மாயத்தோற்றங்கள் 🗣️🌪️

LLM-கள் நம்பத்தகுந்த ஆனால் உண்மையற்ற உள்ளடக்கத்தை உருவாக்க முடியும் - மேலும் அந்த "நம்பத்தகுந்த" பகுதிதான் அது ஆபத்தானது என்பதற்கான சரியான காரணம். ஜெனரேட்டிவ் AI இடர் வழிகாட்டுதல் , அதிர்வுகளை அடிப்படையாகக் கொண்ட டெமோக்களை விட, அடித்தளம், ஆவணப்படுத்தல் மற்றும் அளவீடு ஆகியவற்றிற்கு அதிக முக்கியத்துவம் கொடுப்பதற்கு இதுவும் ஒரு காரணம் . [2]

விநியோக மாற்றம் 🧳➡️🏠

ஒரு சூழலில் பயிற்சி பெற்ற ஒரு மாதிரி மற்றொரு சூழலில் தடுமாறக்கூடும்: வேறுபட்ட பயனர் மொழி, வேறுபட்ட தயாரிப்பு பட்டியல், வேறுபட்ட பிராந்திய விதிமுறைகள், வேறுபட்ட காலப்பகுதி. WILDS போன்ற அளவுகோல்கள் அடிப்படையில் உரக்கச் சொல்வதற்காகவே உள்ளன: "விநியோகத்தில் உள்ள செயல்திறன் உண்மையான உலக செயல்திறனை வியத்தகு முறையில் மிகைப்படுத்திக் காட்டக்கூடும்." [4]

தன்னம்பிக்கையுடன் யூகிப்பதற்கு வெகுமதி அளிக்கும் ஊக்கத்தொகைகள் 🏆🤥

சில அமைப்புகள் தற்செயலாக "தெரிந்தால் மட்டும் பதிலளிக்கவும்" என்பதற்குப் பதிலாக "எப்போதும் பதிலளிக்கவும்" என்ற நடத்தைக்கு வெகுமதி அளிக்கின்றன. எனவே அமைப்புகள் சரியாக இருப்பதற்குப் பதிலாக, சரியாக இருப்பது போல் காட்டிக்கொள்ள கற்றுக்கொள்கின்றன . இதனால்தான் மதிப்பீடு என்பது வெறும் பதில் விகிதத்தை மட்டும் அல்லாமல், தவிர்ப்பு / நிச்சயமற்ற நடத்தையையும் உள்ளடக்கியதாக இருக்க வேண்டும். [2]

நிஜ உலக சம்பவங்கள் மற்றும் செயல்பாட்டு தோல்விகள் 🚨

ஒரு வலுவான மாதிரி கூட ஒரு அமைப்பாக தோல்வியடையக்கூடும்: மோசமான மீட்டெடுப்பு, பழைய தரவு, உடைந்த தடுப்புகள் அல்லது பாதுகாப்பு சோதனைகளைச் சுற்றி மாதிரியை அமைதியாக வழிநடத்தும் பணிப்பாய்வு. நவீன வழிகாட்டுதல் துல்லியத்தை ஒரு மாதிரி மதிப்பெண்ணாக மட்டுமல்லாமல், பரந்த அமைப்பின் நம்பகத்தன்மையின் ஒரு பகுதியாக வடிவமைக்கிறது. [1]

6) குறைத்து மதிப்பிடப்பட்ட வல்லரசு: அளவுத்திருத்தம் ("உங்களுக்குத் தெரியாததை அறிவது" என்றும் அழைக்கப்படுகிறது) 🎚️🧠

இரண்டு மாதிரிகள் ஒரே மாதிரியான "துல்லியம்" கொண்டிருந்தாலும் கூட, ஒன்று மிகவும் பாதுகாப்பானதாக இருக்க முடியும், ஏனெனில் அது:

நிச்சயமற்ற தன்மையைப் பொருத்தமாக வெளிப்படுத்துகிறது
அதிக தன்னம்பிக்கையுடன் தவறான பதில்களைத் தவிர்க்கிறது
யதார்த்தத்துடன் ஒத்துப்போகும் நிகழ்தகவுகளை அளிக்கிறது

அளவுத்திருத்தம் என்பது வெறும் கல்வி சார்ந்தது மட்டுமல்ல - அதுதான் நம்பிக்கையைச் செயல்படுத்தக்கூடியதாக ஆக்குகிறது. நவீன நரம்பியல் வலைகளில் ஒரு உன்னதமான கண்டுபிடிப்பு என்னவென்றால், நீங்கள் அதை வெளிப்படையாக அளவுத்திருத்தம் செய்யாவிட்டால் அல்லது அளவிடாவிட்டால், நம்பிக்கை மதிப்பெண் உண்மையான சரியான தன்மையுடன் தவறாக சீரமைக்கப்படலாம். [3]

உங்கள் குழாய்வழி "0.9 க்கு மேல் தானியங்கி ஒப்புதல்" போன்ற வரம்புகளைப் பயன்படுத்தினால், அளவுத்திருத்தம் என்பது "தானியங்கிமயமாக்கல்" மற்றும் "தானியங்கி குழப்பம்" ஆகியவற்றுக்கு இடையேயான வித்தியாசமாகும்

7) வெவ்வேறு AI வகைகளுக்கு AI துல்லியம் எவ்வாறு மதிப்பிடப்படுகிறது 🧩📚

கிளாசிக் கணிப்பு மாதிரிகளுக்கு (வகைப்பாடு/பின்னடைவு) 📊

பொதுவான அளவீடுகள்:

துல்லியம், துல்லியம், நினைவு கூர்தல், F1
ROC-AUC / PR-AUC (சமநிலையற்ற பிரச்சினைகளுக்கு பெரும்பாலும் சிறந்தது)
அளவுத்திருத்த சோதனைகள் (நம்பகத்தன்மை வளைவுகள், எதிர்பார்க்கப்படும் அளவுத்திருத்த பிழை பாணி சிந்தனை) [3]

மொழி மாதிரிகள் மற்றும் உதவியாளர்களுக்கு 💬

மதிப்பீடு பல பரிமாணங்களைப் பெறுகிறது:

சரியான தன்மை (பணிக்கு உண்மை நிலை இருக்கும் இடத்தில்)
அறிவுறுத்தல்-பின்பற்றுதல்
பாதுகாப்பு மற்றும் மறுப்பு நடத்தை (நல்ல மறுப்புகள் விசித்திரமாக கடினமானவை)
உண்மை அடிப்படை / மேற்கோள் ஒழுக்கம் (உங்கள் பயன்பாட்டு சூழ்நிலைக்குத் தேவைப்படும்போது)
தூண்டுதல்கள் மற்றும் பயனர் பாணிகளில் வலிமை

"முழுமையான" மதிப்பீட்டு சிந்தனையின் பெரிய பங்களிப்புகளில் ஒன்று, இந்த விஷயத்தை வெளிப்படையாகக் கூறுவதாகும்: உங்களுக்கு பல சூழ்நிலைகளில் பல அளவீடுகள் தேவை, ஏனென்றால் பரிமாற்றங்கள் உண்மையானவை. [5]

LLM-களில் கட்டமைக்கப்பட்ட அமைப்புகளுக்கு (பணிப்பாய்வுகள், முகவர்கள், மீட்டெடுப்பு) 🧰

இப்போது நீங்கள் முழு பைப்லைனையும் மதிப்பிடுகிறீர்கள்:

மீட்டெடுப்பு தரம் (சரியான தகவலைப் பெற்றதா?)
கருவி தர்க்கம் (அது செயல்முறையைப் பின்பற்றியதா?)
வெளியீட்டு தரம் (இது சரியானதா மற்றும் பயனுள்ளதா?)
பாதுகாப்புத் தடுப்புகள் (இது ஆபத்தான நடத்தையைத் தவிர்த்ததா?)
கண்காணிப்பு (காட்டுப் பகுதிகளில் தோல்விகளைப் பிடித்தீர்களா?) [1]

அடிப்படை மாதிரி நன்றாக இருந்தாலும் கூட, எங்கும் ஒரு பலவீனமான இணைப்பு முழு அமைப்பையும் "துல்லியமற்றதாக" காட்டக்கூடும்.

8) ஒப்பீட்டு அட்டவணை: “AI எவ்வளவு துல்லியமானது?” என்பதை மதிப்பிடுவதற்கான நடைமுறை வழிகள் 🧾⚖️

கருவி / அணுகுமுறை	சிறந்தது	செலவு சூழல்	இது ஏன் வேலை செய்கிறது
பயன்பாட்டு சோதனை தொகுப்புகள்	LLM பயன்பாடுகள் + தனிப்பயன் வெற்றி அளவுகோல்கள்	இலவசம்	நீங்கள் உங்கள் பணிப்பாய்வை சோதிக்கிறீர்கள் , சீரற்ற லீடர்போர்டு அல்ல.
மல்டி-மெட்ரிக், காட்சி கவரேஜ்	மாதிரிகளை பொறுப்புடன் ஒப்பிடுதல்	இலவசம்	நீங்கள் ஒரு திறன் "சுயவிவரத்தைப்" பெறுவீர்கள், ஒரு மாய எண்ணை அல்ல. [5]
வாழ்க்கைச் சுழற்சி ஆபத்து + மதிப்பீட்டு மனநிலை	கடுமையான நடவடிக்கைகள் தேவைப்படும் அதிக பங்கு அமைப்புகள்	இலவசம்	தொடர்ந்து வரையறுக்க, அளவிட, நிர்வகிக்க மற்றும் கண்காணிக்க உங்களைத் தள்ளுகிறது. [1]
அளவுத்திருத்த சோதனைகள்	நம்பிக்கை வரம்புகளைப் பயன்படுத்தும் எந்த அமைப்பும்	இலவசம்	"90% உறுதி" என்பது ஏதாவது அர்த்தமா என்பதைச் சரிபார்க்கிறது. [3]
மனித மதிப்பாய்வு பேனல்கள்	பாதுகாப்பு, தொனி, நுணுக்கம், "இது தீங்கு விளைவிப்பதாக உணர்கிறதா?"	$$	தானியங்கி அளவீடுகள் தவறவிடும் சூழலையும் தீங்கையும் மனிதர்கள் புரிந்துகொள்கிறார்கள்.
சம்பவ கண்காணிப்பு + பின்னூட்ட சுழல்கள்	நிஜ உலக தோல்விகளில் இருந்து கற்றுக்கொள்வது	இலவசம்	யதார்த்தம் ரசீதுகளைக் கொண்டுள்ளது - மேலும் உற்பத்தித் தரவு கருத்துக்களை விட வேகமாக உங்களுக்குக் கற்பிக்கிறது. [1]

வினோதமான ஒப்புதல் வாக்குமூலத்தை வடிவமைத்தல்: "ஃப்ரீ-இஷ்" இங்கே நிறைய வேலை செய்கிறது, ஏனெனில் உண்மையான செலவு பெரும்பாலும் மக்கள் நேரமாகும், உரிமங்கள் அல்ல 😅

9) AI-ஐ எவ்வாறு துல்லியமாக்குவது (நடைமுறை நெம்புகோல்கள்) 🔧✨

சிறந்த தரவு மற்றும் சிறந்த சோதனைகள் 📦🧪

விளிம்புப் பகுதிகளை விரிவாக்கு
அரிதான ஆனால் முக்கியமான சூழ்நிலைகளை சமநிலைப்படுத்துங்கள்
உண்மையான பயனர் சிரமத்தைக் குறிக்கும் "தங்கத் தொகுப்பை" வைத்திருங்கள் (மேலும் அதைப் புதுப்பித்துக்கொண்டே இருங்கள்)

உண்மைப் பணிகளுக்கான அடிப்படை 📚🔍

உங்களுக்கு உண்மை நம்பகத்தன்மை தேவைப்பட்டால், நம்பகமான ஆவணங்களிலிருந்து தகவல்களைப் பெற்று, அவற்றின் அடிப்படையில் பதிலளிக்கும் அமைப்புகளைப் பயன்படுத்தவும். பல உருவாக்கும் AI இடர் வழிகாட்டுதல்கள், மாதிரி "நடந்து கொள்ளும்" என்று நம்புவதை விட, புனையப்பட்ட உள்ளடக்கத்தைக் குறைக்கும் ஆவணப்படுத்தல், தோற்றம் மற்றும் மதிப்பீட்டு அமைப்புகளில் கவனம் செலுத்துகின்றன. [2]

வலுவான மதிப்பீட்டு சுழல்கள் 🔁

ஒவ்வொரு அர்த்தமுள்ள மாற்றத்திலும் மதிப்பீடுகளை இயக்கவும்
பின்னடைவுகளைக் கவனியுங்கள்
விசித்திரமான தூண்டுதல்கள் மற்றும் தீங்கிழைக்கும் உள்ளீடுகளுக்கான அழுத்த சோதனை

அளவீடு செய்யப்பட்ட நடத்தையை ஊக்குவிக்கவும் 🙏

"எனக்குத் தெரியாது" என்று மிகவும் கடுமையாக தண்டிக்காதீர்கள்
விடை விகிதத்தை மட்டுமல்ல, வாக்களிக்காத தரத்தையும் மதிப்பிடுங்கள்
நம்பிக்கையை நீங்கள் அளவிடும் மற்றும் சரிபார்க்கும் ஒன்றாகக் கருதுங்கள் , அதிர்வுகளில் நீங்கள் ஏற்றுக்கொள்ளும் ஒன்றாக அல்ல [3]

10) ஒரு விரைவான சுயபரிசோதனை: நீங்கள் எப்போது AI துல்லியத்தை நம்ப வேண்டும்? 🧭🤔

பின்வருவனவற்றைச் செய்யும்போது இதை மேலும் நம்புங்கள்:

பணி குறுகியது மற்றும் மீண்டும் மீண்டும் செய்யக்கூடியது
வெளியீடுகளை தானாகவே சரிபார்க்க முடியும்
இந்த அமைப்பு கண்காணிக்கப்பட்டு புதுப்பிக்கப்படுகிறது
நம்பிக்கை அளவீடு செய்யப்படுகிறது, மேலும் அது தவிர்க்க முடியும் [3]

பின்வருவனவற்றைச் செய்யும்போது அதை குறைவாக நம்புங்கள்:

ஆபத்துகள் அதிகம், விளைவுகள் உண்மையானவை
இந்த ப்ராம்ட் திறந்த நிலையில் உள்ளது (“எல்லாவற்றையும் பற்றி எனக்குச் சொல்லுங்கள்...”) 😵💫
எந்த அடிப்படையும் இல்லை, சரிபார்ப்பு படியும் இல்லை, மனித மதிப்பாய்வு இல்லை
இந்த அமைப்பு இயல்பாகவே நம்பிக்கையுடன் செயல்படுகிறது [2]

சற்று குறைபாடுள்ள உருவகம்: அதிக பணயம் வைக்கும் முடிவுகளுக்கு சரிபார்க்கப்படாத AI-ஐ நம்பியிருப்பது வெயிலில் அமர்ந்திருக்கும் சுஷியை சாப்பிடுவது போன்றது... அது பரவாயில்லை, ஆனால் நீங்கள் பதிவு செய்யாத ஒரு சூதாட்டத்தில் உங்கள் வயிறு ஈடுபடுகிறது.

11) இறுதிக் குறிப்புகள் மற்றும் விரைவுச் சுருக்கம் 🧃✅

அப்படியானால், செயற்கை நுண்ணறிவு எவ்வளவு துல்லியமானது? செயற்கை நுண்ணறிவு நம்பமுடியாத அளவிற்கு துல்லியமாக இருக்க முடியும் - ஆனால் அது ஒரு வரையறுக்கப்பட்ட பணி, ஒரு அளவீட்டு முறை மற்றும் அது பயன்படுத்தப்படும் சூழலைப் பொறுத்து மட்டுமே. மேலும், உருவாக்கும் செயற்கை நுண்ணறிவைப் பொறுத்தவரை, "துல்லியம்" என்பது பெரும்பாலும் ஒரு தனிப்பட்ட மதிப்பெண்ணைப் பற்றியதல்ல, மாறாக ஒரு நம்பகமான அமைப்பு வடிவமைப்பைப் பற்றியது : அடித்தளம் அமைத்தல், அளவுத்திருத்தம், பாதுகாப்பு வரம்பு, கண்காணிப்பு மற்றும் நேர்மையான மதிப்பீடு. [1][2][5]

விரைவான சுருக்கம் 🎯

"துல்லியம்" என்பது ஒரு மதிப்பெண் அல்ல - அது சரியான தன்மை, அளவுத்திருத்தம், உறுதித்தன்மை, நம்பகத்தன்மை மற்றும் (உருவாக்க AIக்கு) உண்மைத்தன்மை. [1][2][3]
வரையறைகள் உதவுகின்றன, ஆனால் பயன்பாட்டு வழக்கு மதிப்பீடு உங்களை நேர்மையாக வைத்திருக்கிறது. [5]
உண்மை நம்பகத்தன்மை தேவைப்பட்டால், அடிப்படை + சரிபார்ப்பு படிகள் + வாக்களிப்பில் இருந்து விலகுவதை மதிப்பிடுதல் ஆகியவற்றைச் சேர்க்கவும். [2]
வாழ்க்கைச் சுழற்சி மதிப்பீடு என்பது வளர்ந்தவர்களின் அணுகுமுறையாகும்... இது லீடர்போர்டு ஸ்கிரீன்ஷாட்டை விட குறைவான உற்சாகமாக இருந்தாலும் கூட. [1]

நிஜ உலக உதாரணம்: ஒரு AI ஆதரவு-வகைப்படுத்தும் உதவியாளரை அளவிடுதல்

சூழ்நிலை

ஒரு சிறிய SaaS நிறுவனம், தனக்கு வரும் ஆதரவு டிக்கெட்டுகளை நான்கு வரிசைகளாகப் பிரிக்க செயற்கை நுண்ணறிவைப் பயன்படுத்த விரும்புகிறது என்று கற்பனை செய்து பாருங்கள்:

பில்லிங்

உள்நுழைவு சிக்கல்கள்

பிழை அறிக்கைகள்

அம்சக் கோரிக்கைகள்

நிறுவனம், அனுமதிப்பதில்லை . அதன் பணி மிகவும் குறுகியது: புகாரைப் படித்து, சரியான வரிசையைத் தேர்ந்தெடுத்து, நம்பகத்தன்மை மதிப்பீட்டை வழங்குவதுடன், உறுதியற்ற எதையும் மனித மதிப்பாய்விற்காகக் குறியிடுகிறது.

அது துல்லியத்தன்மை சிக்கலைச் சோதிப்பதை மிகவும் எளிதாக்குகிறது. ஒரு தெளிவான “சரியான” வரிசை உள்ளது, ஒரு மனிதர் தவறுகளை மதிப்பாய்வு செய்யலாம், மேலும் செயற்கை நுண்ணறிவு வெறும் உதவிகரமாக இருப்பது போல் தோன்றுவதற்குப் பதிலாக, உண்மையில் உதவுகிறதா என்பதைக் குழுவால் அளவிட முடியும்.

உதவியாளருக்கு என்ன தேவை

இதை முறையாகச் சோதிப்பதற்காக, குழு பின்வருவனவற்றைத் தயார் செய்கிறது:

பெயரிடப்பட்ட 100 உண்மையான அல்லது யதார்த்தமான ஆதரவு டிக்கெட்டுகளின் சோதனைத் தொகுப்பு

ஒவ்வொரு டிக்கெட்டுக்குமான சரியான வரிசை, மனித மதிப்பாய்வாளரால் ஒப்புக்கொள்ளப்பட்டது

ஒவ்வொரு வரிசையிலும் என்னென்ன இடம்பெற வேண்டும் என்பதை விளக்கும் ஒரு சுருக்கமான கொள்கை

நம்பகத்தன்மை குறைவாக இருக்கும்போது, உதவியாளர் “மனித மதிப்பாய்வு தேவை” என்று கூற வேண்டும் என்ற விதி

டிக்கெட் ஐடி, AI வரிசை, மனித வரிசை, நம்பகத்தன்மை மதிப்பெண், மதிப்பாய்வு முடிவு மற்றும் எடுத்துக்கொண்ட நேரம் ஆகியவற்றை உள்ளடக்கிய ஒரு எளிய கண்காணிப்புத் தாள்

எடுத்துக்காட்டு அறிவுறுத்தல்

நீங்கள் ஒரு ஆதரவு-வகைப்படுத்தும் உதவியாளர். வாடிக்கையாளர் செய்தியைப் படித்து, அதனை பின்வருவனவற்றில் ஏதேனும் ஒரு வரிசையில் ஒதுக்குங்கள்: கட்டணம், உள்நுழைவுச் சிக்கல்கள், பிழை அறிக்கைகள், அம்சக் கோரிக்கைகள், அல்லது மனித மதிப்பாய்வு தேவை.

விலைப்பட்டியல்கள், பணத் திருப்பியளிப்புகள், பணம் செலுத்துவதில் ஏற்படும் தோல்விகள், திட்ட மாற்றங்கள் மற்றும் சந்தா தொடர்பான கேள்விகளுக்கு பில்லிங்கைப் பயன்படுத்தவும்.

கடவுச்சொல் மீட்டமைப்பு, கணக்கு அணுகல், இரு காரணி அங்கீகாரம், பூட்டப்பட்ட கணக்குகள் அல்லது மின்னஞ்சல் சரிபார்ப்புச் சிக்கல்களுக்கு 'உள்நுழைவுச் சிக்கல்கள்' பகுதியைப் பயன்படுத்தவும்.

செயலிழந்த அம்சங்கள், பிழைச் செய்திகள், விடுபட்ட தரவுகள், செயலிழப்புகள் அல்லது தயாரிப்பு ஆவணங்களுடன் பொருந்தாத செயல்பாடுகளுக்கு, பிழை அறிக்கைகளைப் பயன்படுத்தவும்.

வாடிக்கையாளர் ஒரு புதிய திறன், ஒருங்கிணைப்பு, அமைப்பு அல்லது பணிப்பாய்வு மேம்பாட்டைக் கோரும்போது, அம்சக் கோரிக்கைகளைப் பயன்படுத்தவும்.

செய்தி தெளிவற்றதாக இருந்தாலோ, ஒன்றுக்கு மேற்பட்ட சிக்கல்களைக் கொண்டிருந்தாலோ, அல்லது பாதுகாப்பு மற்றும் தனியுரிமையைப் பாதிக்கக்கூடியதாக இருந்தாலோ, 'மனித மதிப்பாய்வு தேவை' என்பதைத் தேர்ந்தெடுக்கவும்.

திரும்ப அளிக்கப்படுபவை: வரிசை, 0 முதல் 100 வரையிலான நம்பகத்தன்மை, ஓரெழுத்துக் காரணம், மற்றும் அதை ஒரு மனிதர் சரிபார்க்க வேண்டுமா இல்லையா என்பது.

அதை எப்படி சோதிப்பது

உற்பத்திச் சூழலில் இந்த அமைப்பை நம்புவதற்கு முன், ஒரு சிறிய “தங்கத் தொகுப்புடன்” தொடங்குங்கள்.

உதாரணத்திற்கு:

20 பில்லிங் டிக்கெட்டுகள்

20 உள்நுழைவு டிக்கெட்டுகள்

20 பிழை அறிக்கைகள்

20 அம்சக் கோரிக்கைகள்

20 சிக்கலான அல்லது தெளிவற்ற டிக்கெட்டுகள்

பின்னர், அனைத்து 100 டிக்கெட்டுகளிலும் அசிஸ்டன்ட்டை இயக்கி, அது தேர்ந்தெடுத்த வரிசையை மனிதனால் அங்கீகரிக்கப்பட்ட வரிசையுடன் ஒப்பிட்டுப் பாருங்கள்.

பயனுள்ள சோதனைகளில் அடங்குபவை:

ஒட்டுமொத்த துல்லியம்: எத்தனை டிக்கெட்டுகள் சரியான வரிசைக்குச் சென்றன?

வரிசை வாரியான துல்லியம்: செயற்கை நுண்ணறிவு “பில்லிங்” என்று கூறும்போது, அது எவ்வளவு அடிக்கடி பில்லிங் செய்கிறது?

வரிசைப்படி மீளாய்வு: அது எத்தனை உண்மையான கட்டணப் பட்டியல்களைக் கண்டறிந்தது?

மேல்நிலைப்படுத்தல் தரம்: சிக்கலான புகார்களை மனித மதிப்பாய்வுக்குச் சரியாக அனுப்பியதா?

அளவுத்திருத்தம்: 90% அல்லது அதற்கும் அதிகமான நம்பகத்தன்மை என்று காட்டியபோது, அது பெரும்பாலான நேரங்களில் சரியாக இருந்ததா?

முடிவு

விளக்க முடிவு: இந்த பணிப்பாய்வைப் பயன்படுத்துவதற்கு முன்னும் பின்னும் 100 மாதிரி டிக்கெட்டுகளின் நேரத்தைக் கணக்கிட்டதன் அடிப்படையில்.

இந்த உதவியாளரைப் பயன்படுத்துவதற்கு முன்பு, ஒரு ஆதரவுத் தலைவர் ஒவ்வொரு டிக்கெட்டையும் கைமுறையாகப் படித்து வழிநடத்த சுமார் 2 நிமிடங்கள் 30 வினாடிகளைச் . 100 டிக்கெட்டுகளுக்கு, இது தோராயமாக 250 நிமிட வகைப்படுத்தும் பணியாக இருந்தது.

உதவியாளரைப் பயன்படுத்திய பிறகு, ஆதரவுத் தலைவர் செயற்கை நுண்ணறிவின் வரிசைத் தேர்வை மட்டும் மதிப்பாய்வு செய்து, குறைந்த நம்பகத்தன்மை கொண்ட நிகழ்வுகளைச் சரிபார்த்தார். மதிப்பாய்வு நேரம் ஒரு டிக்கெட்டுக்கு சுமார் 55 வினாடிகளாகவும் , அல்லது 100 டிக்கெட்டுகளுக்கு ஏறக்குறைய 92 நிமிடங்களாகவும் குறைந்தது

இதன் மூலம் ஒவ்வொரு 100 டிக்கெட்டுகளுக்கும் தோராயமாக 158 நிமிடங்கள் மிச்சமாகும் , அல்லது நோயாளிகளை வகைப்படுத்தும் நேரம் சுமார் 63% குறையும் .

கற்பனையான 100-டிக்கெட் சோதனைத் தொகுப்பில் துல்லியம் பின்வருமாறு இருந்தது:

ஒட்டுமொத்த வரிசைத் துல்லியம்: 100 டிக்கெட்டுகளில் 87 சரியானவை

85%-க்கும் அதிகமான அதிக நம்பிக்கையளிக்கும் டிக்கெட்டுகள்: 61 டிக்கெட்டுகள்

அதிக நம்பகத்தன்மை கொண்ட சீட்டுகளின் துல்லியம்: 61-க்கு 58 சரியானவை

மனித மதிப்பாய்வுக்கு அனுப்பப்பட்ட டிக்கெட்டுகள்: 18 டிக்கெட்டுகள்

தெளிவற்ற புகார்கள் சரியாக மேல் அதிகாரிகளுக்கு அனுப்பப்பட்டன: 15/20

முக்கியமான விவரம் என்பது வெறும் 87% துல்லியம் மட்டுமல்ல. பாதுகாப்பான முடிவு என்னவென்றால், அந்த உதவியாளர் தன்னம்பிக்கையுடன் இருந்தபோது , பல தெளிவற்ற நிகழ்வுகளை யூகிக்காமல் ஒரு மனிதரிடம் ஒப்படைத்து, அதிகத் துல்லியமாகச் செயல்பட்டதுதான். அதுதான் பயனுள்ள தானியக்கத்திற்கும் தன்னம்பிக்கையின் அபத்தத்திற்கும் உள்ள வேறுபாடு

என்ன தவறு நடக்கக்கூடும்?

பிழையற்ற மாதிரிகளை மட்டும் சோதிப்பதுதான் மிகவும் பொதுவான தவறாகும். உண்மையான புகார்கள் சிக்கலானவை. ஒரு வாடிக்கையாளர், “எனக்கு இருமுறை கட்டணம் வசூலிக்கப்பட்டது, இப்போது என்னால் உள்நுழைய முடியவில்லை” என்று எழுதக்கூடும். நிறுவனத்தின் செயல்முறையைப் பொறுத்து, அது கட்டணப் பிரச்சினை, உள்நுழைவுச் சிக்கல்கள் அல்லது மனித மதிப்பாய்வு தேவை என்பதாக இருக்கலாம்.

மற்ற அபாயங்களில் அடங்குபவை:

தயாரிப்புடன் இனி பொருந்தாத பழைய டிக்கெட்டுகளைப் பயன்படுத்துதல்

ஆதரவு கையேட்டில் இல்லாத கொள்கை விதிகளை செயற்கை நுண்ணறிவு உருவாக்க அனுமதிப்பது

அளவீட்டைச் சரிபார்க்காமல் நம்பிக்கை மதிப்பெண்களை நம்பகமானவையாகக் கருதுதல்

ஒட்டுமொத்த துல்லியத்தை மட்டும் அளவிடுவதால், ஒரு வரிசையில் உள்ள மோசமான செயல்திறனைக் கவனிக்கத் தவறுகிறோம்

"மனித மதிப்பாய்வு தேவை" என்பதை உதவியாளர் யூகிக்கத் தொடங்கும் அளவுக்குக் கடுமையாகத் தண்டிப்பது

ஒரு நல்ல சோதனையானது, சரியான முறையில் சிக்கலை அடுத்த கட்டத்திற்கு எடுத்துச் செல்வதைப் பாராட்ட வேண்டும். பல வணிகப் பணிப்பாய்வுகளில், “எனக்கு உறுதியாகத் தெரியவில்லை” என்பது ஒரு தோல்வி அல்ல. அது ஒரு பாதுகாப்பு அம்சமாகும்.

நடைமுறைப் பாடம்

"செயற்கை நுண்ணறிவு எவ்வளவு துல்லியமானது?" என்ற கேள்விக்குப் பதிலளிப்பதற்கான சிறந்த வழி, அதைத் தத்துவார்த்தமாகக் கேட்பதை நிறுத்துவதே ஆகும். ஒரு பணியைத் தேர்ந்தெடுத்து, ஒரு சிறிய சோதனைக் குழுவை உருவாக்கி, எது சரியானது என்பதை வரையறுத்து, பிழைகளை வகை வாரியாக அளவிட்டு, ஒரு வேலையை எப்போது ஒருவரிடம் திருப்பிக் கொடுக்க வேண்டும் என்பதை அந்தச் செயற்கை நுண்ணறிவு அறிந்திருக்கிறதா என்று சரிபார்க்கவும். இது, நீங்கள் மேம்படுத்தக்கூடிய ஒரு உறுதியான துல்லிய எண்ணை உங்களுக்கு வழங்கும் - வெறும் மெருகூட்டப்பட்ட அளவுகோல் மதிப்பெண்ணை அல்ல.

அடிக்கடி கேட்கப்படும் கேள்விகள்

நடைமுறை பயன்பாட்டில் AI துல்லியம்

பணி குறுகியதாகவும், நன்கு வரையறுக்கப்பட்டதாகவும், நீங்கள் மதிப்பெண் பெறக்கூடிய தெளிவான அடிப்படை உண்மையுடன் பிணைக்கப்பட்டதாகவும் இருக்கும்போது AI மிகவும் துல்லியமாக இருக்கும். உற்பத்தி பயன்பாட்டில், "துல்லியம்" என்பது உங்கள் மதிப்பீட்டுத் தரவு சத்தமில்லாத பயனர் உள்ளீடுகளையும், உங்கள் அமைப்பு புலத்தில் எதிர்கொள்ளும் நிலைமைகளையும் பிரதிபலிக்கிறதா என்பதைப் பொறுத்தது. பணிகள் மிகவும் திறந்த-முடிவாக மாறும்போது (சாட்போட்கள் போன்றவை), நீங்கள் அடிப்படை, சரிபார்ப்பு மற்றும் கண்காணிப்பு ஆகியவற்றைச் சேர்க்காவிட்டால் தவறுகள் மற்றும் நம்பிக்கையான மாயத்தோற்றங்கள் அடிக்கடி தோன்றும்.

"துல்லியம்" என்பது ஏன் நீங்கள் நம்பக்கூடிய ஒரு மதிப்பெண் அல்ல?

மக்கள் "துல்லியம்" என்பதை வெவ்வேறு அர்த்தங்களில் பயன்படுத்துகிறார்கள்: சரியான தன்மை, துல்லியம் vs நினைவுகூருதல், அளவுத்திருத்தம், வலிமை மற்றும் நம்பகத்தன்மை. ஒரு மாதிரி ஒரு சுத்தமான சோதனைத் தொகுப்பில் சிறப்பாகத் தோன்றலாம், பின்னர் சொற்றொடர் மாற்றங்கள், தரவு சறுக்கல்கள் அல்லது பங்குகள் மாறும்போது தடுமாறும். நம்பிக்கையை மையமாகக் கொண்ட மதிப்பீடு ஒரு எண்ணை உலகளாவிய தீர்ப்பாகக் கருதுவதற்குப் பதிலாக, பல அளவீடுகள் மற்றும் காட்சிகளைப் பயன்படுத்துகிறது.

ஒரு குறிப்பிட்ட பணிக்கான AI துல்லியத்தை அளவிடுவதற்கான சிறந்த வழி

"சரி" மற்றும் "தவறு" ஆகியவை தெளிவற்றதாக இல்லாமல், சோதிக்கக்கூடியதாக இருக்கும் வகையில் பணியை வரையறுப்பதன் மூலம் தொடங்கவும். உண்மையான பயனர்கள் மற்றும் விளிம்பு நிலை நிகழ்வுகளைப் பிரதிபலிக்கும் பிரதிநிதித்துவ, சத்தமான சோதனைத் தரவைப் பயன்படுத்தவும். குறிப்பாக சமநிலையற்ற அல்லது அதிக ஆபத்துள்ள முடிவுகளுக்கு விளைவுகளைப் பொருத்த அளவீடுகளைத் தேர்வு செய்யவும். பின்னர் பரவலுக்கு வெளியே உள்ள அழுத்த சோதனைகளைச் சேர்த்து, உங்கள் சூழல் உருவாகும்போது காலப்போக்கில் மறு மதிப்பீடு செய்து கொண்டே இருங்கள்.

நடைமுறையில் துல்லியமும் நினைவுகூரலும் எவ்வாறு துல்லியத்தை வடிவமைக்கின்றன

வெவ்வேறு தோல்வி செலவுகளுக்கான துல்லியம் மற்றும் நினைவுபடுத்தல் வரைபடம்: தவறான எச்சரிக்கைகளைத் தவிர்ப்பதை துல்லியம் வலியுறுத்துகிறது, அதே நேரத்தில் நினைவுபடுத்தல் எல்லாவற்றையும் பிடிப்பதை வலியுறுத்துகிறது. நீங்கள் ஸ்பேமை வடிகட்டுகிறீர்கள் என்றால், சில தவறுகள் ஏற்றுக்கொள்ளத்தக்கதாக இருக்கலாம், ஆனால் தவறான நேர்மறைகள் பயனர்களை விரக்தியடையச் செய்யலாம். மற்ற அமைப்புகளில், கூடுதல் கொடிகளை விட அரிதான ஆனால் முக்கியமான நிகழ்வுகளைத் தவறவிடுவது முக்கியம். சரியான சமநிலை உங்கள் பணிப்பாய்வில் என்ன "தவறான" செலவுகளைப் பொறுத்தது.

அளவுத்திருத்தம் என்றால் என்ன, அது துல்லியத்திற்கு ஏன் முக்கியமானது

ஒரு மாதிரியின் நம்பிக்கை யதார்த்தத்துடன் பொருந்துகிறதா என்பதை அளவுத்திருத்தம் சரிபார்க்கிறது - அது "90% உறுதி" என்று கூறும்போது, அது 90% நேரம் சரியாகுமா? 0.9 க்கு மேல் தானியங்கி ஒப்புதல் போன்ற வரம்புகளை நீங்கள் அமைக்கும் போதெல்லாம் இது முக்கியம். இரண்டு மாதிரிகள் ஒரே மாதிரியான துல்லியத்தைக் கொண்டிருக்கலாம், ஆனால் சிறப்பாக அளவீடு செய்யப்பட்ட ஒன்று பாதுகாப்பானது, ஏனெனில் இது அதிக நம்பிக்கையுடன் தவறான பதில்களைக் குறைக்கிறது மற்றும் புத்திசாலித்தனமான விலகல் நடத்தையை ஆதரிக்கிறது.

உருவாக்கும் AI துல்லியம், மற்றும் மாயத்தோற்றங்கள் ஏன் ஏற்படுகின்றன

உண்மைகளை அடிப்படையாகக் கொள்ளாவிட்டாலும் கூட, உருவாக்க AI சரளமான, நம்பத்தகுந்த உரையை உருவாக்க முடியும். பல தூண்டுதல்கள் பல ஏற்றுக்கொள்ளக்கூடிய பதில்களை அனுமதிப்பதால் துல்லியத்தை சரியாகக் கண்டறிவது கடினமாகிறது, மேலும் மாதிரிகள் கண்டிப்பான சரியான தன்மையை விட "உதவி" க்காக மேம்படுத்தப்படலாம். வெளியீடுகள் அதிக நம்பிக்கையுடன் வரும்போது மாயத்தோற்றங்கள் குறிப்பாக ஆபத்தானவை. உண்மை பயன்பாட்டு நிகழ்வுகளுக்கு, நம்பகமான ஆவணங்களில் அடிப்படை மற்றும் சரிபார்ப்பு படிகள் புனையப்பட்ட உள்ளடக்கத்தைக் குறைக்க உதவுகின்றன.

விநியோக மாற்றம் மற்றும் விநியோகத்திற்கு வெளியே உள்ளீடுகளுக்கான சோதனை

உலகம் மாறும்போது, விநியோகத்தில் உள்ள வரையறைகள் செயல்திறனை மிகைப்படுத்திக் காட்டலாம். அசாதாரண சொற்றொடர்கள், எழுத்துப் பிழைகள், தெளிவற்ற உள்ளீடுகள், புதிய காலகட்டங்கள் மற்றும் புதிய வகைகளைக் கொண்டு கணினி எங்கு சரிகிறது என்பதைக் கண்டறியவும். WILDS போன்ற வரையறைகள் இந்த யோசனையைச் சுற்றியே கட்டமைக்கப்பட்டுள்ளன: தரவு மாறும்போது செயல்திறன் கூர்மையாகக் குறையும். மன அழுத்த சோதனையை மதிப்பீட்டின் முக்கிய பகுதியாகக் கருதுங்கள், ஒரு நல்ல விஷயமாக அல்ல.

காலப்போக்கில் ஒரு AI அமைப்பை மிகவும் துல்லியமாக்குதல்

எட்ஜ் கேஸ்களை விரிவுபடுத்துதல், அரிதான ஆனால் முக்கியமான சூழ்நிலைகளை சமநிலைப்படுத்துதல் மற்றும் உண்மையான பயனர் வலியை பிரதிபலிக்கும் "தங்கத் தொகுப்பை" பராமரித்தல் மூலம் தரவு மற்றும் சோதனைகளை மேம்படுத்தவும். உண்மையான பணிகளுக்கு, மாதிரி செயல்படும் என்று நம்புவதற்குப் பதிலாக அடிப்படை மற்றும் சரிபார்ப்பைச் சேர்க்கவும். ஒவ்வொரு அர்த்தமுள்ள மாற்றத்திலும் மதிப்பீட்டை இயக்கவும், பின்னடைவுகளைக் கண்காணிக்கவும், சறுக்கலுக்காக உற்பத்தியில் கண்காணிக்கவும். "எனக்குத் தெரியாது" என்பது நம்பிக்கையுடன் யூகிக்கப்படுவதற்கு தண்டிக்கப்படாமல் இருக்க, புறக்கணிப்பையும் மதிப்பிடுங்கள்.

குறிப்புகள்

[1] NIST AI RMF 1.0 (NIST AI 100-1): முழு வாழ்க்கைச் சுழற்சி முழுவதும் AI அபாயங்களைக் கண்டறிதல், மதிப்பீடு செய்தல் மற்றும் நிர்வகிப்பதற்கான ஒரு நடைமுறை கட்டமைப்பு. மேலும் படிக்க
[2] NIST ஜெனரேட்டிவ் AI சுயவிவரம் (NIST AI 600-1): ஜெனரேட்டிவ் AI அமைப்புகளுக்கு குறிப்பிட்ட ஆபத்து பரிசீலனைகளில் கவனம் செலுத்தும் AI RMF உடன் ஒரு துணை சுயவிவரம். மேலும் படிக்க
[3] குவோ மற்றும் பலர். (2017) - நவீன நரம்பியல் நெட்வொர்க்குகளின் அளவுத்திருத்தம்: நவீன நரம்பியல் வலைகளை எவ்வாறு தவறாக அளவீடு செய்யலாம் மற்றும் அளவுத்திருத்தத்தை எவ்வாறு மேம்படுத்தலாம் என்பதைக் காட்டும் ஒரு அடிப்படை ஆய்வறிக்கை. மேலும் படிக்க
[4] கோ மற்றும் பலர். (2021) - WILDS பெஞ்ச்மார்க்: நிஜ உலக விநியோக மாற்றங்களின் கீழ் மாதிரி செயல்திறனை சோதிக்க வடிவமைக்கப்பட்ட ஒரு பெஞ்ச்மார்க் தொகுப்பு. மேலும் படிக்க
[5] லியாங் மற்றும் பலர். (2023) - HELM (மொழி மாதிரிகளின் முழுமையான மதிப்பீடு): உண்மையான பரிமாற்றங்களை மேற்பரப்ப காட்சிகள் மற்றும் அளவீடுகள் முழுவதும் மொழி மாதிரிகளை மதிப்பிடுவதற்கான ஒரு கட்டமைப்பு. மேலும் படிக்க

அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு

கூடுதல் கேள்விகள்

செயற்கை நுண்ணறிவின் துல்லியத்தை நான் எப்படி அறிந்துகொள்வது?

செயற்கை நுண்ணறிவின் துல்லியத்தைப் புரிந்துகொள்ள, பணியைத் தெளிவாக வரையறுப்பது அவசியம். ஏனெனில், பணி எவ்வளவு சிறப்பாகக் குறிப்பிடப்பட்டுள்ளது மற்றும் செயற்கை நுண்ணறிவு செயல்படும் சூழல்களைப் பொறுத்து துல்லியம் மாறுபடலாம். சரியான தன்மை, நுட்பம், மீட்டெடுப்பு மற்றும் அளவுத்திருத்தம் போன்ற அளவீடுகளை மதிப்பிடுவது, செயற்கை நுண்ணறிவு எவ்வளவு சிறப்பாகச் செயல்படுகிறது என்பது குறித்த புரிதலை வழங்கும்.
செயற்கை நுண்ணறிவின் துல்லியத்திற்காக ஒரே ஒரு மதிப்பெண்ணை நான் ஏன் நம்பியிருக்க முடியாது?

துல்லியம் என்பது ஒரேயொரு அளவுகோல் அல்ல; அது சரியான தன்மை, நம்பகத்தன்மை மற்றும் உறுதித்தன்மை உள்ளிட்ட பல்வேறு கூறுகளை உள்ளடக்கியது. ஒரு மாதிரி, தூய்மையான தரவுத்தொகுப்பில் சிறப்பாகச் செயல்படக்கூடும், ஆனால் உள்ளீடுகள் மாறுபடும் நிஜ உலகச் சூழ்நிலைகளில் அது தோல்வியடையலாம். எனவே, செயல்திறனை அளவிடுவதற்கு ஒரேயொரு மதிப்பெண் போதுமானதாக இருக்காது.
செயற்கை நுண்ணறிவுத் துல்லியத்தின் பின்னணியில் அளவுத்திருத்தம் என்பதன் பொருள் என்ன?

அளவுத்திருத்தம் என்பது ஒரு மாதிரியின் நம்பகத்தன்மை நிலை அதன் உண்மையான செயல்திறனுடன் பொருந்துவதை உறுதிசெய்யும் செயல்முறையைக் குறிக்கிறது. உதாரணமாக, ஒரு செயற்கை நுண்ணறிவு வழிமுறை ஒரு பதிலைப் பற்றி 90% உறுதியாக இருப்பதாகக் கூறினால், அது 90% நேரங்களில் உண்மையிலேயே சரியாக இருக்கிறதா என்பதை அளவுத்திருத்தம் சரிபார்க்கிறது. இது அதீத நம்பிக்கையினால் ஏற்படும் தவறான வெளியீடுகளின் அபாயத்தைக் குறைக்க உதவுகிறது.
காலப்போக்கில் ஒரு செயற்கை நுண்ணறிவு அமைப்பின் துல்லியத்தை நான் எவ்வாறு மேம்படுத்த முடியும்?

காலப்போக்கில் செயற்கை நுண்ணறிவின் துல்லியத்தை மேம்படுத்த, தரவின் தரம் மற்றும் சோதனை முறைகளைத் தொடர்ந்து மதிப்பீடு செய்யுங்கள், விளிம்புநிலைச் சூழல்களை விரிவுபடுத்துங்கள், மேலும் உண்மையான பயனர் சூழ்நிலைகளுக்காக ஒரு 'சிறந்த தொகுப்பை' பராமரிக்கவும். மாறிவரும் சூழல்களில் வழக்கமான கண்காணிப்பு மற்றும் அழுத்தச் சோதனைகளும், அமைப்பைத் திறம்படத் தகவமைப்பதற்கு மிகவும் முக்கியமானவை.
செயற்கை நுண்ணறிவின் துல்லியத்தை மதிப்பிடும்போது ஏற்படும் பொதுவான சிக்கல்கள் யாவை?

பொதுவான தவறுகளில், நிஜ உலகத் தரவுகளைப் பிரதிபலிக்காத தெளிவான சோதனைத் தொகுப்புகளை அதிகமாகச் சார்ந்திருப்பது, மாறுபட்ட உள்ளீடுகளை உருவகப்படுத்தும் விநியோகத்திற்கு அப்பாற்பட்ட சோதனையைப் புறக்கணிப்பது, மற்றும் உங்கள் பயன்பாட்டில் தவறான நேர்மறைகள் அல்லது எதிர்மறைகளின் தாக்கங்களைக் கருத்தில் கொள்ளாமல் வெறும் துல்லியத்தில் மட்டும் கவனம் செலுத்துவது ஆகியவை அடங்கும்.
உருவாக்க செயற்கை நுண்ணறிவு, துல்லியம் குறித்த கண்ணோட்டத்தை எவ்வாறு பாதிக்கக்கூடும்?

உருவாக்கச் செயற்கை நுண்ணறிவு, சரளமாகத் தோன்றும் வெளியீடுகளை உருவாக்கக்கூடும், ஆனால் அவை உண்மையில் சரியாக இல்லாமல் இருக்கலாம். இது 'மாயத்தோற்றங்கள்' எனப்படும் சிக்கல்களுக்கு வழிவகுக்கிறது. பல ஏற்றுக்கொள்ளக்கூடிய பதில்களுக்கு இடமளிப்பதால், உருவாக்கச் செயற்கை நுண்ணறிவின் துல்லியம் மிகவும் சிக்கலானது. எனவே, பதில்களை நம்பகமான ஆதாரங்களில் இருந்து பெறுவது அவசியமாகிறது.
செயற்கை நுண்ணறிவின் துல்லியத்திற்கு தொடர் மதிப்பீடு ஏன் முக்கியமானது?

பயனர் நடத்தை, தரவு உள்ளீடுகள் மற்றும் சுற்றுச்சூழல் தேவைகளில் ஏற்படும் மாற்றங்களால், செயற்கை நுண்ணறிவு அமைப்புகள் காலப்போக்கில் தடம் மாறக்கூடும் என்பதால், தொடர்ச்சியான மதிப்பீடு மிகவும் இன்றியமையாதது. வழக்கமான கண்காணிப்பு, செயல்திறனில் ஏற்படும் எந்தவொரு சரிவையும் கண்டறிந்து சரிசெய்வதை உறுதிசெய்து, அமைப்பின் நம்பகத்தன்மை மீதான நம்பிக்கையை நிலைநிறுத்துகிறது.