தரவு செயல்பாடுகளின் அமைதியான ஹீரோ ஒழுங்கின்மை கண்டறிதல் - பொருட்கள் தீப்பிடிப்பதற்கு முன்பு கிசுகிசுக்கும் புகை எச்சரிக்கை.
எளிமையான சொற்களில்: AI "சாதாரண-நிலை" எப்படி இருக்கும் என்பதைக் கற்றுக்கொள்கிறது, புதிய நிகழ்வுகளுக்கு ஒரு ஒழுங்கின்மை மதிப்பெண்ணை , பின்னர் ஒரு வரம்பின் . உங்கள் தரவு பருவகாலமாக, குழப்பமாக, நகர்ந்து, எப்போதாவது உங்களிடம் பொய் சொல்லும்போது "சாதாரண-நிலை" என்பதை நீங்கள் எவ்வாறு வரையறுக்கிறீர்கள் என்பதில் பிசாசு இருக்கிறது. [1]
இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:
🔗 AI ஏன் சமூகத்திற்கு தீங்கு விளைவிக்கும்?
பரவலான AI தத்தெடுப்பின் நெறிமுறை, பொருளாதார மற்றும் சமூக அபாயங்களை ஆராய்கிறது.
🔗 AI அமைப்புகள் உண்மையில் எவ்வளவு தண்ணீரைப் பயன்படுத்துகின்றன
தரவு மைய குளிர்ச்சி, பயிற்சி தேவைகள் மற்றும் சுற்றுச்சூழல் நீர் தாக்கத்தை விளக்குகிறது.
🔗 AI தரவுத்தொகுப்பு என்றால் என்ன, அது ஏன் முக்கியமானது
தரவுத்தொகுப்புகள், லேபிளிங், மூலங்கள் மற்றும் மாதிரி செயல்திறனில் அவற்றின் பங்கை வரையறுக்கிறது.
🔗 சிக்கலான தரவுகளிலிருந்து போக்குகளை AI எவ்வாறு கணிக்கிறது
வடிவ அங்கீகாரம், இயந்திர கற்றல் மாதிரிகள் மற்றும் நிஜ உலக முன்னறிவிப்பு பயன்பாடுகளை உள்ளடக்கியது.
"AI எவ்வாறு முரண்பாடுகளைக் கண்டறிகிறது?"
ஒரு நல்ல பதில், பட்டியல் வழிமுறைகளை விட அதிகமாகச் செய்ய வேண்டும். அது இயக்கவியலையும் , உண்மையான, அபூரண தரவுகளுக்கு அவற்றைப் பயன்படுத்தும்போது அவை எப்படி இருக்கும் என்பதையும் விளக்க வேண்டும். சிறந்த விளக்கங்கள்:
-
அடிப்படைப் பொருட்களைக் காட்டு: அம்சங்கள் , அடிப்படைகள் , மதிப்பெண்கள் மற்றும் வரம்புகள் . [1]
-
நடைமுறை குடும்பங்களை வேறுபடுத்துங்கள்: தூரம், அடர்த்தி, ஒரு-வகுப்பு, தனிமைப்படுத்தல், நிகழ்தகவு, மறுகட்டமைப்பு. [1]
-
நேரத் தொடர் வினோதங்களைக் கையாளவும்: "சாதாரணமானது" என்பது நாளின் நேரம், வாரத்தின் நாள், வெளியீடுகள் மற்றும் விடுமுறை நாட்களைப் பொறுத்தது. [1]
-
மதிப்பீட்டை ஒரு உண்மையான தடையாகக் கருதுங்கள்: தவறான எச்சரிக்கைகள் எரிச்சலூட்டும் மட்டுமல்ல - அவை நம்பிக்கையையும் எரிக்கின்றன. [4]
-
"இது விசித்திரமானது" என்பது ஒரு மூல காரணம் அல்ல என்பதால், விளக்கக்கூடிய தன்மை + மனித-சுழற்சியைச் சேர்க்கவும். [5]
மைய இயக்கவியல்: அடிப்படைகள், மதிப்பெண்கள், வரம்புகள் 🧠
பெரும்பாலான ஒழுங்கின்மை அமைப்புகள் - கற்பனையானவையோ இல்லையோ - மூன்று நகரும் பகுதிகளாகக் குறைக்கப்படுகின்றன:
1) பிரதிநிதித்துவம் (aka: மாதிரி என்ன பார்க்கிறது )
மூல சமிக்ஞைகள் அரிதாகவே போதுமானவை. நீங்கள் அம்சங்களை (உருட்டல் புள்ளிவிவரங்கள், விகிதங்கள், பின்னடைவுகள், பருவகால டெல்டாக்கள்) பொறியியலாக்கலாம் அல்லது பிரதிநிதித்துவங்களைக் கற்றுக்கொள்ளலாம் (உட்பொதித்தல்கள், துணைவெளிகள், மறுகட்டமைப்புகள்). [1]
2) மதிப்பெண் (aka: இது எவ்வளவு "விசித்திரமானது"?)
பொதுவான மதிப்பெண் யோசனைகள் பின்வருமாறு:
-
தூர அடிப்படையிலானது : அண்டை வீட்டாரிடம் இருந்து வெகு தொலைவில் = சந்தேகத்திற்குரியது. [1]
-
அடர்த்தி அடிப்படையிலானது : குறைந்த உள்ளூர் அடர்த்தி = சந்தேகத்திற்குரியது (LOF என்பது முன்னோடி). [1]
-
ஒரு-வகுப்பு எல்லைகள் : "சாதாரண"த்தைக் கற்றுக் கொள்ளுங்கள், வெளியே வருவதைக் கொடியிடுங்கள். [1]
-
நிகழ்தகவு : பொருத்தப்பட்ட மாதிரியின் கீழ் குறைந்த வாய்ப்பு = சந்தேகத்திற்குரியது. [1]
-
மறுகட்டமைப்பு பிழை : சாதாரணமாகப் பயிற்சி பெற்ற ஒரு மாதிரியால் அதை மீண்டும் உருவாக்க முடியாவிட்டால், அது அநேகமாக முடக்கப்பட்டிருக்கலாம். [1]
3) வாசலில் வைத்தல் (அதாவது: மணியை எப்போது அடிக்க வேண்டும்)
வரம்புகள் நிலையானதாகவோ, அளவு அடிப்படையிலானதாகவோ, பிரிவுக்கு ஏற்பவோ அல்லது செலவு உணர்திறன் கொண்டதாகவோ இருக்கலாம் - ஆனால் அவை எச்சரிக்கை பட்ஜெட்டுகள் மற்றும் கீழ்நிலை செலவுகளுக்கு எதிராக அளவீடு செய்யப்பட
மூல மதிப்பெண்களை வெளிப்படுத்துகின்றன , பின்னர் மதிப்பெண்களை உள்/வெளிப்புற முடிவுகளாக மாற்ற வரம்பைப்
பின்னர் வலியைத் தடுக்கும் விரைவான வரையறைகள் 🧯
நுட்பமான தவறுகளிலிருந்து உங்களைக் காப்பாற்றும் இரண்டு வேறுபாடுகள்:
-
வெளிப்புற கண்டறிதல் : உங்கள் பயிற்சித் தரவில் ஏற்கனவே வெளிப்புறங்கள் இருக்கலாம்; வழிமுறை எப்படியும் "அடர்த்தியான இயல்பான பகுதியை" மாதிரியாக்க முயற்சிக்கிறது.
-
புதுமை கண்டறிதல் : பயிற்சி தரவு சுத்தமாக கருதப்படுகிறது; புதிய அவதானிப்புகள் கற்றுக்கொள்ளப்பட்ட சாதாரண முறைக்கு பொருந்துமா என்பதை நீங்கள் தீர்மானிக்கிறீர்கள். [2]
ஒரு-வகுப்பு வகைப்பாட்டாக வடிவமைக்கப்பட்டுள்ளது - அசாதாரண எடுத்துக்காட்டுகள் அரிதாகவோ அல்லது வரையறுக்கப்படாததாகவோ இருப்பதால், மாதிரியாக்கம் இயல்பானது. [1]

மேற்பார்வை இல்லாத வேலைக்கார குதிரைகளை நீங்கள் உண்மையில் பயன்படுத்துவீர்கள் 🧰
லேபிள்கள் பற்றாக்குறையாக இருக்கும்போது (அடிப்படையில் இது எப்போதும் இருக்கும்), உண்மையான குழாய்களில் காண்பிக்கப்படும் கருவிகள் இவை:
-
தனிமைப்படுத்தல் காடு : பல அட்டவணை நிகழ்வுகளில் ஒரு வலுவான இயல்புநிலை, நடைமுறையில் பரவலாகப் பயன்படுத்தப்படுகிறது மற்றும் scikit-learn இல் செயல்படுத்தப்படுகிறது. [2]
-
ஒரு-வகுப்பு SVM : பயனுள்ளதாக இருக்கலாம், ஆனால் டியூனிங் மற்றும் அனுமானங்களுக்கு உணர்திறன் கொண்டது; scikit-learn கவனமாக ஹைப்பர்பாராமீட்டர் டியூனிங்கின் அவசியத்தை வெளிப்படையாகக் கூறுகிறது. [2]
-
உள்ளூர் வெளிப்புற காரணி (LOF) : கிளாசிக் அடர்த்தி அடிப்படையிலான மதிப்பெண்; "இயல்பு" என்பது ஒரு நேர்த்தியான குமிழியாக இல்லாதபோது சிறந்தது. [1]
நடைமுறைக்கு ஏற்ற கோட்சா குழுக்கள் வாரந்தோறும் மீண்டும் கண்டுபிடிக்கும் ஒரு விஷயம்: பயிற்சித் தொகுப்பில் நீங்கள் வெளிப்புறக் கண்டறிதலைச் செய்கிறீர்களா என்பதைப் பொறுத்து LOF வித்தியாசமாகச் செயல்படுகிறது. புதிய தரவுகளில் புதுமை கண்டறிதல் - scikit-learn கூட கண்ணுக்குத் தெரியாத புள்ளிகளைப் பாதுகாப்பாகப் பெற புதுமை=உண்மை
தரவு முட்டாள்தனமாக இருக்கும்போது கூட செயல்படும் ஒரு வலுவான அடிப்படை 🪓
"நம்மை மறதிக்குள் தள்ளாத ஒன்று நமக்குத் தேவை" என்ற மனநிலையில் நீங்கள் இருந்தால், வலுவான புள்ளிவிவரங்கள் குறைத்து மதிப்பிடப்படுகின்றன.
மாற்றியமைக்கப்பட்ட z-ஸ்கோர், சராசரி மற்றும் MAD (சராசரி முழுமையான விலகல்) ஆகியவற்றைப் பயன்படுத்துகிறது 3.5 க்கு மேல் ஒரு முழுமையான மதிப்பில் பொதுவாகப் பயன்படுத்தப்படும் "சாத்தியமான வெளிப்புற" விதியைக் குறிப்பிடுகிறது . [3]
இது ஒவ்வொரு ஒழுங்கின்மை பிரச்சனையையும் தீர்க்காது - ஆனால் இது பெரும்பாலும் ஒரு வலுவான முதல் வரிசை பாதுகாப்பாகும், குறிப்பாக சத்தமான அளவீடுகள் மற்றும் ஆரம்ப கட்ட கண்காணிப்புக்கு. [3]
காலத் தொடர் யதார்த்தம்: “சாதாரணமானது” எப்போது என்பதைப் பொறுத்தது ⏱️📈
நேரத் தொடர் முரண்பாடுகள் தந்திரமானவை, ஏனெனில் சூழல்தான் முழுப் புள்ளி: நண்பகலில் ஒரு ஸ்பைக் எதிர்பார்க்கப்படலாம்; அதிகாலை 3 மணிக்கு அதே ஸ்பைக் ஏதோ தீப்பிடித்து எரிகிறது என்று அர்த்தம். எனவே பல நடைமுறை அமைப்புகள் நேர விழிப்புணர்வு அம்சங்கள் (லேக்ஸ், பருவகால டெல்டாக்கள், உருளும் ஜன்னல்கள்) மற்றும் எதிர்பார்க்கப்படும் வடிவத்துடன் தொடர்புடைய மதிப்பெண் விலகல்களைப் பயன்படுத்தி இயல்பான தன்மையை மாதிரியாக்குகின்றன. [1]
உங்களுக்கு ஒரே ஒரு விதி மட்டும் நினைவில் இருந்தால்: உங்கள் டிராஃபிக்கில் பாதியை "ஒழுங்கற்றது" என்று அறிவிப்பதற்கு முன், உங்கள் அடிப்படையை (மணிநேரம்/நாள்/பிராந்தியம்/சேவை அடுக்கு) பிரிக்கவும்
மதிப்பீடு: அரிய நிகழ்வு பொறி 🧪
ஒழுங்கின்மை கண்டறிதல் பெரும்பாலும் "வைக்கோலில் ஊசி" போல இருக்கும், இது மதிப்பீட்டை விசித்திரமாக்குகிறது:
-
நேர்மறைகள் அரிதாக இருக்கும்போது ROC வளைவுகள் ஏமாற்றும் வகையில் நன்றாகத் தோன்றும்.
-
சமநிலையற்ற அமைப்புகளுக்கு துல்லிய-நினைவுகூரும் காட்சிகள் பெரும்பாலும் அதிக தகவல் தரக்கூடியவை, ஏனெனில் அவை நேர்மறை வகுப்பின் செயல்திறனில் கவனம் செலுத்துகின்றன. [4]
-
எச்சரிக்கை பட்ஜெட்டும் தேவை : மனிதர்கள் கோபத்தை விட்டுவிடாமல் ஒரு மணி நேரத்திற்கு எத்தனை எச்சரிக்கைகளை உண்மையில் வகைப்படுத்த முடியும்? [4]
ரோலிங் விண்டோக்களில் பின் சோதனை செய்வது, கிளாசிக் தோல்வி பயன்முறையைப் பிடிக்க உங்களுக்கு உதவுகிறது: “இது அழகாக வேலை செய்கிறது... கடந்த மாத விநியோகத்தில்.” [1]
விளக்கம் & மூல காரணம்: உங்கள் வேலையைக் காட்டு 🪄
விளக்கம் இல்லாமல் எச்சரிப்பது ஒரு மர்மமான அஞ்சலட்டையைப் பெறுவது போன்றது. பயனுள்ளது, ஆனால் வெறுப்பூட்டும்.
, எந்த அம்சங்கள் ஒரு ஒழுங்கின்மை மதிப்பெண்ணுக்கு அதிகம் பங்களித்தன என்பதைக் குறிப்பிடுவதன் மூலமோ அல்லது "இது சாதாரணமாகத் தோன்றுவதற்கு என்ன மாற்ற வேண்டும்?" பாணி விளக்கங்களை வழங்குவதன் மூலமோ உதவலாம் விளக்கக் கருவிகள், பொதுவான முறைகள் (SHAP-பாணி பண்புக்கூறுகள் உட்பட) மற்றும் அவற்றின் வரம்புகளுக்கு ஒரு திடமான, முக்கியமான வழிகாட்டியாகும். [5]
இலக்கு பங்குதாரர்களுக்கு ஆறுதல் அளிப்பது மட்டுமல்ல - இது விரைவான வகைப்படுத்தல் மற்றும் குறைவான மீண்டும் மீண்டும் ஏற்படும் சம்பவங்கள் ஆகும்.
வரிசைப்படுத்தல், சறுக்கல் மற்றும் பின்னூட்ட சுழல்கள் 🚀
மாதிரிகள் ஸ்லைடுகளில் வாழ்வதில்லை. அவை குழாய்களில் வாழ்கின்றன.
"உற்பத்தியில் முதல் மாதம்" என்ற பொதுவான கதை: டிடெக்டர் பெரும்பாலும் பயன்பாடுகள், தொகுதி வேலைகள் மற்றும் காணாமல் போன தரவைக் குறிக்கிறது... இது இன்னும் பயனுள்ளதாக , ஏனெனில் இது "தரவு தர சம்பவங்களை" "வணிக முரண்பாடுகளிலிருந்து" பிரிக்க உங்களை கட்டாயப்படுத்துகிறது.
நடைமுறையில்:
-
நடத்தை மாறும்போது சறுக்கலைக் கண்காணித்து
-
பதிவு மதிப்பெண் உள்ளீடுகள் + மாதிரி பதிப்பு , இதன் மூலம் ஏதாவது ஏன் பக்கம் திருப்பப்பட்டது என்பதை நீங்கள் மீண்டும் உருவாக்க முடியும். [5]
-
காலப்போக்கில் வரம்புகள் மற்றும் பிரிவுகளை சரிசெய்ய மனித கருத்துக்களை (பயனுள்ள vs சத்தமில்லாத எச்சரிக்கைகள்) பதிவு செய்யவும்
பாதுகாப்பு கோணம்: IDS மற்றும் நடத்தை பகுப்பாய்வு 🛡️
பாதுகாப்பு குழுக்கள் பெரும்பாலும் விதி அடிப்படையிலான கண்டறிதலுடன் முரண்பாடான கருத்துக்களை கலக்கின்றன: "சாதாரண ஹோஸ்ட் நடத்தை"க்கான அடிப்படைகள், மேலும் அறியப்பட்ட மோசமான வடிவங்களுக்கான கையொப்பங்கள் மற்றும் கொள்கைகள். ஊடுருவல் கண்டறிதல் மற்றும் தடுப்பு அமைப்பு பரிசீலனைகளுக்கு NIST இன் SP 800-94 (இறுதி) பரவலாக மேற்கோள் காட்டப்பட்ட கட்டமைப்பாக உள்ளது; 2012 ஆம் ஆண்டு வரைவு "ரெவ். 1" ஒருபோதும் இறுதியானது அல்ல, பின்னர் ஓய்வு பெற்றது என்பதையும் இது குறிப்பிடுகிறது. [3]
மொழிபெயர்ப்பு: ML உதவும் இடத்தில் பயன்படுத்தவும், ஆனால் சலிப்பூட்டும் விதிகளைத் தூக்கி எறியாதீர்கள் - அவை வேலை செய்வதால் சலிப்பை ஏற்படுத்துகின்றன.
ஒப்பீட்டு அட்டவணை: ஒரு பார்வையில் பிரபலமான முறைகள் 📊
| கருவி / முறை | சிறந்தது | இது ஏன் வேலை செய்கிறது (நடைமுறையில்) |
|---|---|---|
| வலுவான / மாற்றியமைக்கப்பட்ட z-மதிப்பெண்கள் | எளிய அளவீடுகள், விரைவான அடிப்படைகள் | உங்களுக்கு "போதுமான அளவு" தேவைப்படும்போதும், குறைவான தவறான எச்சரிக்கைகள் தேவைப்படும்போதும் வலுவான முதல் பாஸ். [3] |
| தனிமைப்படுத்தப்பட்ட காடு | அட்டவணை, கலப்பு அம்சங்கள் | திடமான இயல்புநிலை செயல்படுத்தல் மற்றும் நடைமுறையில் பரவலாகப் பயன்படுத்தப்படுகிறது. [2] |
| ஒரு-வகுப்பு SVM | சிறிய "சாதாரண" பகுதிகள் | எல்லை அடிப்படையிலான புதுமை கண்டறிதல்; சரிசெய்தல் மிகவும் முக்கியமானது. [2] |
| உள்ளூர் வெளிப்புற காரணி | பன்மடங்கு இயல்பானவை | அடர்த்தி வேறுபாடு vs அண்டை நாடுகள் உள்ளூர் வினோதத்தைப் பிடிக்கின்றன. [1] |
| மறுகட்டமைப்பு பிழை (எ.கா., தானியங்கி குறியாக்கி பாணி) | உயர் பரிமாண வடிவங்கள் | சாதாரணமாக பயிற்சி செய்யுங்கள்; பெரிய மறுகட்டமைப்பு பிழைகள் விலகல்களைக் குறிக்கலாம். [1] |
ஏமாற்று குறியீடு: வலுவான அடிப்படைகள் + ஒரு சலிப்பான மேற்பார்வை செய்யப்படாத முறையுடன் தொடங்குங்கள், பின்னர் வாடகை செலுத்தும் இடத்தில் மட்டும் சிக்கலான தன்மையைச் சேர்க்கவும்.
ஒரு மினி ப்ளேபுக்: பூஜ்ஜியத்திலிருந்து எச்சரிக்கைகள் வரை 🧭
-
செயல்பாட்டு ரீதியாக "விசித்திரமானது" என்பதை வரையறுக்கவும் (தாமதம், மோசடி ஆபத்து, CPU த்ராஷ், சரக்கு ஆபத்து).
-
ஒரு அடிப்படைக் குறியீடோடு தொடங்குங்கள் (வலுவான புள்ளிவிவரங்கள் அல்லது பிரிக்கப்பட்ட வரம்புகள்). [3]
-
மேற்பார்வை செய்யப்படாத ஒரு மாதிரியை முதல் தேர்வாகத் தேர்ந்தெடுக்கவும் (தனிமைப்படுத்தல் காடு / LOF / ஒரு-வகுப்பு SVM). [2]
-
எச்சரிக்கை பட்ஜெட்டுடன் வரம்புகளை அமைக்கவும் , நேர்மறைகள் அரிதாக இருந்தால் PR-பாணி சிந்தனையுடன் மதிப்பீடு செய்யவும். [4]
-
விளக்கங்கள் + பதிவுசெய்தலைச் சேர்க்கவும் , இதனால் ஒவ்வொரு எச்சரிக்கையும் மீண்டும் உருவாக்கக்கூடியதாகவும் பிழைத்திருத்தக்கூடியதாகவும் இருக்கும். [5]
-
பின்னோக்கிச் சோதனை செய்தல், அனுப்புதல், கற்றுக்கொள், மறு அளவீடு செய்தல் - சறுக்கல் இயல்பானது. [1]
உங்கள் நேர முத்திரைகள் டக்ட் டேப் மற்றும் ஹோப் மூலம் ஒன்றாகப் பிடிக்கப்படவில்லை என்று வைத்துக் கொண்டால், ஒரு வாரத்தில் இதைச் செய்துவிடலாம். 😅
இறுதி குறிப்புகள் - மிக நீளமாக உள்ளது, நான் அதைப் படிக்கவில்லை🧾
"இயல்பின்" நடைமுறை படத்தைக் கற்றுக்கொள்வதன் மூலமும், விலகல்களை மதிப்பிடுவதன் மூலமும், ஒரு வரம்பைக் கடப்பதைக் குறிப்பதன் மூலமும் AI முரண்பாடுகளைக் கண்டறிகிறது. சிறந்த அமைப்புகள் பளபளப்பாக இருப்பதன் மூலம் அல்ல, மாறாக அளவீடு செய்யப்படுவதன் : பிரிக்கப்பட்ட அடிப்படைகள், எச்சரிக்கை பட்ஜெட்டுகள், விளக்கக்கூடிய வெளியீடுகள் மற்றும் சத்தமில்லாத அலாரங்களை நம்பகமான சமிக்ஞையாக மாற்றும் பின்னூட்ட வளையம். [1]
குறிப்புகள்
-
பிமென்டல் மற்றும் பலர் (2014) - புதுமை கண்டறிதல் பற்றிய மதிப்பாய்வு (PDF, ஆக்ஸ்போர்டு பல்கலைக்கழகம்) மேலும் படிக்கவும்
-
scikit-learn ஆவணப்படுத்தல் - புதுமை மற்றும் வெளிப்புற கண்டறிதல் மேலும் படிக்கவும்
-
NIST/SEMATECH மின்-கையேடு - வெளிப்புறங்களைக் கண்டறிதல் மேலும் படிக்கவும் மற்றும் NIST CSRC - SP 800-94 (இறுதி): ஊடுருவல் கண்டறிதல் மற்றும் தடுப்பு அமைப்புகளுக்கான வழிகாட்டி (IDPS) மேலும் படிக்கவும்
-
சைட்டோ & ரெஹ்ம்ஸ்மியர் (2015) - சமநிலையற்ற தரவுத்தொகுப்புகளில் பைனரி வகைப்படுத்திகளை மதிப்பிடும்போது (PLOS ONE) மேலும் படிக்கவும்
-
மோல்னார் - விளக்கக்கூடிய இயந்திர கற்றல் (வலை புத்தகம்) மேலும் படிக்க