செயற்கை நுண்ணறிவு முன்செயலாக்கம் இயந்திர கற்றல் மாதிரிகளை எவ்வாறு மேம்படுத்துகிறது?

செயற்கை நுண்ணறிவு முன்செயலாக்கம், மூலத் தரவுகளை சீரான, மாதிரிக்குத் தயாரான அம்சங்களாக மாற்றுவதன் மூலம் இயந்திர கற்றல் மாதிரிகளை மேம்படுத்துகிறது. இது கற்றல் நிலைத்தன்மையை மேம்படுத்தவும், தேவையற்ற தகவல்களைக் குறைக்கவும், மற்றும் மறைமுகமான தோல்விகளின் அபாயத்தைக் குறைக்கவும் உதவுகிறது. இதன்மூலம், பயிற்சி மற்றும் உற்பத்திச் சூழல்கள் இரண்டிலும் மாதிரிகள் நம்பகத்தன்மையுடன் செயல்படுவதை உறுதி செய்கிறது.

செயற்கை நுண்ணறிவு முன்செயலாக்கச் செயல்பாட்டில் என்னென்ன படிகள் அடங்கியுள்ளன?

செயற்கை நுண்ணறிவு முன்செயலாக்கத்தில் பொதுவாகத் தரவைத் தூய்மைப்படுத்துதல் மற்றும் சரிபார்த்தல், வகைசார் மாறிகளைக் குறியாக்கம் செய்தல், எண் தரவுகளை அளவிடுதல், உரையைத் தனித்தனிப் பிரிவுகளாகப் பிரித்தல் மற்றும் பட உருமாற்றங்களைப் பயன்படுத்துதல் ஆகியவை அடங்கும். உள்ளீட்டுத் தரவிலிருந்து மாதிரி திறம்படக் கற்றுக்கொள்வதை உறுதிசெய்ய, ஒவ்வொரு படியும் இன்றியமையாதது.

செயற்கை நுண்ணறிவு முன்செயலாக்கத்தில் நிலைத்தன்மை ஏன் முக்கியமானது?

பயிற்சி மற்றும் உற்பத்தித் தரவு உள்ளீடுகளுக்கு இடையே உள்ள பொருத்தமின்மைகளைத் தடுக்க, செயற்கை நுண்ணறிவு முன்செயலாக்கத்தில் சீரான தன்மை மிகவும் இன்றியமையாதது. முன்செயலாக்கப் படிகள் வேறுபட்டால், மாதிரியானது சரிபார்ப்பின் போது சிறப்பாகச் செயல்படக்கூடும், ஆனால் நிஜ உலகச் சூழலில் அது வெளிப்படையாகத் தோல்வியடைந்து, நம்பகமற்ற முடிவுகளுக்கு வழிவகுக்கும்.

செயற்கை நுண்ணறிவு முன்செயலாக்கத்தின் சூழலில் தரவுக் கசிவு என்பது என்ன?

மதிப்பீடு அல்லது சோதனைத் தரவுத்தொகுப்புகளிலிருந்து வரும் தகவல்கள், பயிற்சிச் செயல்முறையைத் தற்செயலாகப் பாதிக்கும்போது தரவுக் கசிவு ஏற்படுகிறது. இதைத் தவிர்க்க, அளவுருக்களைக் கற்கும் அனைத்து முன்செயலாக்கப் படிகளும் பயிற்சித் தரவுகளில் மட்டுமே பொருத்தப்பட வேண்டும். இதன்மூலம், மாதிரி மதிப்பீடு உண்மையான செயல்திறனைப் பிரதிபலிப்பதை உறுதிசெய்ய முடியும்.

எனது AI முன்செயலாக்க செயல்முறை மீண்டும் மீண்டும் செய்யக்கூடியதாக இருப்பதை நான் எப்படி உறுதி செய்வது?

உங்கள் AI முன்செயலாக்க செயல்முறையில் மீண்டும் மீண்டும் ஒரே மாதிரியான முடிவுகளைப் பெறுவதை உறுதிசெய்ய, அதே உள்ளீடு-வெளியீடு பொருத்தங்களைப் பராமரிக்கவும், ஸ்கேலர்கள் மற்றும் என்கோடர்கள் போன்ற முன்செயலாக்கக் கூறுகளைப் பயிற்சித் தரவுகளில் மட்டும் பொருத்தவும், மேலும் மாதிரி அனுமானத்தின் போது பயன்படுத்துவதற்காக இந்தக் கூறுகளைச் சேமிக்கவும்.

மாடல் செயல்திறன் சிக்கல்களைத் தடுக்க, எனது AI முன்செயலாக்கத்தில் நான் எவற்றைக் கண்காணிக்க வேண்டும்?

காலப்போக்கில் உங்கள் தரவுகளில் ஏற்படும் விலகல் மற்றும் சமச்சீரற்ற தன்மையைக் கண்காணிப்பது முக்கியம். இதில், பண்புக்கூறு பரவல்களில் ஏற்படும் மாற்றங்களைச் சரிபார்ப்பதும், உற்பத்தித் தரவு பயிற்சித் தரவுடன் சீராக இருப்பதை உறுதி செய்வதும் அடங்கும். இதுபோன்ற சிக்கல்களை முன்கூட்டியே கண்டறிவது, மாதிரியின் செயல்திறனைப் பராமரிக்க உதவும்.

தவிர்க்க வேண்டிய பொதுவான முன்செயலாக்கத் தவறுகளுக்கு உதாரணங்கள் தர முடியுமா?

பொதுவான முன்செயலாக்கத் தவறுகளில், முழு தரவுத்தொகுப்பிலும் முன்செயலாக்கப் படிகளைப் பொருத்துவதால் தரவுக் கசிவு ஏற்படுவது, பயிற்சிக்கும் அனுமானத்திற்கும் இடையே சீரற்ற வகைப் பொருத்தங்கள் இருப்பது, மற்றும் மதிப்பீட்டின் போது சீரற்ற உருமாற்றங்களைச் செயல்படுத்தி விடுவது ஆகியவை அடங்கும், இவை செயல்திறன் அளவீடுகளைத் திரித்துவிடக்கூடும்.

செயற்கை நுண்ணறிவு முன்செயலாக்கம் என்றால் என்ன? [காணொளி மற்றும் வினாவிடை]

சுருக்கமான பதில்: AI முன்செயலாக்கம் என்பது, மூல மற்றும் அதிக மாறுபாடு கொண்ட தரவுகளை, சீரான மாதிரி உள்ளீடுகளாக மாற்றும் மீண்டும் மீண்டும் செய்யக்கூடிய படிநிலைகளின் தொகுப்பாகும். இதில் தூய்மைப்படுத்துதல், குறியாக்கம், அளவிடுதல், டோக்கனைசிங் மற்றும் பட உருமாற்றங்கள் ஆகியவை அடங்கும். இது முக்கியமானது, ஏனெனில் பயிற்சி உள்ளீடுகளும் உற்பத்தி உள்ளீடுகளும் வேறுபட்டால், மாதிரிகள் எந்தப் பாதிப்பும் இல்லாமல் தோல்வியடையக்கூடும். ஒரு படிநிலை அளவுருக்களைக் "கற்றுக்கொண்டால்", தரவுக் கசிவைத் தவிர்க்க, அதை பயிற்சித் தரவுகளில் மட்டுமே பொருத்த வேண்டும்.

பயிற்சி அல்லது அனுமானத்திற்கு முன் (மற்றும் சில நேரங்களில்) நீங்கள் மூல தரவை உருவாக்கச் செய்யும் அனைத்தும் AI முன் செயலாக்கமாகும், இதன் மூலம் ஒரு மாதிரி உண்மையில் அதிலிருந்து கற்றுக்கொள்ள முடியும். வெறும் "சுத்தம்" அல்ல. இது தரவை சுத்தம் செய்தல், வடிவமைத்தல், அளவிடுதல், குறியாக்கம் செய்தல், பெருக்குதல் மற்றும் பேக்கேஜிங் செய்வது, இது உங்கள் மாதிரியை பின்னர் அமைதியாகத் தடுமாறச் செய்யாத ஒரு நிலையான பிரதிநிதித்துவமாகும். [1]

முக்கிய குறிப்புகள்:

வரையறை: முன் செயலாக்கம் மூல அட்டவணைகள், உரை, படங்கள் மற்றும் பதிவுகளை மாதிரி-தயார் அம்சங்களாக மாற்றுகிறது.

நிலைத்தன்மை: பொருந்தாத தோல்விகளைத் தடுக்க பயிற்சி மற்றும் அனுமானத்தின் போது அதே உருமாற்றங்களைப் பயன்படுத்துங்கள்.

கசிவு: பயிற்சித் தரவில் மட்டும் அளவிடுபவர்கள், குறியாக்கிகள் மற்றும் டோக்கனைசர்களைப் பொருத்தவும்.

மறுஉருவாக்கம்: ஆய்வு செய்யக்கூடிய புள்ளிவிவரங்களுடன் குழாய்களை உருவாக்குங்கள், தற்காலிக நோட்புக் செல் வரிசைகளுடன் அல்ல.

உற்பத்தி கண்காணிப்பு: உள்ளீடுகள் படிப்படியாக செயல்திறனைக் குறைக்காதவாறு, திசைமாற்றத்தையும் விலகலையும் கண்காணிக்கவும்.

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 நிஜ உலக செயல்திறனுக்காக AI மாதிரிகளை எவ்வாறு சோதிப்பது
துல்லியம், உறுதித்தன்மை மற்றும் சார்பு ஆகியவற்றை விரைவாக மதிப்பிடுவதற்கான நடைமுறை முறைகள்.

🔗 உரையிலிருந்து பேச்சுக்கு AI என்பது எப்படி வேலை செய்கிறது?
TTS அடிப்படைகள், முக்கிய பயன்பாடுகள் மற்றும் இன்றைய பொதுவான வரம்புகளை விளக்குகிறது.

🔗 இன்று AI வளைவு கையெழுத்தை துல்லியமாகப் படிக்க முடியுமா?
அங்கீகார சவால்கள், சிறந்த கருவிகள் மற்றும் துல்லிய குறிப்புகளை உள்ளடக்கியது.

🔗 பொதுவான பணிகளில் AI எவ்வளவு துல்லியமானது?
துல்லியக் காரணிகள், அளவுகோல்கள் மற்றும் நிஜ உலக நம்பகத்தன்மையை உடைக்கிறது.

எளிய மொழியில் AI முன் செயலாக்கம் (மற்றும் அது என்னவல்ல) 🤝

AI முன் செயலாக்கம் என்பது மூல உள்ளீடுகளை (அட்டவணைகள், உரை, படங்கள், பதிவுகள்) மாதிரி-தயார் அம்சங்களாக மாற்றுவதாகும். மூல தரவு ஒரு குழப்பமான கேரேஜாக இருந்தால், முன் செயலாக்கம் என்பது பெட்டிகளை லேபிளிடுவது, உடைந்த குப்பைகளை வீசுவது மற்றும் பொருட்களை அடுக்கி வைப்பது, இதனால் நீங்கள் உண்மையில் காயமின்றி நடக்க முடியும்.

இது மாதிரி அல்ல. மாதிரியை சாத்தியமாக்கும் விஷயங்கள் இவை:

வகைகளை எண்களாக மாற்றுதல் (ஒற்றை-சூடான, வரிசைமுறை, முதலியன) [1]
பெரிய எண் வரம்புகளை நல்ல வரம்புகளாக அளவிடுதல் (தரப்படுத்தல், குறைந்தபட்ச-அதிகபட்சம், முதலியன) [1]
உள்ளீட்டு ஐடிகளில் உரையை டோக்கனைஸ் செய்தல் (பொதுவாக ஒரு கவன முகமூடி) [3]
படங்களை மறுஅளவிடுதல்/செதுக்குதல் மற்றும் நிர்ணயிக்கப்பட்ட vs சீரற்ற உருமாற்றங்களைப் பொருத்தமாகப் பயன்படுத்துதல் [4]
பயிற்சி மற்றும் "நிஜ வாழ்க்கை" உள்ளீடுகள் நுட்பமான வழிகளில் வேறுபடாதபடி மீண்டும் மீண்டும் செய்யக்கூடிய குழாய்களை உருவாக்குதல் [2]

ஒரு சிறிய நடைமுறைக் குறிப்பு: மாடல் உள்ளீட்டைப் பார்ப்பதற்கு முன்பு சீராக நடக்கும் அனைத்தையும். சில குழுக்கள் இதை “அம்சப் பொறியியல்” (feature engineering) மற்றும் “தரவுச் சுத்திகரிப்பு” (data cleaning) எனப் பிரிக்கின்றன, ஆனால் நடைமுறையில் அந்த எல்லைகள் மங்கிவிடுகின்றன.

மக்கள் ஒப்புக்கொள்வதை விட AI முன் செயலாக்கம் ஏன் முக்கியமானது 😬

ஒரு மாதிரி என்பது மனதைப் படிப்பவர் அல்ல, மாறாக ஒரு வடிவத்தைப் பொருத்துபவர். உங்கள் உள்ளீடுகள் சீரற்றதாக இருந்தால், அந்த மாதிரி சீரற்ற விதிகளைக் கற்றுக்கொள்கிறது. அது தத்துவார்த்தமானது அல்ல, அது வலிமிகுந்த வார்த்தைகளால் ஆனது.

முன் செயலாக்கம் உங்களுக்கு உதவுகிறது:

மதிப்பீட்டாளர்கள் நம்பத்தகுந்த வகையில் பயன்படுத்தக்கூடிய பிரதிநிதித்துவங்களில் அம்சங்களைச் சேர்ப்பதன் மூலம் கற்றல் நிலைத்தன்மையை மேம்படுத்தவும் (குறிப்பாக அளவிடுதல்/குறியீடு சம்பந்தப்பட்டிருக்கும் போது). [1]
குழப்பமான யதார்த்தத்தை ஒரு மாதிரி பொதுமைப்படுத்தக்கூடிய ஒன்றைப் போலக் காட்டுவதன் மூலம் சத்தத்தைக் குறைக்கவும் (வினோதமான கலைப்பொருட்களை மனப்பாடம் செய்வதற்குப் பதிலாக)
அமைதியான தோல்வி முறைகளைத் தடுக்கவும் (சரிபார்ப்பில் "அற்புதமாக" தோன்றும் வகை, பின்னர் உற்பத்தியில் தோல்வியடைகிறது). [2]
வாரத்தின் ஒவ்வொரு நாளும் நோட்புக் ஸ்பாகெட்டியை விட மீண்டும் மீண்டும் செய்யக்கூடிய உருமாற்றங்கள் சிறந்தவை என்பதால், மறு செய்கையை விரைவுபடுத்துங்கள்

மேலும், நிறைய "மாடல் செயல்திறன்" உண்மையில் இங்கிருந்து வருகிறது. ஆச்சரியப்படும் விதமாக நிறைய. சில நேரங்களில் அது நியாயமற்றதாகத் தெரிகிறது, ஆனால் அதுதான் உண்மை 🙃

ஒரு நல்ல AI முன் செயலாக்க பைப்லைனை உருவாக்குவது எது ✅

முன் செயலாக்கத்தின் "நல்ல பதிப்பு" பொதுவாக இந்த குணங்களைக் கொண்டுள்ளது:

மீண்டும் உருவாக்கக்கூடியது: ஒரே உள்ளீடு → ஒரே வெளியீடு (வேண்டுமென்றே செய்யப்பட்ட மேம்பாடாக இருந்தாலன்றி, புதிரான சீரற்ற தன்மை இல்லை).
ரயில் சேவை நிலைத்தன்மை: பயிற்சி நேரத்தில் நீங்கள் என்ன செய்தாலும் அது அனுமான நேரத்திலும் அதே வழியில் பயன்படுத்தப்படும் (அதே பொருத்தப்பட்ட அளவுருக்கள், அதே வகை வரைபடங்கள், அதே டோக்கனைசர் கட்டமைப்பு, முதலியன). [2]
கசிவு-பாதுகாப்பானது: மதிப்பீடு/சோதனையில் எதுவும் எந்த பொருத்தப் படியையும் பாதிக்காது. (இந்த பொறியைப் பற்றி சிறிது நேரத்தில்.) [2]
கவனிக்கத்தக்கது: என்ன மாறியுள்ளது என்பதை (அம்சப் புள்ளிவிவரங்கள், விடுபட்டவை, வகை எண்ணிக்கைகள்) உங்களால் ஆய்வு செய்ய முடியும், எனவே பிழைதிருத்தம் என்பது உள்ளுணர்வுகளை அடிப்படையாகக் கொண்ட பொறியியல் அல்ல.

உங்கள் ப்ரீ-ப்ராசஸிங் என்பது 'final_v7_really_final_ok' என்று பெயரிடப்பட்ட நோட்புக் செல்களின் குவியலாக இருந்தால் ... அது எப்படி இருக்கும் என்று உங்களுக்குத் தெரியும். அது வேலை செய்யாத வரை வேலை செய்யும் 😬

AI முன் செயலாக்கத்தின் முக்கிய கட்டுமானத் தொகுதிகள் 🧱

முன் செயலாக்கத்தை நீங்கள் ஒரு குழாய்த்திட்டத்தில் இணைக்கும் கட்டுமானத் தொகுதிகளின் தொகுப்பாக நினைத்துப் பாருங்கள்.

1) சுத்தம் செய்தல் மற்றும் சரிபார்த்தல் 🧼

வழக்கமான பணிகள்:

நகல்களை அகற்று
விடுபட்ட மதிப்புகளைக் கையாளவும் (விடுபட்டதை வெளிப்படையாகக் கைவிடவும், குற்றம் சாட்டவும் அல்லது பிரதிநிதித்துவப்படுத்தவும்)
வகைகள், அலகுகள் மற்றும் வரம்புகளைச் செயல்படுத்துதல்
தவறான உள்ளீடுகளைக் கண்டறிதல்
உரை வடிவங்களை தரப்படுத்தவும் (வெற்று இடம், உறை விதிகள், யூனிகோட் தனித்திறன்கள்)

இந்தப் பகுதி கவர்ச்சியாக இல்லை, ஆனால் இது மிகவும் முட்டாள்தனமான தவறுகளைத் தடுக்கிறது. நான் அதை அன்புடன் சொல்கிறேன்.

2) வகைப்படுத்தப்பட்ட தரவை குறியாக்கம் செய்தல் 🔤

பெரும்பாலான மாடல்களால் "red" அல்லது "premium_user" போன்ற மூலச் சரங்களை நேரடியாகப் பயன்படுத்த முடியாது .

பொதுவான அணுகுமுறைகள்:

ஒன்-ஹாட் குறியாக்கம் (வகை → பைனரி நெடுவரிசைகள்) [1]
வரிசை குறியாக்கம் (வகை → முழு எண் ஐடி) [1]

நீங்கள் எந்த என்கோடரைத் தேர்ந்தெடுக்கிறீர்கள் என்பது முக்கியமல்ல - பயிற்சிக்கும் அனுமானத்திற்கும் இடையில் மேப்பிங் சீராக இருப்பதும் "வடிவம் மாறாமல்" இருப்பதும் தான் முக்கியம். அப்படித்தான் ஆஃப்லைனில் நன்றாகத் தோற்றமளிக்கும் மற்றும் ஆன்லைனில் பேய் பிடித்தது போல் செயல்படும் ஒரு மாடலை நீங்கள் பெறுவீர்கள். [2]

3) அம்ச அளவிடுதல் மற்றும் இயல்பாக்கம் 📏

அம்சங்கள் மிகவும் மாறுபட்ட வரம்புகளில் இருக்கும்போது அளவிடுதல் முக்கியமானது.

இரண்டு கிளாசிக்ஸ்:

தரப்படுத்தல்: சராசரி மற்றும் அளவுகோலை அலகு மாறுபாட்டிற்கு நீக்குதல் [1]
குறைந்தபட்ச-அதிகபட்ச அளவிடுதல்: ஒவ்வொரு அம்சத்தையும் ஒரு குறிப்பிட்ட வரம்பிற்குள் அளவிடவும் [1]

நீங்கள் "பெரும்பாலும் சமாளிக்கும்" மாதிரிகளைப் பயன்படுத்தும்போது கூட, அளவிடுதல் பெரும்பாலும் குழாய்களைப் பற்றி சிந்திக்க எளிதாக்குகிறது - மேலும் தற்செயலாக உடைவதை கடினமாக்குகிறது.

4) அம்ச பொறியியல் (பயனுள்ள ஏமாற்று வேலை என்றும் அழைக்கப்படுகிறது) 🧪

சிறந்த சமிக்ஞைகளை உருவாக்குவதன் மூலம் மாதிரியின் வேலையை எளிதாக்குவது இதுதான்:

விகிதங்கள் (கிளிக்குகள் / பதிவுகள்)
உருளும் ஜன்னல்கள் (கடந்த N நாட்கள்)
எண்ணிக்கைகள் (ஒரு பயனருக்கு நிகழ்வுகள்)
ஹெவி-டெயில்ட் டிஸ்ட்ரிபியூஷன்களுக்கான லாக் டிரான்ஸ்ஃபார்ம்கள்

இங்கே ஒரு கலை இருக்கிறது. சில நேரங்களில் நீங்கள் ஒரு அம்சத்தை உருவாக்குவீர்கள், பெருமைப்படுவீர்கள்… ஆனால் அது எதையும் செய்யாது. அல்லது அதைவிட மோசமாக, அது வலிக்கிறது. அது சாதாரணமானது. அம்சங்களுடன் உணர்ச்சி ரீதியாகப் பற்றுக் கொள்ளாதீர்கள் - அவை உங்களை மீண்டும் நேசிக்காது 😅

5) தரவை சரியான முறையில் பிரித்தல் ✂️

இது தெளிவாகத் தெரியும் வரை:

ஐஐடி தரவிற்கான சீரற்ற பிளவுகள்
நேரத் தொடருக்கான நேர அடிப்படையிலான பிளவுகள்
நிறுவனங்கள் மீண்டும் நிகழும்போது தொகுக்கப்பட்ட பிளவுகள் (பயனர்கள், சாதனங்கள், நோயாளிகள்)

மேலும் முக்கியமாக: தரவிலிருந்து கற்றுக்கொள்ளும் முன் செயலாக்கத்தைப் பொருத்துவதற்கு முன் பிரிக்கவும். உங்கள் முன் செயலாக்கப் படி அளவுருக்களை (சராசரிகள், சொற்களஞ்சியங்கள், வகை வரைபடங்கள் போன்றவை) "கற்றுக்கொண்டால்", அது பயிற்சியிலிருந்து மட்டுமே அவற்றைக் கற்றுக்கொள்ள வேண்டும். [2]

தரவு வகையின் அடிப்படையில் AI முன் செயலாக்கம்: அட்டவணை, உரை, படங்கள் 🎛️

நீங்கள் மாதிரிக்கு என்ன உணவளிக்கிறீர்கள் என்பதைப் பொறுத்து முன் செயலாக்கம் வடிவத்தை மாற்றுகிறது.

அட்டவணை தரவு (விரிதாள்கள், பதிவுகள், தரவுத்தளங்கள்) 📊

பொதுவான படிகள்:

மதிப்பு இல்லாத உத்தி
வகைப்படுத்தப்பட்ட குறியாக்கம் [1]
எண் நெடுவரிசைகளை அளவிடுதல் [1]
வெளிப்புற கையாளுதல் (டொமைன் விதிகள் பெரும்பாலான நேரங்களில் "ரேண்டம் கிளிப்பிங்கை" விட சிறப்பாக இருக்கும்)
பெறப்பட்ட அம்சங்கள் (திரட்டல்கள், பின்னடைவுகள், உருளும் புள்ளிவிவரங்கள்)

நடைமுறை ஆலோசனை: நெடுவரிசை குழுக்களை வெளிப்படையாக வரையறுக்கவும் (எண் vs வகைப்பாடு vs அடையாளங்காட்டிகள்). உங்கள் எதிர்கால சுயம் உங்களுக்கு நன்றி தெரிவிக்கும்.

உரைத் தரவு (NLP) 📝

உரை முன் செயலாக்கத்தில் பெரும்பாலும் பின்வருவன அடங்கும்:

டோக்கன்களை/துணைச் சொற்களாக டோக்கனைசேஷன் செய்தல்
உள்ளீட்டு ஐடிகளாக மாற்றுதல்
திணிப்பு/துண்டிப்பு
தொகுப்பதற்கான கவன முகமூடிகளை உருவாக்குதல் [3]

வலியைக் குறைக்கும் ஒரு சிறிய விதி: டிரான்ஸ்ஃபார்மர் அடிப்படையிலான அமைப்புகளுக்கு, மாதிரியின் எதிர்பார்க்கப்படும் டோக்கனைசர் அமைப்புகளைப் பின்பற்றுங்கள், உங்களுக்கு ஒரு காரணம் இல்லாவிட்டால் ஃப்ரீஸ்டைலை வேண்டாம். ஃப்ரீஸ்டைலிங் என்பது "இது பயிற்சி அளிக்கிறது, ஆனால் அது விசித்திரமானது" என்று நீங்கள் இறுதியில் கூறுவதைப் போன்றது

படங்கள் (கணினி பார்வை) 🖼️

வழக்கமான முன் செயலாக்கம்:

சீரான வடிவங்களுக்கு அளவை மாற்று / செதுக்கு
மதிப்பீட்டிற்கான நிர்ணயிக்கும் மாற்றங்கள்
பயிற்சி பெருக்கத்திற்கான சீரற்ற மாற்றங்கள் (எ.கா., சீரற்ற பயிர்ச்செய்கை) [4]

மக்கள் தவறவிடும் ஒரு விவரம்: “சீரற்ற மாற்றங்கள்” என்பது வெறும் அதிர்வு அல்ல - அவை அழைக்கப்படும் ஒவ்வொரு முறையும் அளவுருக்களை மாதிரியாகக் காட்டுகின்றன. பன்முகத்தன்மையைப் பயிற்றுவிப்பதற்கு சிறந்தது, சீரற்ற தன்மையை அணைக்க மறந்துவிட்டால் மதிப்பீட்டிற்கு மோசமானது. [4]

அனைவரும் விழும் பொறி: தரவு கசிவு 🕳️🐍

மதிப்பீட்டுத் தரவிலிருந்து வரும் தகவல்கள் பயிற்சிக்குள் - பெரும்பாலும் முன் செயலாக்கம் மூலம் - ஊடுருவுவதுதான் கசிவு. இது சரிபார்ப்பின் போது உங்கள் மாதிரியை மாயாஜாலமாகக் காட்டலாம், பின்னர் நிஜ உலகில் உங்களை ஏமாற்றலாம்.

பொதுவான கசிவு முறைகள்:

முழு-தரவுத்தொகுப்பு புள்ளிவிவரங்களைப் பயன்படுத்தி அளவிடுதல் (பயிற்சிக்கு மட்டும் பதிலாக) [2]
ரயில்+சோதனையைப் பயன்படுத்தி வகை வரைபடங்களை உருவாக்குதல் [2]
சோதனைத் தொகுப்பைக் "காணும்" எந்த fit() அல்லது fit_transform() படியும் [2]

கட்டைவிரல் விதி (எளிய, மிருகத்தனமான, பயனுள்ள):

பொருத்தப் படி உள்ள எதுவும் பயிற்சியின் போது மட்டுமே பொருத்தமாக இருக்க வேண்டும்.
பின்னர் நீங்கள் பொருத்தப்பட்ட மின்மாற்றியைப் பயன்படுத்தி சரிபார்ப்பு/சோதனையை மாற்றுகிறீர்கள் . [2]

மேலும், "இது எவ்வளவு மோசமாக இருக்க முடியும்?" என்ற ஒரு உள்ளுணர்வுச் சோதனையை நீங்கள் விரும்பினால்: ஸ்கிகிட்-லெர்னின் சொந்த ஆவணங்கள் ஒரு கசிவு உதாரணத்தைக் காட்டுகின்றன, அங்கு தவறான முன் செயலாக்க வரிசையானது சீரற்ற இலக்குகளில் சுமார் 0.76 துல்லியத்தை அளிக்கிறது - பின்னர் கசிவு சரிசெய்யப்பட்டவுடன் ~ 0.5 ஆகக் குறைகிறது . கசிவு எவ்வளவு நம்பத்தகுந்த வகையில் தவறாகத் தோன்றக்கூடும் என்பதற்கு இது ஒரு எடுத்துக்காட்டு. [2]

குழப்பம் இல்லாமல் தயாரிப்பில் முன் செயலாக்கத்தைப் பெறுதல் 🏗️

பல மாதிரிகள் உற்பத்தியில் தோல்வியடைவது, அந்த மாதிரி "மோசமானது" என்பதனால் அல்ல, மாறாக உள்ளீட்டு யதார்த்தம் மாறுவதாலோ அல்லது உங்கள் செயல்முறைத் தொடர் மாறுவதாலோதான்.

உற்பத்தி சார்ந்த முன் செயலாக்கம் பொதுவாக பின்வருவனவற்றை உள்ளடக்குகிறது:

சேமிக்கப்பட்ட கலைப்பொருட்கள் (குறியாக்கி மேப்பிங், ஸ்கேலர் அளவுருக்கள், டோக்கனைசர் கட்டமைப்பு) எனவே அனுமானம் அதே கற்றறிந்த உருமாற்றங்களைப் பயன்படுத்துகிறது [2]
கண்டிப்பான உள்ளீட்டு ஒப்பந்தங்கள் (எதிர்பார்க்கப்படும் நெடுவரிசைகள்/வகைகள்/வரம்புகள்)
உற்பத்தித் தரவு அலைந்து திரியும் என்பதால், சாய்வு மற்றும் சறுக்கல் கண்காணிப்பு [5]

உங்களுக்கு உறுதியான வரையறைகள் தேவைப்பட்டால்: கூகிளின் வெர்டெக்ஸ் AI மாடல் மானிட்டரிங், பயிற்சி-சேவை சாய்வு (உற்பத்தி விநியோகம் பயிற்சியிலிருந்து விலகுகிறது) மற்றும் அனுமான சறுக்கல் (உற்பத்தி விநியோகம் காலப்போக்கில் மாறுகிறது) ஆகியவற்றை வேறுபடுத்துகிறது, மேலும் வகைப்படுத்தப்பட்ட மற்றும் எண் அம்சங்கள் இரண்டிற்கும் கண்காணிப்பை ஆதரிக்கிறது. [5]

ஏனென்றால் ஆச்சரியங்கள் விலை உயர்ந்தவை. வேடிக்கையான வகை அல்ல.

ஒப்பீட்டு அட்டவணை: பொதுவான முன் செயலாக்கம் + கண்காணிப்பு கருவிகள் (மற்றும் அவை யாருக்கானவை) 🧰

கருவி / நூலகம்	சிறந்தது	விலை	இது ஏன் வேலை செய்கிறது (மற்றும் கொஞ்சம் நேர்மை)
scikit-learn முன் செயலாக்கம்	அட்டவணை ML குழாய்கள்	இலவசம்	திட குறியாக்கிகள் + அளவிடுபவர்கள் (OneHotEncoder, StandardScaler, முதலியன) மற்றும் கணிக்கக்கூடிய நடத்தை [1]
கட்டிப்பிடிக்கும் முக டோக்கனைசர்கள்	NLP உள்ளீட்டு தயாரிப்பு	இலவசம்	ரன்கள்/மாடல்கள் முழுவதும் உள்ளீட்டு ஐடிகள் + கவன முகமூடிகளை சீராக உருவாக்குகிறது [3]
டார்ச்விஷன் டிரான்ஸ்ஃபார்ம்ஸ்	பார்வை மாற்றங்கள் + பெருக்குதல்	இலவசம்	ஒரு குழாய்வழியில் நிர்ணயிக்கப்பட்ட மற்றும் சீரற்ற உருமாற்றங்களைக் கலப்பதற்கான சுத்தமான வழி [4]
வெர்டெக்ஸ் AI மாதிரி கண்காணிப்பு	தயாரிப்பில் சறுக்கல்/வளைவு கண்டறிதல்	கட்டணம் (கிளவுட்)	வரம்புகள் மீறப்படும்போது மானிட்டர்கள் சாய்வு/சறுக்கல் மற்றும் எச்சரிக்கைகளைக் கொண்டுள்ளன [5]

(ஆமாம், அட்டவணையில் இன்னும் கருத்துகள் உள்ளன. ஆனால் குறைந்தபட்சம் அது நேர்மையான கருத்துகளாக இருக்க வேண்டும் 😅)

நீங்கள் உண்மையில் பயன்படுத்தக்கூடிய ஒரு நடைமுறை முன் செயலாக்க சரிபார்ப்பு பட்டியல் 📌

பயிற்சிக்கு முன்

உள்ளீட்டுத் திட்டத்தை வரையறுக்கவும் (வகைகள், அலகுகள், அனுமதிக்கப்பட்ட வரம்புகள்)
விடுபட்ட மதிப்புகள் மற்றும் நகல்களைத் தணிக்கை செய்யவும்
தரவை சரியான வழியில் பிரிக்கவும் (சீரற்ற / நேர அடிப்படையிலான / குழுவாக்கப்பட்டது)
பயிற்சியில் மட்டும் ஃபிட் முன் செயலாக்கம் ( ஃபிட் / ஃபிட்_டிரான்ஸ்ஃபார்ம் ரயிலில் தங்குகிறது) [2]
முன் செயலாக்க கலைப்பொருட்களைச் சேமிக்கவும், இதனால் அனுமானம் அவற்றை மீண்டும் பயன்படுத்தலாம் [2]

பயிற்சியின் போது

பொருத்தமான இடங்களில் மட்டும் சீரற்ற பெருக்கத்தைப் பயன்படுத்துங்கள் (பொதுவாக பயிற்சிப் பிரிப்பு மட்டும்) [4]
மதிப்பீட்டு முன் செயலாக்கத்தை தீர்மானகரமானதாக வைத்திருங்கள் [4]
மாதிரி மாற்றங்கள் போன்ற முன் செயலாக்க மாற்றங்களைக் கண்காணிக்கவும் (ஏனென்றால் அவை)

பயன்படுத்துவதற்கு முன்

அனுமானம் ஒரே மாதிரியான முன் செயலாக்க பாதை மற்றும் கலைப்பொருட்களைப் பயன்படுத்துவதை உறுதிசெய்யவும் [2]
சறுக்கல்/வளைவு கண்காணிப்பை அமைக்கவும் (அடிப்படை அம்ச விநியோக சோதனைகள் கூட நீண்ட தூரம் செல்லும்) [5]

ஆழமான ஆய்வு: பொதுவான முன் செயலாக்க தவறுகள் (மற்றும் அவற்றை எவ்வாறு தவிர்ப்பது) 🧯

தவறு 1: “நான் எல்லாவற்றையும் சீக்கிரம் இயல்பாக்குவேன்” 😵

முழு தரவுத்தொகுப்பிலும் அளவிடுதல் அளவுருக்களைக் கணக்கிட்டால், நீங்கள் மதிப்பீட்டுத் தகவலைக் கசியவிடுகிறீர்கள். ரயிலில் பொருத்தவும், மீதமுள்ளவற்றை மாற்றவும். [2]

தவறு 2: குழப்பத்தில் மூழ்கும் பிரிவுகள் 🧩

உங்கள் வகை மேப்பிங் பயிற்சிக்கும் அனுமானத்திற்கும் இடையில் மாறினால், உங்கள் மாதிரி உலகை அமைதியாக தவறாகப் படிக்கக்கூடும். சேமிக்கப்பட்ட கலைப்பொருட்கள் மூலம் மேப்பிங்கை சரிசெய்து வைத்திருங்கள். [2]

தவறு 3: மதிப்பீட்டில் சீரற்ற அதிகரிப்பு பதுங்கிச் செல்வது 🎲

பயிற்சியில் சீரற்ற மாற்றங்கள் அற்புதமானவை, ஆனால் நீங்கள் செயல்திறனை அளவிட முயற்சிக்கும்போது அவை "ரகசியமாக" இருக்கக்கூடாது. (ரேண்டம் என்றால் சீரற்றது என்று பொருள்.) [4]

இறுதி குறிப்புகள் 🧠✨

AI முன் செயலாக்கம் என்பது குழப்பமான யதார்த்தத்தை நிலையான மாதிரி உள்ளீடுகளாக மாற்றும் ஒழுக்கமான கலையாகும். இது சுத்தம் செய்தல், குறியாக்கம் செய்தல், அளவிடுதல், டோக்கனைசேஷன், பட மாற்றங்கள் மற்றும் மிக முக்கியமாக மீண்டும் மீண்டும் செய்யக்கூடிய குழாய்வழிகள் மற்றும் கலைப்பொருட்களை உள்ளடக்கியது.

முன் செயலாக்கத்தை வேண்டுமென்றே செய்யுங்கள், சாதாரணமாக அல்ல. [2]
முதலில் பிரித்தல், பயிற்சியின் போது மட்டுமே பொருத்தம் உருமாற்றம், கசிவைத் தவிர்க்கவும். [2]
நடைமுறைக்கு ஏற்ற முன் செயலாக்கத்தைப் பயன்படுத்தவும் (உரைக்கு டோக்கனைசர்கள், படங்களுக்கு உருமாற்றங்கள்). [3][4]
உங்கள் மாதிரி மெதுவாக முட்டாள்தனத்தில் மூழ்காமல் இருக்க உற்பத்தி சாய்வு/சறுக்கலைக் கண்காணிக்கவும். [5]

மேலும், நீங்கள் எப்போதாவது தடுமாறினால், உங்களையே கேட்டுக்கொள்ளுங்கள்:
“இந்த முன்செயலாக்கப் படிநிலையை நான் நாளை புத்தம் புதிய தரவுகளில் இயக்கினால், அது இன்னும் அர்த்தமுள்ளதாக இருக்குமா?”
பதில் “ம்ம்… ஒருவேளை?” என்றால், அதுதான் உங்களுக்கான குறிப்பு 😬

நடைமுறை உதாரணம்: வாடிக்கையாளர் விலகல் கணிப்பிற்காக, தரவுக் கசிவு இல்லாத ஒரு முன்செயலாக்க வழிமுறையை உருவாக்குதல்

சூழ்நிலை

அடுத்த 30 நாட்களில் எந்த வாடிக்கையாளர்கள் தங்கள் சேவையை ரத்து செய்ய வாய்ப்புள்ளது என்பதைக் கணிக்க முயற்சிக்கும் ஒரு சிறிய SaaS குழுவைக் கற்பனை செய்து பாருங்கள். அவர்களின் மூலத் தரவுகள் மூன்று இடங்களில் உள்ளன: பில்லிங் ஏற்றுமதிகள், தயாரிப்பு பயன்பாட்டுப் பதிவுகள் மற்றும் ஆதரவு டிக்கெட்டுகள்.

மாதிரியின் முதல் பதிப்பு சரிபார்ப்பில் சிறப்பாகத் தெரிகிறது, ஆனால் ஒரு புதிய மாத வாடிக்கையாளர்களிடம் சோதிக்கும்போது மோசமாகச் செயல்படுகிறது. பிரச்சினை மாதிரியின் கட்டமைப்பில் இல்லை. அது முன்செயலாக்கத்தில் உள்ளது.

குழு தற்செயலாக முழு தரவுத்தொகுப்பையும் பயன்படுத்தி எண் அம்சங்களை அளவிட்டது, பயிற்சி மற்றும் சோதனைத் தரவுகளிலிருந்து ஒன்றாக வகை மேப்பிங்குகளை உருவாக்கியது, மேலும் ரத்து செய்யப்பட்ட பின்னரே சேர்க்கப்பட்ட ஆதரவு-டிக்கெட் குறிச்சொற்களைச் சேர்த்தது. கிளாசிக் கசிவு. வேதனையானது, ஆனால் சரிசெய்யக்கூடியது. [2]

குழாய்வழிக்கு என்ன தேவை

ஒரு நடைமுறை அமைப்பில் பின்வருவன அடங்கும்:

ஒரு நிலையான உள்ளீட்டுத் திட்டம்: customer_id, plan_type, account_age_days, logins_30d, tickets_30d, last_payment_status, region
ஜனவரி முதல் செப்டம்பர் வரை பயிற்சி மற்றும் அக்டோபரில் தேர்வு என்பது போன்ற, கால அடிப்படையிலான பிரிப்பு
பயிற்சிப் பிரிவில் மட்டுமே எண் அளவீடு பொருத்தப்பட்டது
பயிற்சிப் பிரிவில் மட்டும் பொருத்தப்பட்ட வகை குறியாக்கிகள்
சேமிக்கப்பட்ட முன்செயலாக்க பைப்லைன் மூலம், உற்பத்திப் பிரிவும் அதே மேப்பிங்குகள் மற்றும் ஸ்கேலர் மதிப்புகளைப் பயன்படுத்துகிறது
செயல்படுத்திய பிறகு விடுபட்ட நெடுவரிசைகள், காணப்படாத பிரிவுகள் மற்றும் விநியோக மாற்றங்களுக்கான அடிப்படை கண்காணிப்பு

முக்கிய விதி எளிமையானது: முதலில் பிரித்தல், இரண்டாவதாக முன் செயலாக்கத்தை பொருத்துதல். தரவிலிருந்து கற்றுக்கொள்ளும் எதுவும் பயிற்சி காலத்திலிருந்து மட்டுமே கற்றுக்கொள்ள வேண்டும். [2]

எடுத்துக்காட்டு அறிவுறுத்தல்

முன்செயலாக்கப் படிநிலைக்கான செயல்பாட்டுச் சுருக்கமாக இதைப் பயன்படுத்தவும்:

வாடிக்கையாளர் கட்டணம், பயன்பாடு மற்றும் ஆதரவுத் தரவுகளைப் பயன்படுத்தி, வாடிக்கையாளர் விலகல் முன்கணிப்பு மாதிரிக்கான ஒரு முன்செயலாக்க வழிமுறையை உருவாக்குங்கள். எந்த உருமாற்றிகளையும் பொருத்துவதற்கு முன், தரவுகளை நேரத்தின் அடிப்படையில் பிரிக்கவும். பயிற்சித் தரவுகளில் மட்டும் எண் அளவிகளையும் வகை குறியாக்கிகளையும் பொருத்தி, பின்னர் அந்தப் பொருத்தப்பட்ட உருமாற்றங்களைச் சரிபார்ப்பு மற்றும் சோதனைத் தரவுகளுக்குப் பயன்படுத்துங்கள். உற்பத்தி மாதிரியானது அதே திட்டவடிவம், வகை பொருத்தங்கள் மற்றும் அளவிடுதல் அளவுருக்களைப் பயன்படுத்தும் வகையில், அனைத்து முன்செயலாக்கக் கலைப்பொருட்களையும் சேமிக்கவும். முன்கணிப்பிற்கு முன், விடுபட்ட நெடுவரிசைகள், எதிர்பாராத தரவு வகைகள், இதுவரை காணப்படாத வகைகள் மற்றும் பெரிய பரவல் மாற்றங்களைக் குறியிடவும்.

அதை எப்படி சோதிப்பது

மாடலை நம்புவதற்கு முன், சில வேண்டுமென்றே இயல்புக்கு மாறான பதிவுகளைக் கொண்டு முன்செயலாக்க வழிமுறையைச் சோதித்துப் பாருங்கள்:

பயிற்சியில் கலந்துகொள்ளாத ஒரு திட்ட வகையைச் சேர்ந்த வாடிக்கையாளர்
பிராந்தியம் அல்லது கடைசி_கட்டண_நிலை விடுபட்ட ஒரு வரிசை
30 நாட்களில் 10,000 உள்நுழைவுகள் போன்ற, வழக்கத்திற்கு மாறாக அதிகப் பயன்பாடு கொண்ட ஒரு வாடிக்கையாளர்
தவறான வரிசையில் நெடுவரிசைகளைக் கொண்ட ஒரு தயாரிப்பு பாணி கோப்பு
பொருத்தும் போது ஒருபோதும் பயன்படுத்தப்படாத, எதிர்கால மாதத்திற்கான ஒரு சோதனைத் தொகுப்பு

பிறகு மூன்று விஷயங்களைச் சரிபார்க்கவும்:

அம்சங்களின் வரிசையை மாற்றாமல் பைப்லைன் இயங்குகிறதா?
அறியப்படாத பிரிவுகள் சீராகக் கையாளப்படுகின்றனவா?
கசிவு அகற்றப்பட்ட பிறகு, சரிபார்ப்புச் செயல்திறன் மேலும் நம்பகமான நிலைக்குக் குறைகிறதா?

அந்தக் கடைசிப் புள்ளி முக்கியமானது. சந்தேகத்திற்குரிய வகையில் அதிக சரிபார்ப்பு மதிப்பெண் என்பது பெரும்பாலும் ஒரு முன்செயலாக்கக் குறைபாடே தவிர, அது ஒரு அற்புதம் அல்ல.

முடிவு

நோட்புக் படிநிலைகளைச் சேமிக்கப்பட்ட பைப்லைனாக மாற்றுவதற்கு முன்னும் பின்னும் ஐந்து மாதிரி முன்செயலாக்க ஓட்டங்களின் நேரத்தைக் கணக்கிட்டதன் அடிப்படையிலான விளக்க முடிவு:

ஒவ்வொரு தரவுத்தொகுப்பு புதுப்பித்தலுக்கும் கைமுறை முன்செயலாக்க நேரம் 55 நிமிடங்களிலிருந்து 8 நிமிடங்களாகக் குறைந்தது.
அம்ச வரிசைப் பிழைகள், 5 சோதனைப் புதுப்பிப்புகளில் இருந்த 3 பிழைகளிலிருந்து, 5 புதுப்பிப்புகளில் 0 பிழைகளாகக் குறைந்தன.
கசிவு நீக்கப்பட்ட பிறகு சரிபார்ப்புத் துல்லியம் 91%-இலிருந்து 74%-ஆகக் குறைந்தது, ஆனால் புதிய மாதச் சோதனையின் துல்லியம் 62%-இலிருந்து 71%-ஆக மேம்பட்டது.
குழு 6 தானியங்கு சோதனைகளைச் சேர்த்தது: விடுபட்ட நெடுவரிசைகள், செல்லாத வகைகள், காணப்படாத பிரிவுகள், பூஜ்ய விகித மாற்றம், எண் வரம்பு மாற்றம் மற்றும் தொடர் சேவைத் திட்டப் பொருத்தமின்மை.

இந்த எண்கள் ஒரு உலகளாவிய அளவுகோல் அல்ல. புதுப்பித்தல்களின் நேரத்தைக் கணித்தல், தோல்வியுற்ற சோதனைகளைக் கணக்கிடுதல், மற்றும் சரிபார்ப்பு முடிவுகளை ஒதுக்கி வைக்கப்பட்ட எதிர்கால மாதத்துடன் ஒப்பிடுதல் ஆகியவற்றின் மூலம் ஒரு குழுவால் மீண்டும் உருவாக்கக்கூடிய, முந்தைய மற்றும் பிந்தைய எளிய அளவீடுகள் இவை.

என்ன தவறு நடக்கக்கூடும்?

செயல்முறைத் தொடர் நேர்த்தியாக இருப்பது போல் காட்டிக்கொண்டு, அதே சமயம் தகவல் கசிவுகளை மறைமுகமாகப் பாதுகாப்பதே மிகப்பெரிய ஆபத்தாகும். உதாரணமாக, “கடைசி ரத்து எச்சரிக்கை மின்னஞ்சலுக்குப் பிறகு கடந்த நாட்கள்” என்பது மதிப்புமிக்கதாகத் தோன்றலாம், ஆனால் ஒரு உள்ளகப் பணியாளர் விலகல் மதிப்பாய்வுக்குப் பிறகு மட்டுமே அந்த மின்னஞ்சல் அனுப்பப்பட்டால், அது எதிர்காலத் தகவல்களைக் கசியவிடக்கூடும்.

மற்ற பொதுவான பொறிகள்:

சேமிக்கப்பட்ட மேப்பிங்குகளை ஏற்றுவதற்குப் பதிலாக, உற்பத்தியில் என்கோடர்களை மீண்டும் பொருத்துதல்
புதிய பிரிவுகள் அமைதியாக முக்கிய நிலைகளை மாற்ற அனுமதித்தல்
உண்மையான பணி நேர அடிப்படையிலானதாக இருக்கும்போது, சமவாய்ப்புப் பிரிவில் சோதனை செய்தல்
பயிற்சியின்போது விடுபட்ட மதிப்புகளைக் கொண்ட வரிசைகளை நீக்குவது, ஆனால் அனுமானத்தின்போது அவற்றைக் கையாளாமல் இருப்பது
உள்ளீட்டு விலகலைப் புறக்கணித்து மாதிரித் துல்லியத்தைக் கண்காணித்தல்

நடைமுறைப் பாடம்

ஒரு நல்ல முன்செயலாக்கக் குழாய்வழி, மூலத் தரவை நேர்த்தியாக்குவதோடு மட்டுமல்லாமல், தவறான மதிப்பீடு, சிதைந்த உற்பத்தி உள்ளீடுகள் மற்றும் மெதுவான, வெளிப்படையற்ற நகர்வு ஆகியவற்றிலிருந்து மாதிரியைப் பாதுகாக்கிறது. ஒரு வாடிக்கையாளர் சுழற்சி மாதிரியைப் பொறுத்தவரை, திறமையான முன்செயலாக்கத்திற்கும் நம்பகமான முன்செயலாக்கத்திற்கும் உள்ள வேறுபாடு, ஒவ்வொரு முறையும் அதே பொருத்தப்பட்ட உருமாற்றங்கள் மீண்டும் பயன்படுத்தப்படுகின்றனவா என்பதைப் பொறுத்தே பெரும்பாலும் அமைகிறது; குறிப்பாக, மாதிரி இதற்கு முன் பார்த்திராத ஒரு மாதத்திலிருந்து தரவு வரும்போது இது முக்கியத்துவம் பெறுகிறது.

அடிக்கடி கேட்கப்படும் கேள்விகள்

எளிமையான சொற்களில் AI முன் செயலாக்கம் என்றால் என்ன?

AI முன் செயலாக்கம் என்பது சத்தமில்லாத, உயர்-மாறுபாடு கொண்ட மூலத் தரவை ஒரு மாதிரி கற்றுக்கொள்ளக்கூடிய நிலையான உள்ளீடுகளாக மாற்றும் மீண்டும் மீண்டும் செய்யக்கூடிய படிகளின் தொகுப்பாகும். இதில் சுத்தம் செய்தல், சரிபார்த்தல், வகைகளை குறியாக்கம் செய்தல், எண் மதிப்புகளை அளவிடுதல், உரையை டோக்கனைஸ் செய்தல் மற்றும் பட உருமாற்றங்களைப் பயன்படுத்துதல் ஆகியவை அடங்கும். பயிற்சி மற்றும் உற்பத்தி அனுமானம் "ஒரே வகையான" உள்ளீட்டைக் காண்பதை உறுதி செய்வதே இதன் குறிக்கோள், இதனால் மாதிரி பின்னர் கணிக்க முடியாத நடத்தைக்குச் செல்லாது.

உற்பத்தியில் AI முன் செயலாக்கம் ஏன் மிகவும் முக்கியமானது?

மாதிரிகள் உள்ளீட்டு பிரதிநிதித்துவத்திற்கு உணர்திறன் கொண்டவை என்பதால் முன் செயலாக்கம் முக்கியமானது. பயிற்சித் தரவு உற்பத்தித் தரவை விட அளவிடப்பட்டாலோ, குறியாக்கப்பட்டாலோ, டோக்கனைஸ் செய்யப்பட்டாலோ அல்லது மாற்றப்பட்டாலோ, ஆஃப்லைனில் நன்றாகத் தெரிந்தாலும் ஆன்லைனில் அமைதியாகத் தோல்வியடையும் பயிற்சி/சேவை பொருந்தாத தோல்விகளைப் பெறலாம். வலுவான முன் செயலாக்க குழாய்களும் சத்தத்தைக் குறைக்கின்றன, கற்றல் நிலைத்தன்மையை மேம்படுத்துகின்றன, மேலும் மறு செய்கையை விரைவுபடுத்துகின்றன, ஏனெனில் நீங்கள் நோட்புக் ஸ்பாகெட்டியை சிக்கலில் இருந்து விடுவிப்பதில்லை.

முன் செயலாக்கத்தின் போது தரவு கசிவை எவ்வாறு தவிர்ப்பது?

ஒரு எளிய விதி செயல்படுகிறது: பொருத்தும் படிநிலையைக் கொண்ட எதுவும் பயிற்சித் தரவுகளில் மட்டுமே பொருத்தப்பட வேண்டும். சராசரிகள், வகை வரைபடங்கள் அல்லது சொற்களஞ்சியங்கள் போன்ற அளவுருக்களைக் கற்கும் ஸ்கேலர்கள், என்கோடர்கள் மற்றும் டோக்கனைசர்கள் இதில் அடங்கும். நீங்கள் முதலில் பிரித்து, பயிற்சிப் பிரிவில் பொருத்தி, பின்னர் பொருத்தப்பட்ட டிரான்ஸ்ஃபார்மரைப் பயன்படுத்தி சரிபார்ப்பு/சோதனையை மாற்றியமைக்க வேண்டும். தரவுக் கசிவு, சரிபார்ப்பை "மாயாஜாலமாக" நன்றாகத் தோன்றச் செய்து, பின்னர் உற்பத்திப் பயன்பாட்டில் செயலிழக்கச் செய்துவிடும்.

அட்டவணை தரவுகளுக்கான மிகவும் பொதுவான முன் செயலாக்க படிகள் யாவை?

அட்டவணைத் தரவுகளுக்கு, வழக்கமான பைப்லைனில் சுத்தம் செய்தல் மற்றும் சரிபார்த்தல் (வகைகள், வரம்புகள், விடுபட்ட மதிப்புகள்), வகைப்படுத்தல் குறியாக்கம் (ஒரு-சூடான அல்லது வரிசைமுறை), மற்றும் எண் அளவிடுதல் (தரப்படுத்தல் அல்லது குறைந்தபட்ச-அதிகபட்சம்) ஆகியவை அடங்கும். பல பைப்லைன்கள் விகிதங்கள், உருளும் சாளரங்கள் அல்லது எண்ணிக்கைகள் போன்ற டொமைன்-இயக்கப்படும் அம்ச பொறியியலைச் சேர்க்கின்றன. உங்கள் உருமாற்றங்கள் சீராக இருக்க, நெடுவரிசைக் குழுக்களை வெளிப்படையாக வரையறுப்பது ஒரு நடைமுறை பழக்கமாகும் (எண் vs வகைப்படுத்தல் vs அடையாளங்காட்டிகள்).

உரை மாதிரிகளுக்கு முன் செயலாக்கம் எவ்வாறு செயல்படுகிறது?

உரை முன் செயலாக்கம் என்பது பொதுவாக டோக்கன்களை/துணைச் சொற்களாக டோக்கனைசேஷன் செய்தல், அவற்றை உள்ளீட்டு ஐடிகளாக மாற்றுதல் மற்றும் தொகுப்பிற்காக பேடிங்/துண்டிப்பைக் கையாளுதல் ஆகியவற்றைக் குறிக்கிறது. பல மின்மாற்றி பணிப்பாய்வுகள் ஐடிகளுடன் ஒரு கவன முகமூடியையும் உருவாக்குகின்றன. டோக்கனைசர் அமைப்புகளில் சிறிய வேறுபாடுகள் "இது பயிற்சியளிக்கிறது ஆனால் அது கணிக்க முடியாதபடி செயல்படுகிறது" விளைவுகளுக்கு வழிவகுக்கும் என்பதால், மாதிரியின் எதிர்பார்க்கப்படும் டோக்கனைசர் உள்ளமைவைப் பயன்படுத்துவது ஒரு பொதுவான அணுகுமுறையாகும்.

இயந்திர கற்றலுக்காக படங்களை முன் செயலாக்குவதில் என்ன வித்தியாசம்?

பட முன் செயலாக்கம் பொதுவாக நிலையான வடிவங்கள் மற்றும் பிக்சல் கையாளுதலை உறுதி செய்கிறது: மறுஅளவிடுதல்/பயிர் செய்தல், இயல்பாக்கம் மற்றும் நிர்ணயிக்கப்பட்ட மற்றும் சீரற்ற உருமாற்றங்களுக்கு இடையே தெளிவான பிளவு. மதிப்பீட்டிற்கு, உருமாற்றங்கள் நிர்ணயிக்கப்பட்டதாக இருக்க வேண்டும், எனவே அளவீடுகள் ஒப்பிடத்தக்கவை. பயிற்சிக்கு, சீரற்ற பெருக்குதல் (சீரற்ற பயிர்கள் போன்றவை) வலிமையை மேம்படுத்தலாம், ஆனால் சீரற்ற தன்மை வேண்டுமென்றே பயிற்சிப் பிரிவிற்கு ஸ்கோப் செய்யப்பட வேண்டும், மதிப்பீட்டின் போது தற்செயலாக விடப்படக்கூடாது.

முன் செயலாக்க குழாய்வழியை உடையக்கூடியதாக இருப்பதற்குப் பதிலாக "நல்லதாக" மாற்றுவது எது?

ஒரு நல்ல AI முன் செயலாக்க குழாய் மீண்டும் உருவாக்கக்கூடியது, கசிவு-பாதுகாப்பானது மற்றும் கவனிக்கத்தக்கது. மீண்டும் உருவாக்கக்கூடியது என்றால் சீரற்ற தன்மை வேண்டுமென்றே பெருக்குதல் என்றால் தவிர அதே உள்ளீடு அதே வெளியீட்டை உருவாக்குகிறது. கசிவு-பாதுகாப்பானது என்றால் பொருத்தப்பட்ட படிகள் சரிபார்ப்பு/சோதனையைத் தொடாது. கவனிக்கக்கூடியது என்றால் நீங்கள் காணாமல் போதல், வகை எண்ணிக்கைகள் மற்றும் அம்ச விநியோகங்கள் போன்ற புள்ளிவிவரங்களை ஆய்வு செய்யலாம், எனவே பிழைத்திருத்தம் என்பது உள்ளுணர்வு அல்ல, ஆதாரங்களை அடிப்படையாகக் கொண்டது. குழாய்வழிகள் ஒவ்வொரு முறையும் தற்காலிக நோட்புக் வரிசைகளை வெல்லும்.

பயிற்சி மற்றும் அனுமான முன் செயலாக்கத்தை எவ்வாறு சீராக வைத்திருப்பது?

கற்றுக்கொண்ட அதே கலைப்பொருட்களை அனுமான நேரத்தில் மீண்டும் பயன்படுத்துவதே முக்கியமாகும்: அளவிடும் அளவுருக்கள், குறியாக்கி மேப்பிங் மற்றும் டோக்கனைசர் கட்டமைப்புகள். உற்பத்தித் தரவு அமைதியாக செல்லாத வடிவங்களுக்குள் செல்லாமல் இருக்க, உங்களுக்கு உள்ளீட்டு ஒப்பந்தமும் (எதிர்பார்க்கப்படும் நெடுவரிசைகள், வகைகள் மற்றும் வரம்புகள்) தேவை. நிலைத்தன்மை என்பது வெறும் "ஒரே படிகளைச் செய்" அல்ல - அது "ஒரே பொருத்தப்பட்ட அளவுருக்கள் மற்றும் மேப்பிங்குடன் அதே படிகளைச் செய்"

காலப்போக்கில் சறுக்கல் மற்றும் சாய்வு போன்ற முன் செயலாக்க சிக்கல்களை நான் எவ்வாறு கண்காணிப்பது?

ஒரு திடமான குழாய்வழி இருந்தாலும், உற்பத்தித் தரவு மாறுகிறது. அம்ச விநியோக மாற்றங்களைக் கண்காணித்து, பயிற்சி-சேவை வளைவு (உற்பத்தி பயிற்சியிலிருந்து விலகுகிறது) மற்றும் அனுமான சறுக்கல் (காலப்போக்கில் உற்பத்தி மாற்றங்கள்) குறித்து எச்சரிக்கை செய்வது ஒரு பொதுவான அணுகுமுறையாகும். கண்காணிப்பு இலகுவானதாக (அடிப்படை விநியோகச் சரிபார்ப்புகள்) அல்லது நிர்வகிக்கப்படலாம் (வெர்டெக்ஸ் AI மாதிரி கண்காணிப்பு போன்றவை). உள்ளீட்டு மாற்றங்களை முன்கூட்டியே பிடிப்பதே குறிக்கோள் - அவை மாதிரி செயல்திறனை மெதுவாக அரிப்பதற்கு முன்பு.

குறிப்புகள்

[1] ஸ்கிகிட்-லெர்ன் ஏபிஐ: ஸ்கிகிட்.ப்ரீபிராசஸிங் (என்கோடர்கள், ஸ்கேலர்கள், இயல்பாக்குதல்)
[2] ஸ்கிகிட்-லெர்ன்: பொதுவான சிக்கல்கள் - தரவுக் கசிவு மற்றும் அதைத் தவிர்ப்பது எப்படி
[3] ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்ஸ் ஆவணங்கள்: டோக்கனைசர்கள் (உள்ளீட்டு ஐடிகள், கவன முகமூடிகள்)
[4] பைடார்ச் டார்ச்விஷன் ஆவணங்கள்: உருமாற்றங்கள் (மறுஅளவாக்குதல்/இயல்பாக்குதல் + சீரற்ற உருமாற்றங்கள்)
[5] கூகிள் கிளவுட் வெர்டெக்ஸ் ஏஐ ஆவணங்கள்: மாதிரி கண்காணிப்பு மேலோட்டம் (அம்சச் சாய்வு & நகர்வு)

அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு

கூடுதல் கேள்விகள்

செயற்கை நுண்ணறிவு முன்செயலாக்கம் இயந்திர கற்றல் மாதிரிகளை எவ்வாறு மேம்படுத்துகிறது?

செயற்கை நுண்ணறிவு முன்செயலாக்கம், மூலத் தரவுகளை சீரான, மாதிரிக்குத் தயாரான அம்சங்களாக மாற்றுவதன் மூலம் இயந்திர கற்றல் மாதிரிகளை மேம்படுத்துகிறது. இது கற்றல் நிலைத்தன்மையை மேம்படுத்தவும், தேவையற்ற தகவல்களைக் குறைக்கவும், மற்றும் மறைமுகமான தோல்விகளின் அபாயத்தைக் குறைக்கவும் உதவுகிறது. இதன்மூலம், பயிற்சி மற்றும் உற்பத்திச் சூழல்கள் இரண்டிலும் மாதிரிகள் நம்பகத்தன்மையுடன் செயல்படுவதை உறுதி செய்கிறது.
செயற்கை நுண்ணறிவு முன்செயலாக்கச் செயல்பாட்டில் என்னென்ன படிகள் அடங்கியுள்ளன?

செயற்கை நுண்ணறிவு முன்செயலாக்கத்தில் பொதுவாகத் தரவைத் தூய்மைப்படுத்துதல் மற்றும் சரிபார்த்தல், வகைசார் மாறிகளைக் குறியாக்கம் செய்தல், எண் தரவுகளை அளவிடுதல், உரையைத் தனித்தனிப் பிரிவுகளாகப் பிரித்தல் மற்றும் பட உருமாற்றங்களைப் பயன்படுத்துதல் ஆகியவை அடங்கும். உள்ளீட்டுத் தரவிலிருந்து மாதிரி திறம்படக் கற்றுக்கொள்வதை உறுதிசெய்ய, ஒவ்வொரு படியும் இன்றியமையாதது.
செயற்கை நுண்ணறிவு முன்செயலாக்கத்தில் நிலைத்தன்மை ஏன் முக்கியமானது?

பயிற்சி மற்றும் உற்பத்தித் தரவு உள்ளீடுகளுக்கு இடையே உள்ள பொருத்தமின்மைகளைத் தடுக்க, செயற்கை நுண்ணறிவு முன்செயலாக்கத்தில் சீரான தன்மை மிகவும் இன்றியமையாதது. முன்செயலாக்கப் படிகள் வேறுபட்டால், மாதிரியானது சரிபார்ப்பின் போது சிறப்பாகச் செயல்படக்கூடும், ஆனால் நிஜ உலகச் சூழலில் அது வெளிப்படையாகத் தோல்வியடைந்து, நம்பகமற்ற முடிவுகளுக்கு வழிவகுக்கும்.
செயற்கை நுண்ணறிவு முன்செயலாக்கத்தின் சூழலில் தரவுக் கசிவு என்பது என்ன?

மதிப்பீடு அல்லது சோதனைத் தரவுத்தொகுப்புகளிலிருந்து வரும் தகவல்கள், பயிற்சிச் செயல்முறையைத் தற்செயலாகப் பாதிக்கும்போது தரவுக் கசிவு ஏற்படுகிறது. இதைத் தவிர்க்க, அளவுருக்களைக் கற்கும் அனைத்து முன்செயலாக்கப் படிகளும் பயிற்சித் தரவுகளில் மட்டுமே பொருத்தப்பட வேண்டும். இதன்மூலம், மாதிரி மதிப்பீடு உண்மையான செயல்திறனைப் பிரதிபலிப்பதை உறுதிசெய்ய முடியும்.
எனது AI முன்செயலாக்க செயல்முறை மீண்டும் மீண்டும் செய்யக்கூடியதாக இருப்பதை நான் எப்படி உறுதி செய்வது?

உங்கள் AI முன்செயலாக்க செயல்முறையில் மீண்டும் மீண்டும் ஒரே மாதிரியான முடிவுகளைப் பெறுவதை உறுதிசெய்ய, அதே உள்ளீடு-வெளியீடு பொருத்தங்களைப் பராமரிக்கவும், ஸ்கேலர்கள் மற்றும் என்கோடர்கள் போன்ற முன்செயலாக்கக் கூறுகளைப் பயிற்சித் தரவுகளில் மட்டும் பொருத்தவும், மேலும் மாதிரி அனுமானத்தின் போது பயன்படுத்துவதற்காக இந்தக் கூறுகளைச் சேமிக்கவும்.
மாடல் செயல்திறன் சிக்கல்களைத் தடுக்க, எனது AI முன்செயலாக்கத்தில் நான் எவற்றைக் கண்காணிக்க வேண்டும்?

காலப்போக்கில் உங்கள் தரவுகளில் ஏற்படும் விலகல் மற்றும் சமச்சீரற்ற தன்மையைக் கண்காணிப்பது முக்கியம். இதில், பண்புக்கூறு பரவல்களில் ஏற்படும் மாற்றங்களைச் சரிபார்ப்பதும், உற்பத்தித் தரவு பயிற்சித் தரவுடன் சீராக இருப்பதை உறுதி செய்வதும் அடங்கும். இதுபோன்ற சிக்கல்களை முன்கூட்டியே கண்டறிவது, மாதிரியின் செயல்திறனைப் பராமரிக்க உதவும்.
தவிர்க்க வேண்டிய பொதுவான முன்செயலாக்கத் தவறுகளுக்கு உதாரணங்கள் தர முடியுமா?

பொதுவான முன்செயலாக்கத் தவறுகளில், முழு தரவுத்தொகுப்பிலும் முன்செயலாக்கப் படிகளைப் பொருத்துவதால் தரவுக் கசிவு ஏற்படுவது, பயிற்சிக்கும் அனுமானத்திற்கும் இடையே சீரற்ற வகைப் பொருத்தங்கள் இருப்பது, மற்றும் மதிப்பீட்டின் போது சீரற்ற உருமாற்றங்களைச் செயல்படுத்தி விடுவது ஆகியவை அடங்கும், இவை செயல்திறன் அளவீடுகளைத் திரித்துவிடக்கூடும்.