AI முன் செயலாக்கம் என்றால் என்ன?

AI முன் செயலாக்கம் என்றால் என்ன?

சுருக்கமான பதில்: AI முன் செயலாக்கம் என்பது மீண்டும் மீண்டும் செய்யக்கூடிய படிகளின் தொகுப்பாகும், இது மூல, உயர்-மாறுபாடு தரவை சுத்தம் செய்தல், குறியாக்கம் செய்தல், அளவிடுதல், டோக்கனைசிங் செய்தல் மற்றும் பட உருமாற்றங்கள் உள்ளிட்ட நிலையான மாதிரி உள்ளீடுகளாக மாற்றுகிறது. பயிற்சி உள்ளீடுகளும் உற்பத்தி உள்ளீடுகளும் வேறுபட்டால், மாதிரிகள் அமைதியாக தோல்வியடையக்கூடும் என்பதால் இது முக்கியமானது. ஒரு படி அளவுருக்களை "கற்றுக்கொண்டால்", கசிவைத் தவிர்க்க பயிற்சித் தரவில் மட்டும் அதைப் பொருத்தவும்.

பயிற்சி அல்லது அனுமானத்திற்கு முன் (மற்றும் சில நேரங்களில்) நீங்கள் மூல தரவை உருவாக்கச் செய்யும் அனைத்தும் AI முன் செயலாக்கமாகும், இதன் மூலம் ஒரு மாதிரி உண்மையில் அதிலிருந்து கற்றுக்கொள்ள முடியும். வெறும் "சுத்தம்" அல்ல. இது தரவை சுத்தம் செய்தல், வடிவமைத்தல், அளவிடுதல், குறியாக்கம் செய்தல், பெருக்குதல் மற்றும் பேக்கேஜிங் செய்வது, இது உங்கள் மாதிரியை பின்னர் அமைதியாகத் தடுமாறச் செய்யாத ஒரு நிலையான பிரதிநிதித்துவமாகும். [1]

முக்கிய குறிப்புகள்:

வரையறை : முன் செயலாக்கம் மூல அட்டவணைகள், உரை, படங்கள் மற்றும் பதிவுகளை மாதிரி-தயார் அம்சங்களாக மாற்றுகிறது.

நிலைத்தன்மை : பொருந்தாத தோல்விகளைத் தடுக்க பயிற்சி மற்றும் அனுமானத்தின் போது அதே உருமாற்றங்களைப் பயன்படுத்துங்கள்.

கசிவு : பயிற்சித் தரவில் மட்டும் அளவிடுபவர்கள், குறியாக்கிகள் மற்றும் டோக்கனைசர்களைப் பொருத்தவும்.

மறுஉருவாக்கம் : ஆய்வு செய்யக்கூடிய புள்ளிவிவரங்களுடன் குழாய்களை உருவாக்குங்கள், தற்காலிக நோட்புக் செல் வரிசைகளுடன் அல்ல.

உற்பத்தி கண்காணிப்பு : உள்ளீடுகள் படிப்படியாக செயல்திறனைக் குறைக்காதபடி சாய்வு மற்றும் சறுக்கலைக் கண்காணிக்கவும்.

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 நிஜ உலக செயல்திறனுக்காக AI மாதிரிகளை எவ்வாறு சோதிப்பது
துல்லியம், உறுதித்தன்மை மற்றும் சார்பு ஆகியவற்றை விரைவாக மதிப்பிடுவதற்கான நடைமுறை முறைகள்.

🔗 உரையிலிருந்து பேச்சுக்கு AI என்பது எப்படி வேலை செய்கிறது?
TTS அடிப்படைகள், முக்கிய பயன்பாடுகள் மற்றும் இன்றைய பொதுவான வரம்புகளை விளக்குகிறது.

🔗 இன்று AI வளைவு கையெழுத்தை துல்லியமாகப் படிக்க முடியுமா?
அங்கீகார சவால்கள், சிறந்த கருவிகள் மற்றும் துல்லிய குறிப்புகளை உள்ளடக்கியது.

🔗 பொதுவான பணிகளில் AI எவ்வளவு துல்லியமானது?
துல்லியக் காரணிகள், அளவுகோல்கள் மற்றும் நிஜ உலக நம்பகத்தன்மையை உடைக்கிறது.


எளிய மொழியில் AI முன் செயலாக்கம் (மற்றும் அது என்னவல்ல) 🤝

AI முன் செயலாக்கம் என்பது மூல உள்ளீடுகளை (அட்டவணைகள், உரை, படங்கள், பதிவுகள்) மாதிரி-தயார் அம்சங்களாக மாற்றுவதாகும். மூல தரவு ஒரு குழப்பமான கேரேஜாக இருந்தால், முன் செயலாக்கம் என்பது பெட்டிகளை லேபிளிடுவது, உடைந்த குப்பைகளை வீசுவது மற்றும் பொருட்களை அடுக்கி வைப்பது, இதனால் நீங்கள் உண்மையில் காயமின்றி நடக்க முடியும்.

இது மாதிரி அல்ல. மாதிரியை சாத்தியமாக்கும் விஷயங்கள் இவை:

  • வகைகளை எண்களாக மாற்றுதல் (ஒற்றை-சூடான, வரிசைமுறை, முதலியன) [1]

  • பெரிய எண் வரம்புகளை நல்ல வரம்புகளாக அளவிடுதல் (தரப்படுத்தல், குறைந்தபட்ச-அதிகபட்சம், முதலியன) [1]

  • உள்ளீட்டு ஐடிகளில் உரையை டோக்கனைஸ் செய்தல் (பொதுவாக ஒரு கவன முகமூடி) [3]

  • படங்களை மறுஅளவிடுதல்/செதுக்குதல் மற்றும் நிர்ணயிக்கப்பட்ட vs சீரற்ற உருமாற்றங்களைப் பொருத்தமாகப் பயன்படுத்துதல் [4]

  • பயிற்சி மற்றும் "நிஜ வாழ்க்கை" உள்ளீடுகள் நுட்பமான வழிகளில் வேறுபடாதபடி மீண்டும் மீண்டும் செய்யக்கூடிய குழாய்களை உருவாக்குதல் [2]

ஒரு சிறிய நடைமுறை குறிப்பு: "முன் செயலாக்கம்" என்பது மாதிரி உள்ளீட்டைப் பார்ப்பதற்கு முன்பு தொடர்ந்து நடக்கும் அனைத்தையும் . சில குழுக்கள் இதை "அம்ச பொறியியல்" vs "தரவு சுத்தம் செய்தல்" எனப் பிரிக்கின்றன, ஆனால் நிஜ வாழ்க்கையில் அந்த கோடுகள் மங்கலாகின்றன.

 

AI முன் செயலாக்கம்

மக்கள் ஒப்புக்கொள்வதை விட AI முன் செயலாக்கம் ஏன் முக்கியமானது 😬

ஒரு மாதிரி என்பது மனதைப் படிப்பவர் அல்ல, மாறாக ஒரு வடிவத்தைப் பொருத்துபவர். உங்கள் உள்ளீடுகள் சீரற்றதாக இருந்தால், அந்த மாதிரி சீரற்ற விதிகளைக் கற்றுக்கொள்கிறது. அது தத்துவார்த்தமானது அல்ல, அது வலிமிகுந்த வார்த்தைகளால் ஆனது.

முன் செயலாக்கம் உங்களுக்கு உதவுகிறது:

  • மதிப்பீட்டாளர்கள் நம்பத்தகுந்த வகையில் பயன்படுத்தக்கூடிய பிரதிநிதித்துவங்களில் அம்சங்களைச் சேர்ப்பதன் மூலம் கற்றல் நிலைத்தன்மையை மேம்படுத்தவும்

  • குழப்பமான யதார்த்தத்தை ஒரு மாதிரி பொதுமைப்படுத்தக்கூடிய ஒன்றைப் போலக் காட்டுவதன் மூலம் சத்தத்தைக் குறைக்கவும்

  • அமைதியான தோல்வி முறைகளைத் தடுக்கவும் (சரிபார்ப்பில் "அற்புதமாக" தோற்றமளிக்கும் வகை, பின்னர் உற்பத்தியில் முகநூலில் பொருத்தப்படும் வகை). [2]

  • வாரத்தின் ஒவ்வொரு நாளும் நோட்புக் ஸ்பாகெட்டியை விட மீண்டும் மீண்டும் செய்யக்கூடிய உருமாற்றங்கள் சிறந்தவை என்பதால், மறு செய்கையை விரைவுபடுத்துங்கள்

மேலும், நிறைய "மாடல் செயல்திறன்" உண்மையில் இங்கிருந்து வருகிறது. ஆச்சரியப்படும் விதமாக நிறைய. சில நேரங்களில் அது நியாயமற்றதாகத் தெரிகிறது, ஆனால் அதுதான் உண்மை 🙃


ஒரு நல்ல AI முன் செயலாக்க பைப்லைனை உருவாக்குவது எது ✅

முன் செயலாக்கத்தின் "நல்ல பதிப்பு" பொதுவாக இந்த குணங்களைக் கொண்டுள்ளது:

  • மீண்டும் உருவாக்கக்கூடியது : அதே உள்ளீடு → அதே வெளியீடு (வேண்டுமென்றே பெருக்கப்படாவிட்டால் மர்மமான சீரற்ற தன்மை இல்லை).

  • ரயில் சேவை நிலைத்தன்மை : பயிற்சி நேரத்தில் நீங்கள் என்ன செய்தாலும் அது அனுமான நேரத்திலும் அதே வழியில் பயன்படுத்தப்படும் (அதே பொருத்தப்பட்ட அளவுருக்கள், அதே வகை வரைபடங்கள், அதே டோக்கனைசர் கட்டமைப்பு, முதலியன). [2]

  • கசிவு-பாதுகாப்பானது : மதிப்பீடு/சோதனையில் எதுவும் எந்த பொருத்தப் படியையும் பாதிக்காது. (இந்த பொறியைப் பற்றி சிறிது நேரத்தில்.) [2]

  • கவனிக்கத்தக்கது : என்ன மாறிவிட்டது என்பதை நீங்கள் ஆய்வு செய்யலாம் (அம்ச புள்ளிவிவரங்கள், காணாமல் போதல், வகை எண்ணிக்கைகள்) எனவே பிழைத்திருத்தம் என்பது அதிர்வுகளை அடிப்படையாகக் கொண்ட பொறியியல் அல்ல.

final_v7_really_final_ok என்று அழைக்கப்படும் நோட்புக் செல்களின் குவியலாக இருந்தால், அது எப்படி இருக்கிறது என்பது உங்களுக்குத் தெரியும். அது வேலை செய்யாத வரை அது வேலை செய்யும் 😬


AI முன் செயலாக்கத்தின் முக்கிய கட்டுமானத் தொகுதிகள் 🧱

முன் செயலாக்கத்தை நீங்கள் ஒரு குழாய்த்திட்டத்தில் இணைக்கும் கட்டுமானத் தொகுதிகளின் தொகுப்பாக நினைத்துப் பாருங்கள்.

1) சுத்தம் செய்தல் மற்றும் சரிபார்த்தல் 🧼

வழக்கமான பணிகள்:

  • நகல்களை அகற்று

  • விடுபட்ட மதிப்புகளைக் கையாளவும் (விடுபட்டதை வெளிப்படையாகக் கைவிடவும், குற்றம் சாட்டவும் அல்லது பிரதிநிதித்துவப்படுத்தவும்)

  • வகைகள், அலகுகள் மற்றும் வரம்புகளைச் செயல்படுத்துதல்

  • தவறான உள்ளீடுகளைக் கண்டறிதல்

  • உரை வடிவங்களை தரப்படுத்தவும் (வெற்று இடம், உறை விதிகள், யூனிகோட் தனித்திறன்கள்)

இந்தப் பகுதி கவர்ச்சியாக இல்லை, ஆனால் இது மிகவும் முட்டாள்தனமான தவறுகளைத் தடுக்கிறது. நான் அதை அன்புடன் சொல்கிறேன்.

2) வகைப்படுத்தப்பட்ட தரவை குறியாக்கம் செய்தல் 🔤

"red" அல்லது "premium_user" போன்ற மூல சரங்களை நேரடியாகப் பயன்படுத்த முடியாது .

பொதுவான அணுகுமுறைகள்:

  • ஒரு-சூடான குறியாக்கம் (வகை → பைனரி நெடுவரிசைகள்) [1]

  • சாதாரண குறியாக்கம் (வகை → முழு எண் ஐடி) [1]

முக்கிய விஷயம் என்னவென்றால், எந்த குறியாக்கியைத் தேர்வு செய்கிறீர்கள் என்பதல்ல - மேப்பிங் சீராக இருப்பதும், பயிற்சிக்கும் அனுமானத்திற்கும் இடையில் "வடிவத்தை மாற்றாமல்" இருப்பதும் ஆகும். இப்படித்தான் ஆஃப்லைனில் நன்றாகத் தோற்றமளிக்கும் மற்றும் ஆன்லைனில் பேய் போல் செயல்படும் ஒரு மாதிரியை நீங்கள் பெறுவீர்கள். [2]

3) அம்ச அளவிடுதல் மற்றும் இயல்பாக்கம் 📏

அம்சங்கள் மிகவும் மாறுபட்ட வரம்புகளில் இருக்கும்போது அளவிடுதல் முக்கியமானது.

இரண்டு கிளாசிக்ஸ்:

  • தரப்படுத்தல் : சராசரி மற்றும் அளவுகோலை அலகு மாறுபாட்டிற்கு நீக்குதல் [1]

  • குறைந்தபட்ச-அதிகபட்ச அளவிடுதல் : ஒவ்வொரு அம்சத்தையும் ஒரு குறிப்பிட்ட வரம்பிற்குள் அளவிடவும் [1]

நீங்கள் "பெரும்பாலும் சமாளிக்கும்" மாதிரிகளைப் பயன்படுத்தும்போது கூட, அளவிடுதல் பெரும்பாலும் குழாய்களைப் பற்றி சிந்திக்க எளிதாக்குகிறது - மேலும் தற்செயலாக உடைவதை கடினமாக்குகிறது.

4) அம்ச பொறியியல் (பயனுள்ள ஏமாற்று வேலை என்றும் அழைக்கப்படுகிறது) 🧪

சிறந்த சமிக்ஞைகளை உருவாக்குவதன் மூலம் மாதிரியின் வேலையை எளிதாக்குவது இதுதான்:

  • விகிதங்கள் (கிளிக்குகள் / பதிவுகள்)

  • உருளும் ஜன்னல்கள் (கடந்த N நாட்கள்)

  • எண்ணிக்கைகள் (ஒரு பயனருக்கு நிகழ்வுகள்)

  • ஹெவி-டெயில்ட் டிஸ்ட்ரிபியூஷன்களுக்கான லாக் டிரான்ஸ்ஃபார்ம்கள்

இங்கே ஒரு கலை இருக்கிறது. சில நேரங்களில் நீங்கள் ஒரு அம்சத்தை உருவாக்குவீர்கள், பெருமைப்படுவீர்கள்… ஆனால் அது எதையும் செய்யாது. அல்லது அதைவிட மோசமாக, அது வலிக்கிறது. அது சாதாரணமானது. அம்சங்களுடன் உணர்ச்சி ரீதியாகப் பற்றுக் கொள்ளாதீர்கள் - அவை உங்களை மீண்டும் நேசிக்காது 😅

5) தரவை சரியான முறையில் பிரித்தல் ✂️

இது தெளிவாகத் தெரியும் வரை:

  • ஐஐடி தரவிற்கான சீரற்ற பிளவுகள்

  • நேரத் தொடருக்கான நேர அடிப்படையிலான பிளவுகள்

  • நிறுவனங்கள் மீண்டும் நிகழும்போது தொகுக்கப்பட்ட பிளவுகள் (பயனர்கள், சாதனங்கள், நோயாளிகள்)

மேலும் முக்கியமாக: தரவிலிருந்து கற்றுக்கொள்ளும் முன் செயலாக்கத்தைப் பொருத்துவதற்கு முன் பிரிக்கவும் . உங்கள் முன் செயலாக்கப் படி அளவுருக்களை (வழிமுறைகள், சொற்களஞ்சியம், வகை வரைபடங்கள் போன்றவை) "கற்றுக்கொள்கிறது" என்றால், அது அவற்றைப் பயிற்சியிலிருந்து மட்டுமே கற்றுக்கொள்ள வேண்டும். [2]


தரவு வகையின் அடிப்படையில் AI முன் செயலாக்கம்: அட்டவணை, உரை, படங்கள் 🎛️

நீங்கள் மாதிரிக்கு என்ன உணவளிக்கிறீர்கள் என்பதைப் பொறுத்து முன் செயலாக்கம் வடிவத்தை மாற்றுகிறது.

அட்டவணை தரவு (விரிதாள்கள், பதிவுகள், தரவுத்தளங்கள்) 📊

பொதுவான படிகள்:

  • மதிப்பு இல்லாத உத்தி

  • வகைப்படுத்தப்பட்ட குறியாக்கம் [1]

  • எண் நெடுவரிசைகளை அளவிடுதல் [1]

  • வெளிப்புற கையாளுதல் (டொமைன் விதிகள் பெரும்பாலான நேரங்களில் "ரேண்டம் கிளிப்பிங்கை" விட சிறப்பாக இருக்கும்)

  • பெறப்பட்ட அம்சங்கள் (திரட்டல்கள், பின்னடைவுகள், உருளும் புள்ளிவிவரங்கள்)

நடைமுறை ஆலோசனை: நெடுவரிசை குழுக்களை வெளிப்படையாக வரையறுக்கவும் (எண் vs வகைப்பாடு vs அடையாளங்காட்டிகள்). உங்கள் எதிர்கால சுயம் உங்களுக்கு நன்றி தெரிவிக்கும்.

உரைத் தரவு (NLP) 📝

உரை முன் செயலாக்கத்தில் பெரும்பாலும் பின்வருவன அடங்கும்:

  • டோக்கன்களை/துணைச் சொற்களாக டோக்கனைசேஷன் செய்தல்

  • உள்ளீட்டு ஐடிகளாக மாற்றுதல்

  • திணிப்பு/துண்டிப்பு

  • தொகுப்பதற்கான கவன முகமூடிகளை உருவாக்குதல்

வலியைக் குறைக்கும் ஒரு சிறிய விதி: டிரான்ஸ்ஃபார்மர் அடிப்படையிலான அமைப்புகளுக்கு, மாதிரியின் எதிர்பார்க்கப்படும் டோக்கனைசர் அமைப்புகளைப் பின்பற்றுங்கள், உங்களுக்கு ஒரு காரணம் இல்லாவிட்டால் ஃப்ரீஸ்டைலை வேண்டாம். ஃப்ரீஸ்டைலிங் என்பது "இது பயிற்சி அளிக்கிறது, ஆனால் அது விசித்திரமானது" என்று நீங்கள் இறுதியில் கூறுவதைப் போன்றது

படங்கள் (கணினி பார்வை) 🖼️

வழக்கமான முன் செயலாக்கம்:

  • சீரான வடிவங்களுக்கு அளவை மாற்று / செதுக்கு

  • மதிப்பீட்டிற்கான நிர்ணயிக்கும் மாற்றங்கள்

  • பயிற்சி பெருக்கத்திற்கான சீரற்ற மாற்றங்கள் (எ.கா., சீரற்ற பயிர்ச்செய்கை) [4]

மக்கள் தவறவிடும் ஒரு விவரம்: “சீரற்ற மாற்றங்கள்” என்பது வெறும் அதிர்வு அல்ல - அவை அழைக்கப்படும் ஒவ்வொரு முறையும் அளவுருக்களை மாதிரியாகக் காட்டுகின்றன. பன்முகத்தன்மையைப் பயிற்றுவிப்பதற்கு சிறந்தது, சீரற்ற தன்மையை அணைக்க மறந்துவிட்டால் மதிப்பீட்டிற்கு மோசமானது. [4]


அனைவரும் விழும் பொறி: தரவு கசிவு 🕳️🐍

மதிப்பீட்டுத் தரவிலிருந்து வரும் தகவல்கள் பயிற்சிக்குள் - பெரும்பாலும் முன் செயலாக்கம் மூலம் - ஊடுருவுவதுதான் கசிவு. இது சரிபார்ப்பின் போது உங்கள் மாதிரியை மாயாஜாலமாகக் காட்டலாம், பின்னர் நிஜ உலகில் உங்களை ஏமாற்றலாம்.

பொதுவான கசிவு முறைகள்:

  • முழு-தரவுத்தொகுப்பு புள்ளிவிவரங்களைப் பயன்படுத்தி அளவிடுதல் (பயிற்சிக்கு மட்டும் பதிலாக) [2]

  • ரயில்+சோதனையைப் பயன்படுத்தி வகை வரைபடங்களை உருவாக்குதல் [2]

  • சோதனைத் தொகுப்பை "பார்க்கும்" எந்த fit() அல்லது fit_transform()

கட்டைவிரல் விதி (எளிய, மிருகத்தனமான, பயனுள்ள):

  • பொருத்தப் உள்ள எதுவும் பயிற்சியின் போது மட்டுமே பொருத்தமாக இருக்க வேண்டும்.

  • பின்னர் நீங்கள் பொருத்தப்பட்ட மின்மாற்றியைப் பயன்படுத்தி சரிபார்ப்பு/சோதனையை மாற்றுகிறீர்கள்

"அது எவ்வளவு மோசமாக இருக்கும்?" என்று நீங்கள் விரும்பினால், ஒரு கசிவு உதாரணத்தைக் காட்டுகின்றன: scikit-learn இன் சொந்த ஆவணங்கள் ஒரு கசிவு உதாரணத்தைக் காட்டுகின்றன, அங்கு தவறான முன் செயலாக்க வரிசை சீரற்ற இலக்குகளில் 0.76 0.5 . தவறான கசிவு அவ்வளவு நம்பத்தகுந்ததாகத் தோன்றலாம். [2]


குழப்பம் இல்லாமல் தயாரிப்பில் முன் செயலாக்கத்தைப் பெறுதல் 🏗️

பல மாதிரிகள் உற்பத்தியில் தோல்வியடைவதற்கு, அந்த மாதிரி "மோசமாக" இருப்பதால் அல்ல, மாறாக உள்ளீட்டு யதார்த்தம் மாறுவதால் - அல்லது உங்கள் குழாய் மாறுவதால்.

உற்பத்தி சார்ந்த முன் செயலாக்கம் பொதுவாக பின்வருவனவற்றை உள்ளடக்குகிறது:

  • சேமிக்கப்பட்ட கலைப்பொருட்கள் (குறியாக்கி மேப்பிங், ஸ்கேலர் அளவுருக்கள், டோக்கனைசர் கட்டமைப்பு) எனவே அனுமானம் அதே கற்றறிந்த உருமாற்றங்களைப் பயன்படுத்துகிறது [2]

  • கண்டிப்பான உள்ளீட்டு ஒப்பந்தங்கள் (எதிர்பார்க்கப்படும் நெடுவரிசைகள்/வகைகள்/வரம்புகள்)

  • உற்பத்தித் தரவு அலைந்து திரியும் என்பதால், சாய்வு மற்றும் சறுக்கல் கண்காணிப்பு [5]

நீங்கள் உறுதியான வரையறைகளை விரும்பினால்: கூகிளின் வெர்டெக்ஸ் AI மாதிரி கண்காணிப்பு பயிற்சி-சேவை வளைவு (உற்பத்தி விநியோகம் பயிற்சியிலிருந்து விலகுகிறது) மற்றும் அனுமான சறுக்கல் (உற்பத்தி விநியோகம் காலப்போக்கில் மாறுகிறது) ஆகியவற்றை வேறுபடுத்துகிறது, மேலும் வகைப்படுத்தப்பட்ட மற்றும் எண் அம்சங்களுக்கான கண்காணிப்பை ஆதரிக்கிறது. [5]

ஏனென்றால் ஆச்சரியங்கள் விலை உயர்ந்தவை. வேடிக்கையான வகை அல்ல.


ஒப்பீட்டு அட்டவணை: பொதுவான முன் செயலாக்கம் + கண்காணிப்பு கருவிகள் (மற்றும் அவை யாருக்கானவை) 🧰

கருவி / நூலகம் சிறந்தது விலை இது ஏன் வேலை செய்கிறது (மற்றும் கொஞ்சம் நேர்மை)
scikit-learn முன் செயலாக்கம் அட்டவணை ML குழாய்கள் இலவசம் திட குறியாக்கிகள் + அளவிடுபவர்கள் (OneHotEncoder, StandardScaler, முதலியன) மற்றும் கணிக்கக்கூடிய நடத்தை [1]
கட்டிப்பிடிக்கும் முக டோக்கனைசர்கள் NLP உள்ளீட்டு தயாரிப்பு இலவசம் ரன்கள்/மாடல்கள் முழுவதும் உள்ளீட்டு ஐடிகள் + கவன முகமூடிகளை சீராக உருவாக்குகிறது [3]
டார்ச்விஷன் டிரான்ஸ்ஃபார்ம்ஸ் பார்வை மாற்றங்கள் + பெருக்குதல் இலவசம் ஒரு குழாய்வழியில் நிர்ணயிக்கப்பட்ட மற்றும் சீரற்ற உருமாற்றங்களைக் கலப்பதற்கான சுத்தமான வழி [4]
வெர்டெக்ஸ் AI மாதிரி கண்காணிப்பு தயாரிப்பில் சறுக்கல்/வளைவு கண்டறிதல் கட்டணம் (கிளவுட்) வரம்புகள் மீறப்படும்போது மானிட்டர்கள் சாய்வு/சறுக்கல் மற்றும் எச்சரிக்கைகளைக் கொண்டுள்ளன [5]

(ஆமாம், அட்டவணையில் இன்னும் கருத்துகள் உள்ளன. ஆனால் குறைந்தபட்சம் அது நேர்மையான கருத்துகளாக இருக்க வேண்டும் 😅)


நீங்கள் உண்மையில் பயன்படுத்தக்கூடிய ஒரு நடைமுறை முன் செயலாக்க சரிபார்ப்பு பட்டியல் 📌

பயிற்சிக்கு முன்

  • உள்ளீட்டுத் திட்டத்தை வரையறுக்கவும் (வகைகள், அலகுகள், அனுமதிக்கப்பட்ட வரம்புகள்)

  • விடுபட்ட மதிப்புகள் மற்றும் நகல்களைத் தணிக்கை செய்யவும்

  • தரவை சரியான வழியில் பிரிக்கவும் (சீரற்ற / நேர அடிப்படையிலான / குழுவாக்கப்பட்டது)

  • பயிற்சியில் மட்டும் ஃபிட் முன் செயலாக்கம் ( ஃபிட் / ஃபிட்_டிரான்ஸ்ஃபார்ம் ரயிலில் தங்குகிறது) [2]

  • முன் செயலாக்க கலைப்பொருட்களைச் சேமிக்கவும், இதனால் அனுமானம் அவற்றை மீண்டும் பயன்படுத்தலாம் [2]

பயிற்சியின் போது

  • பொருத்தமான இடங்களில் மட்டும் சீரற்ற பெருக்கத்தைப் பயன்படுத்துங்கள் (பொதுவாக பயிற்சிப் பிரிப்பு மட்டும்) [4]

  • மதிப்பீட்டு முன் செயலாக்கத்தை தீர்மானகரமானதாக வைத்திருங்கள் [4]

  • மாதிரி மாற்றங்கள் போன்ற முன் செயலாக்க மாற்றங்களைக் கண்காணிக்கவும் (ஏனென்றால் அவை)

பயன்படுத்துவதற்கு முன்

  • அனுமானம் ஒரே மாதிரியான முன் செயலாக்க பாதை மற்றும் கலைப்பொருட்களைப் பயன்படுத்துவதை உறுதிசெய்யவும் [2]

  • சறுக்கல்/வளைவு கண்காணிப்பை அமைக்கவும் (அடிப்படை அம்ச விநியோக சோதனைகள் கூட நீண்ட தூரம் செல்லும்) [5]


ஆழமான ஆய்வு: பொதுவான முன் செயலாக்க தவறுகள் (மற்றும் அவற்றை எவ்வாறு தவிர்ப்பது) 🧯

தவறு 1: “நான் எல்லாவற்றையும் சீக்கிரம் இயல்பாக்குவேன்” 😵

முழு தரவுத்தொகுப்பிலும் அளவிடுதல் அளவுருக்களைக் கணக்கிட்டால், நீங்கள் மதிப்பீட்டுத் தகவலைக் கசியவிடுகிறீர்கள். ரயிலில் பொருத்தவும், மீதமுள்ளவற்றை மாற்றவும். [2]

தவறு 2: குழப்பத்தில் மூழ்கும் பிரிவுகள் 🧩

உங்கள் வகை மேப்பிங் பயிற்சிக்கும் அனுமானத்திற்கும் இடையில் மாறினால், உங்கள் மாதிரி உலகை அமைதியாக தவறாகப் படிக்கக்கூடும். சேமிக்கப்பட்ட கலைப்பொருட்கள் மூலம் மேப்பிங்கை சரிசெய்து வைத்திருங்கள். [2]

தவறு 3: மதிப்பீட்டில் சீரற்ற அதிகரிப்பு பதுங்கிச் செல்வது 🎲

பயிற்சியில் சீரற்ற மாற்றங்கள் அற்புதமானவை, ஆனால் நீங்கள் செயல்திறனை அளவிட முயற்சிக்கும்போது அவை "ரகசியமாக" இருக்கக்கூடாது. (ரேண்டம் என்றால் சீரற்றது என்று பொருள்.) [4]


இறுதி குறிப்புகள் 🧠✨

AI முன் செயலாக்கம் என்பது குழப்பமான யதார்த்தத்தை நிலையான மாதிரி உள்ளீடுகளாக மாற்றும் ஒழுக்கமான கலையாகும். இது சுத்தம் செய்தல், குறியாக்கம் செய்தல், அளவிடுதல், டோக்கனைசேஷன், பட மாற்றங்கள் மற்றும் மிக முக்கியமாக மீண்டும் மீண்டும் செய்யக்கூடிய குழாய்வழிகள் மற்றும் கலைப்பொருட்களை உள்ளடக்கியது.

  • முன் செயலாக்கத்தை வேண்டுமென்றே செய்யுங்கள், சாதாரணமாக அல்ல. [2]

  • முதலில் பிரித்தல், பயிற்சியின் போது மட்டுமே பொருத்தம் உருமாற்றம், கசிவைத் தவிர்க்கவும். [2]

  • நடைமுறைக்கு ஏற்ற முன் செயலாக்கத்தைப் பயன்படுத்தவும் (உரைக்கு டோக்கனைசர்கள், படங்களுக்கு உருமாற்றங்கள்). [3][4]

  • உங்கள் மாதிரி மெதுவாக முட்டாள்தனத்தில் மூழ்காமல் இருக்க உற்பத்தி சாய்வு/சறுக்கலைக் கண்காணிக்கவும். [5]

நீங்கள் எப்போதாவது சிக்கிக்கொண்டால், உங்களை நீங்களே கேட்டுக்கொள்ளுங்கள்:
“இந்த முன் செயலாக்கப் படியை நாளை நான் புத்தம் புதிய தரவில் இயக்கினால் இன்னும் அர்த்தமுள்ளதாக இருக்குமா?”
பதில் “ம்ம்… இருக்கலாம்?” என்றால், அதுதான் உங்கள் துப்பு 😬


அடிக்கடி கேட்கப்படும் கேள்விகள்

எளிமையான சொற்களில் AI முன் செயலாக்கம் என்றால் என்ன?

AI முன் செயலாக்கம் என்பது சத்தமில்லாத, உயர்-மாறுபாடு கொண்ட மூலத் தரவை ஒரு மாதிரி கற்றுக்கொள்ளக்கூடிய நிலையான உள்ளீடுகளாக மாற்றும் மீண்டும் மீண்டும் செய்யக்கூடிய படிகளின் தொகுப்பாகும். இதில் சுத்தம் செய்தல், சரிபார்த்தல், வகைகளை குறியாக்கம் செய்தல், எண் மதிப்புகளை அளவிடுதல், உரையை டோக்கனைஸ் செய்தல் மற்றும் பட உருமாற்றங்களைப் பயன்படுத்துதல் ஆகியவை அடங்கும். பயிற்சி மற்றும் உற்பத்தி அனுமானம் "ஒரே வகையான" உள்ளீட்டைக் காண்பதை உறுதி செய்வதே இதன் குறிக்கோள், இதனால் மாதிரி பின்னர் கணிக்க முடியாத நடத்தைக்குச் செல்லாது.

உற்பத்தியில் AI முன் செயலாக்கம் ஏன் மிகவும் முக்கியமானது?

மாதிரிகள் உள்ளீட்டு பிரதிநிதித்துவத்திற்கு உணர்திறன் கொண்டவை என்பதால் முன் செயலாக்கம் முக்கியமானது. பயிற்சித் தரவு உற்பத்தித் தரவை விட அளவிடப்பட்டாலோ, குறியாக்கப்பட்டாலோ, டோக்கனைஸ் செய்யப்பட்டாலோ அல்லது மாற்றப்பட்டாலோ, ஆஃப்லைனில் நன்றாகத் தெரிந்தாலும் ஆன்லைனில் அமைதியாகத் தோல்வியடையும் பயிற்சி/சேவை பொருந்தாத தோல்விகளைப் பெறலாம். வலுவான முன் செயலாக்க குழாய்களும் சத்தத்தைக் குறைக்கின்றன, கற்றல் நிலைத்தன்மையை மேம்படுத்துகின்றன, மேலும் மறு செய்கையை விரைவுபடுத்துகின்றன, ஏனெனில் நீங்கள் நோட்புக் ஸ்பாகெட்டியை சிக்கலில் இருந்து விடுவிப்பதில்லை.

முன் செயலாக்கத்தின் போது தரவு கசிவை எவ்வாறு தவிர்ப்பது?

ஒரு எளிய விதி செயல்படுகிறது: பொருத்தப் படி உள்ள எதுவும் பயிற்சித் தரவில் மட்டுமே பொருந்த வேண்டும். அதில் வழிமுறைகள், வகை வரைபடங்கள் அல்லது சொற்களஞ்சியம் போன்ற அளவுருக்களைக் கற்றுக்கொள்ளும் அளவிடுபவர்கள், குறியாக்கிகள் மற்றும் டோக்கனைசர்கள் அடங்கும். நீங்கள் முதலில் பிரித்து, பயிற்சிப் பிரிவைப் பொருத்தி, பின்னர் பொருத்தப்பட்ட மின்மாற்றியைப் பயன்படுத்தி சரிபார்ப்பு/சோதனையை மாற்றுவீர்கள். கசிவு சரிபார்ப்பை "மாயாஜாலமாக" நன்றாகக் காட்டும், பின்னர் உற்பத்தி பயன்பாட்டில் சரிந்துவிடும்.

அட்டவணை தரவுகளுக்கான மிகவும் பொதுவான முன் செயலாக்க படிகள் யாவை?

அட்டவணைத் தரவுகளுக்கு, வழக்கமான பைப்லைனில் சுத்தம் செய்தல் மற்றும் சரிபார்த்தல் (வகைகள், வரம்புகள், விடுபட்ட மதிப்புகள்), வகைப்படுத்தல் குறியாக்கம் (ஒரு-சூடான அல்லது வரிசைமுறை), மற்றும் எண் அளவிடுதல் (தரப்படுத்தல் அல்லது குறைந்தபட்ச-அதிகபட்சம்) ஆகியவை அடங்கும். பல பைப்லைன்கள் விகிதங்கள், உருளும் சாளரங்கள் அல்லது எண்ணிக்கைகள் போன்ற டொமைன்-இயக்கப்படும் அம்ச பொறியியலைச் சேர்க்கின்றன. உங்கள் உருமாற்றங்கள் சீராக இருக்க, நெடுவரிசைக் குழுக்களை வெளிப்படையாக வரையறுப்பது ஒரு நடைமுறை பழக்கமாகும் (எண் vs வகைப்படுத்தல் vs அடையாளங்காட்டிகள்).

உரை மாதிரிகளுக்கு முன் செயலாக்கம் எவ்வாறு செயல்படுகிறது?

உரை முன் செயலாக்கம் என்பது பொதுவாக டோக்கன்களை/துணைச் சொற்களாக டோக்கனைசேஷன் செய்தல், அவற்றை உள்ளீட்டு ஐடிகளாக மாற்றுதல் மற்றும் தொகுப்பிற்காக பேடிங்/துண்டிப்பைக் கையாளுதல் ஆகியவற்றைக் குறிக்கிறது. பல மின்மாற்றி பணிப்பாய்வுகள் ஐடிகளுடன் ஒரு கவன முகமூடியையும் உருவாக்குகின்றன. டோக்கனைசர் அமைப்புகளில் சிறிய வேறுபாடுகள் "இது பயிற்சியளிக்கிறது ஆனால் அது கணிக்க முடியாதபடி செயல்படுகிறது" விளைவுகளுக்கு வழிவகுக்கும் என்பதால், மாதிரியின் எதிர்பார்க்கப்படும் டோக்கனைசர் உள்ளமைவைப் பயன்படுத்துவது ஒரு பொதுவான அணுகுமுறையாகும்.

இயந்திர கற்றலுக்காக படங்களை முன் செயலாக்குவதில் என்ன வித்தியாசம்?

பட முன் செயலாக்கம் பொதுவாக நிலையான வடிவங்கள் மற்றும் பிக்சல் கையாளுதலை உறுதி செய்கிறது: மறுஅளவிடுதல்/பயிர் செய்தல், இயல்பாக்கம் மற்றும் நிர்ணயிக்கப்பட்ட மற்றும் சீரற்ற உருமாற்றங்களுக்கு இடையே தெளிவான பிளவு. மதிப்பீட்டிற்கு, உருமாற்றங்கள் நிர்ணயிக்கப்பட்டதாக இருக்க வேண்டும், எனவே அளவீடுகள் ஒப்பிடத்தக்கவை. பயிற்சிக்கு, சீரற்ற பெருக்குதல் (சீரற்ற பயிர்கள் போன்றவை) வலிமையை மேம்படுத்தலாம், ஆனால் சீரற்ற தன்மை வேண்டுமென்றே பயிற்சிப் பிரிவிற்கு ஸ்கோப் செய்யப்பட வேண்டும், மதிப்பீட்டின் போது தற்செயலாக விடப்படக்கூடாது.

முன் செயலாக்க குழாய்வழியை உடையக்கூடியதாக இருப்பதற்குப் பதிலாக "நல்லதாக" மாற்றுவது எது?

ஒரு நல்ல AI முன் செயலாக்க குழாய் மீண்டும் உருவாக்கக்கூடியது, கசிவு-பாதுகாப்பானது மற்றும் கவனிக்கத்தக்கது. மீண்டும் உருவாக்கக்கூடியது என்றால் சீரற்ற தன்மை வேண்டுமென்றே பெருக்குதல் என்றால் தவிர அதே உள்ளீடு அதே வெளியீட்டை உருவாக்குகிறது. கசிவு-பாதுகாப்பானது என்றால் பொருத்தப்பட்ட படிகள் சரிபார்ப்பு/சோதனையைத் தொடாது. கவனிக்கக்கூடியது என்றால் நீங்கள் காணாமல் போதல், வகை எண்ணிக்கைகள் மற்றும் அம்ச விநியோகங்கள் போன்ற புள்ளிவிவரங்களை ஆய்வு செய்யலாம், எனவே பிழைத்திருத்தம் என்பது உள்ளுணர்வு அல்ல, ஆதாரங்களை அடிப்படையாகக் கொண்டது. குழாய்வழிகள் ஒவ்வொரு முறையும் தற்காலிக நோட்புக் வரிசைகளை வெல்லும்.

பயிற்சி மற்றும் அனுமான முன் செயலாக்கத்தை எவ்வாறு சீராக வைத்திருப்பது?

கற்றுக்கொண்ட அதே கலைப்பொருட்களை அனுமான நேரத்தில் மீண்டும் பயன்படுத்துவதே முக்கியமாகும்: அளவிடும் அளவுருக்கள், குறியாக்கி மேப்பிங் மற்றும் டோக்கனைசர் கட்டமைப்புகள். உற்பத்தித் தரவு அமைதியாக செல்லாத வடிவங்களுக்குள் செல்லாமல் இருக்க, உங்களுக்கு உள்ளீட்டு ஒப்பந்தமும் (எதிர்பார்க்கப்படும் நெடுவரிசைகள், வகைகள் மற்றும் வரம்புகள்) தேவை. நிலைத்தன்மை என்பது வெறும் "ஒரே படிகளைச் செய்" அல்ல - அது "ஒரே பொருத்தப்பட்ட அளவுருக்கள் மற்றும் மேப்பிங்குடன் அதே படிகளைச் செய்"

காலப்போக்கில் சறுக்கல் மற்றும் சாய்வு போன்ற முன் செயலாக்க சிக்கல்களை நான் எவ்வாறு கண்காணிப்பது?

ஒரு திடமான குழாய்வழி இருந்தாலும், உற்பத்தித் தரவு மாறுகிறது. அம்ச விநியோக மாற்றங்களைக் கண்காணித்து, பயிற்சி-சேவை வளைவு (உற்பத்தி பயிற்சியிலிருந்து விலகுகிறது) மற்றும் அனுமான சறுக்கல் (காலப்போக்கில் உற்பத்தி மாற்றங்கள்) குறித்து எச்சரிக்கை செய்வது ஒரு பொதுவான அணுகுமுறையாகும். கண்காணிப்பு இலகுவானதாக (அடிப்படை விநியோகச் சரிபார்ப்புகள்) அல்லது நிர்வகிக்கப்படலாம் (வெர்டெக்ஸ் AI மாதிரி கண்காணிப்பு போன்றவை). உள்ளீட்டு மாற்றங்களை முன்கூட்டியே பிடிப்பதே குறிக்கோள் - அவை மாதிரி செயல்திறனை மெதுவாக அரிப்பதற்கு முன்பு.

குறிப்புகள்

[1] scikit-learn API:
sklearn.preprocessing (குறியாக்கிகள், அளவிடுபவர்கள், இயல்பாக்கம்) [2] scikit-learn: பொதுவான சிக்கல்கள் - தரவு கசிவு மற்றும் அதை எவ்வாறு தவிர்ப்பது
[3] முகத்தை அணைத்துக்கொள்வது மின்மாற்றிகள் ஆவணங்கள்: டோக்கனைசர்கள் (உள்ளீட்டு ஐடிகள், கவன முகமூடிகள்)
[4] PyTorch Torchvision ஆவணங்கள்: உருமாற்றங்கள் (மறுஅளவிடுதல்/இயல்பாக்கு + சீரற்ற உருமாற்றங்கள்)
[5] கூகிள் கிளவுட் வெர்டெக்ஸ் AI ஆவணங்கள்: மாதிரி கண்காணிப்பு கண்ணோட்டம் (அம்சம் சாய்வு & சறுக்கல்)

அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு