AI எங்கிருந்து தகவல்களைப் பெறுகிறது?

AI தனது தகவல்களை எங்கிருந்து பெறுகிறது?

எப்போதாவது தலையை சொறிந்து உட்கார்ந்து, இப்படி... இதெல்லாம் எங்கிருந்து வருகிறது ? அதாவது, AI தூசி நிறைந்த நூலக அடுக்குகளில் ரைஃபிள் செய்வதோ அல்லது யூடியூப் குறும்படங்களை அதிகமாகப் பார்ப்பதோ இல்லை. ஆனாலும், எப்படியோ அது லாசக்னா ஹேக்குகள் முதல் கருந்துளை இயற்பியல் வரை அனைத்திற்கும் பதில்களைத் தருகிறது - அதற்குள் ஒரு அடித்தளமற்ற கோப்புறை இருப்பது போல. யதார்த்தம் விசித்திரமானது, மேலும் நீங்கள் யூகிப்பதை விட மிகவும் சுவாரஸ்யமானது. அதை கொஞ்சம் அவிழ்ப்போம் (ஆமாம், வழியில் ஒரு சில கட்டுக்கதைகளை உடைக்கலாம்).


இது சூனியமா? 🌐

இது சூனியம் அல்ல, சில சமயங்களில் அப்படித்தான் தோன்றுகிறது. மறைமுகமாக நடப்பது அடிப்படையில் மாதிரி கணிப்பு . பெரிய மொழி மாதிரிகள் (LLMகள்) உண்மைகளைச் ; அதற்குப் பதிலாக, முன்பு வந்தவற்றின் அடிப்படையில் அடுத்த வார்த்தையை (டோக்கன்) யூகிக்க அவை பயிற்சி பெற்றுள்ளன [2]. நடைமுறையில், அதாவது அவை உறவுகளில் ஒட்டிக்கொள்கின்றன: எந்த வார்த்தைகள் ஒன்றாகத் தொங்குகின்றன, வாக்கியங்கள் பொதுவாக எவ்வாறு வடிவம் பெறுகின்றன, முழு யோசனைகளும் எவ்வாறு சாரக்கட்டு போல கட்டமைக்கப்படுகின்றன. அதனால்தான் வெளியீடு தெரிகிறது , இருப்பினும் - முழு நேர்மை - இது புள்ளிவிவர மிமிக்ரி, புரிதல் அல்ல [4].

எனவே AI-உருவாக்கிய தகவல்களை உண்மையில் பயனுள்ளதாக்குவது ? ஒரு சில விஷயங்கள்:

  • தரவு பன்முகத்தன்மை - ஒரு குறுகிய நீரோட்டத்திலிருந்து அல்ல, எண்ணற்ற மூலங்களிலிருந்து பெறுதல்.

  • புதுப்பிப்புகள் - புதுப்பிப்பு சுழற்சிகள் இல்லாமல், அது விரைவாக பழையதாகிவிடும்.

  • வடிகட்டுதல் - குப்பைகள் உள்ளே ஊடுருவுவதற்கு முன்பே அவற்றைப் பிடிப்பது சிறந்தது (ஆனால், உண்மையாக இருக்கட்டும், அந்த வலையில் துளைகள் உள்ளன).

  • குறுக்கு சரிபார்ப்பு - அதிகார ஆதாரங்களை (நாசா, WHO, முக்கிய பல்கலைக்கழகங்கள் போன்றவை) சார்ந்து இருப்பது, இது பெரும்பாலான AI ஆளுமை விளையாட்டு புத்தகங்களில் அவசியம் இருக்க வேண்டும் [3].

மாயத்தோற்றங்கள் என்று அழைக்கப்படுபவை ? அடிப்படையில் மெருகூட்டப்பட்ட முட்டாள்தனம் நேரான முகத்துடன் வழங்கப்படுகிறது [2][3].

இதற்குப் பிறகு நீங்கள் படிக்க விரும்பக்கூடிய கட்டுரைகள்:

🔗 லாட்டரி எண்களை AI கணிக்க முடியுமா?
AI லாட்டரி கணிப்புகள் பற்றிய கட்டுக்கதைகள் மற்றும் உண்மைகளை ஆராய்தல்.

🔗 AI-க்கு ஒரு முழுமையான அணுகுமுறையை எடுப்பது என்றால் என்ன?
நெறிமுறைகள் மற்றும் தாக்கம் குறித்த சமநிலையான கண்ணோட்டங்களுடன் AI ஐப் புரிந்துகொள்வது.

🔗 செயற்கை நுண்ணறிவு பற்றி பைபிள் என்ன சொல்கிறது?
தொழில்நுட்பம் மற்றும் மனித படைப்பு பற்றிய வேதாகமக் கண்ணோட்டங்களை ஆராய்தல்.


விரைவான ஒப்பீடு: AI எங்கிருந்து வருகிறது 📊

எல்லா மூலங்களும் சமமானவை அல்ல, ஆனால் ஒவ்வொன்றும் அதன் பங்கை வகிக்கின்றன. இதோ ஒரு ஸ்னாப்ஷாட் காட்சி.

மூல வகை யார் இதைப் பயன்படுத்துகிறார்கள் (AI) செலவு/மதிப்பு இது ஏன் வேலை செய்கிறது (அல்லது வேலை செய்யவில்லை...)
புத்தகங்கள் & கட்டுரைகள் பெரிய மொழி மாதிரிகள் விலைமதிப்பற்றது (ஈஷ்) அடர்த்தியான, கட்டமைக்கப்பட்ட அறிவு - விரைவாக வயதாகிறது.
வலைத்தளங்கள் & வலைப்பதிவுகள் கிட்டத்தட்ட எல்லா AI-களும் இலவசம் (சத்தத்துடன்) காட்டு வகை; புத்திசாலித்தனமும் முழுமையான குப்பையும் கலந்தது.
கல்வி ஆய்வுக் கட்டுரைகள் ஆராய்ச்சி மிகுந்த AIகள் சில நேரங்களில் கட்டணச் சுவர் பொருத்தப்பட்டிருக்கும் கடுமை + நம்பகத்தன்மை, ஆனால் கனமான வார்த்தை ஜாலங்களால் சூழப்பட்டுள்ளது.
பயனர் தரவு தனிப்பயனாக்கப்பட்ட AIகள் அதிக உணர்திறன் ⚠️ கூர்மையான தையல் வேலை, ஆனால் தனியுரிமை தலைவலிகள் ஏராளம்.
நிகழ்நேர வலை தேடல்-இணைக்கப்பட்ட AIகள் இலவசம் (ஆன்லைனில் இருந்தால்) தகவல்களைப் புதியதாக வைத்திருக்கிறது; பாதகமானது வதந்திகளைப் பரப்பும் ஆபத்து.

பயிற்சி தரவு பிரபஞ்சம் 🌌

இது "குழந்தைப் பருவக் கற்றல்" கட்டம். ஒரு குழந்தைக்கு மில்லியன் கணக்கான கதைப் புத்தகங்கள், செய்தித் துணுக்குகள் மற்றும் விக்கிபீடியா முயல் துளைகள் அனைத்தையும் ஒரே நேரத்தில் வழங்குவதை கற்பனை செய்து பாருங்கள். முன் பயிற்சி அப்படித்தான் இருக்கும். நிஜ உலகில், வழங்குநர்கள் பொதுவில் கிடைக்கும் தரவு, உரிமம் பெற்ற ஆதாரங்கள் மற்றும் பயிற்சியாளர் உருவாக்கிய உரையை [2].

மேலே அடுக்காக: ஒழுங்கமைக்கப்பட்ட மனித உதாரணங்கள் - நல்ல பதில்கள், மோசமான பதில்கள், சரியான திசையில் தள்ளுதல் - வலுவூட்டல் தொடங்குவதற்கு முன்பே [1].

வெளிப்படைத்தன்மை எச்சரிக்கை: நிறுவனங்கள் ஒவ்வொரு விவரத்தையும் வெளியிடுவதில்லை. சில பாதுகாப்புத் தடுப்புகள் ரகசியமானவை (IP, பாதுகாப்பு கவலைகள்), எனவே உண்மையான கலவையில் ஒரு பகுதி சாளரத்தை மட்டுமே நீங்கள் பெறுவீர்கள் [2].


நிகழ்நேர தேடல்: கூடுதல் டாப்பிங் 🍒

சில மாடல்கள் இப்போது தங்கள் பயிற்சி குமிழிக்கு வெளியே எட்டிப்பார்க்கலாம். அது மீட்டெடுப்பு-வளர்ச்சி பெற்ற தலைமுறை (RAG) - அடிப்படையில் ஒரு நேரடி குறியீட்டு அல்லது ஆவணக் கடையிலிருந்து துண்டுகளை இழுத்து, பின்னர் அதை பதிலில் பின்னுவது [5]. செய்தி தலைப்புச் செய்திகள் அல்லது பங்கு விலைகள் போன்ற வேகமாக மாறிவரும் விஷயங்களுக்கு ஏற்றது.

குழப்பமா? இணையம் என்பது மேதைமைக்கும் குப்பைத் தொட்டிக்கும் சமமான பங்கு. வடிகட்டிகள் அல்லது மூல சோதனைகள் பலவீனமாக இருந்தால், குப்பைத் தரவு மீண்டும் உள்ளே பதுங்கிச் செல்லும் அபாயம் உள்ளது - ஆபத்து கட்டமைப்புகள் எச்சரிக்கின்றன [3].

அவற்றின் சொந்த இணைக்கின்றன , எனவே பதில்கள் தற்போதைய மனிதவளக் கொள்கை அல்லது புதுப்பிக்கப்பட்ட தயாரிப்பு ஆவணத்தை மேற்கோள் காட்டுவதற்குப் பதிலாக மேற்கோள் காட்டுகின்றன. சிந்தியுங்கள்: குறைவான "ஓ-ஓ" தருணங்கள், அதிக நம்பகமான பதில்கள்.


நன்றாகச் சரிசெய்தல்: AI இன் மெருகூட்டல் படி 🧪

முன் பயிற்சி பெற்ற மாதிரிகள் மிகவும் சிக்கலானவை. எனவே அவை நன்றாகச் சரிசெய்யப்படுகின்றன :

  • உதவிகரமாகவும், தீங்கற்றதாகவும், நேர்மையாகவும் இருக்கக் கற்றுக் கொடுத்தல் (மனித பின்னூட்டங்களிலிருந்து வலுவூட்டல் கற்றல் மூலம், RLHF) [1].

  • பாதுகாப்பற்ற அல்லது நச்சுத்தன்மையுள்ள விளிம்புகளை மணல் அள்ளுதல் (சீரமைப்பு) [1].

  • நட்பானதாகவோ, சம்பிரதாயமாகவோ அல்லது விளையாட்டுத்தனமான கிண்டலாகவோ இருந்தாலும் சரி, தொனிக்கு ஏற்ப சரிசெய்தல்.

இது ஒரு வைரத்தை மெருகூட்டுவது அல்ல, புள்ளிவிவர ரீதியாக ஒரு பனிச்சரிவை ஒரு உரையாடல் கூட்டாளியைப் போல நடந்து கொள்வதில் இணைப்பதாகும்.


தடைகளும் தோல்விகளும் 🚧

அது குறைபாடற்றது என்று பாசாங்கு செய்ய வேண்டாம்:

  • மாயத்தோற்றங்கள் - முற்றிலும் தவறான தெளிவான பதில்கள் [2][3].

  • சார்பு - இது தரவுகளில் பேக் செய்யப்பட்ட வடிவங்களை பிரதிபலிக்கிறது; தேர்வு செய்யாவிட்டால் அவற்றைப் பெருக்கக்கூடும் [3][4].

  • நேரடி அனுபவம் இல்லை - இது சூப் ரெசிபிகளைப் பற்றிப் பேசலாம்

  • அதீத தன்னம்பிக்கை - உரைநடை தனக்குத் தெரிந்தது போலவே பாய்கிறது, அது தெரியாதபோதும் கூட. ஆபத்து கட்டமைப்புகள் பலவீனமான அனுமானங்களை வலியுறுத்துகின்றன [3].


ஏன் இருக்கிறது 🧠

அதற்கு நம்பிக்கைகள் இல்லை, மனித உணர்வில் நினைவாற்றல் இல்லை, நிச்சயமாக சுயமும் இல்லை. ஆனாலும் அது வாக்கியங்களை சீராக ஒன்றாக இணைப்பதால், உங்கள் மூளை அதைப் புரிந்துகொள்வது . நடப்பது மிகப்பெரிய அளவிலான அடுத்த டோக்கன் கணிப்பு : பிளவு-வினாடிகளில் டிரில்லியன் கணக்கான நிகழ்தகவுகளை நசுக்குவது [2].

"புலனாய்வு" அதிர்வு என்பது வெளிப்படும் நடத்தை - ஆராய்ச்சியாளர்கள் இதை, சற்று விசித்திரமான, "ஸ்டோகாஸ்டிக் கிளி" விளைவு என்று அழைக்கிறார்கள் [4].


குழந்தைகளுக்கு ஏற்ற ஒப்புமை 🎨

நூலகத்தில் உள்ள ஒவ்வொரு புத்தகத்தையும் படித்த ஒரு கிளியை கற்பனை செய்து பாருங்கள். அது புரிந்து , ஆனால் வார்த்தைகளை புத்திசாலித்தனமாக உணரும் ஒன்றாக மீண்டும் கலக்கும். சில நேரங்களில் அது சரியானது; சில நேரங்களில் அது முட்டாள்தனமானது - ஆனால் போதுமான திறமையுடன், நீங்கள் எப்போதும் வித்தியாசத்தை சொல்ல முடியாது.


சுருக்கமாக: AI இன் தகவல் எங்கிருந்து வருகிறது 📌

எளிமையான சொற்களில்:

  • மிகப்பெரிய பயிற்சி தரவு (பொது + உரிமம் பெற்ற + பயிற்சியாளர் உருவாக்கியது) [2].

  • தொனி/நடத்தையை வடிவமைக்க மனித பின்னூட்டங்களுடன் நன்றாகச் சரிசெய்தல்

  • நேரடி தரவு ஸ்ட்ரீம்களுடன் இணைக்கப்படும்போது மீட்டெடுக்கும் அமைப்புகள்

AI க்கு விஷயங்கள் "தெரியாது" - அது உரையை முன்னறிவிக்கிறது . அதுதான் அதன் வல்லமை மற்றும் அதன் அகில்லெஸின் குதிகால். சுருக்கமா? எப்போதும் நம்பகமான மூலத்துடன் [3] முக்கியமான விஷயங்களைச் சரிபார்க்கவும்.


குறிப்புகள்

  1. ஓயாங், எல். மற்றும் பலர். (2022). மனித கருத்துகளுடன் வழிமுறைகளைப் பின்பற்ற மொழி மாதிரிகளைப் பயிற்றுவித்தல் (InstructGPT) . arXiv .

  2. OpenAI (2023). GPT-4 தொழில்நுட்ப அறிக்கை - உரிமம் பெற்ற, பொது மற்றும் மனிதனால் உருவாக்கப்பட்ட தரவுகளின் கலவை; அடுத்த டோக்கன் கணிப்பு நோக்கம் மற்றும் வரம்புகள். arXiv .

  3. NIST (2023). AI இடர் மேலாண்மை கட்டமைப்பு (AI RMF 1.0) - தோற்றம், நம்பகத்தன்மை மற்றும் இடர் கட்டுப்பாடுகள். PDF .

  4. பெண்டர், இ.எம்., கெப்ரு, டி., மெக்மில்லன்-மேஜர், ஏ., மிட்செல், எஸ். (2021). சீரற்ற கிளிகளின் ஆபத்துகள் குறித்து: மொழி மாதிரிகள் மிகப் பெரியதாக இருக்க முடியுமா? PDF .

  5. லூயிஸ், பி. மற்றும் பலர். (2020). அறிவு-தீவிர NLPக்கான மீட்டெடுப்பு-வளர்ச்சியடைந்த தலைமுறை . arXiv .


அதிகாரப்பூர்வ AI உதவியாளர் கடையில் சமீபத்திய AI ஐக் கண்டறியவும்.

எங்களை பற்றி

வலைப்பதிவிற்குத் திரும்பு