AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

আপনি যখন কিছু একটা সার্চ করেন, ধরেন লিখলেন,

"ঢাকার সেরা কাচ্চি"

গুগল ঠিকঠাক বুঝে ফেলে আপনাকে রেস্টুরেন্টের লিস্ট দেখায়। কিংবা, আপনি ফেসবুকে কিছু একটা লিখছেন, আপনার মোবাইল কিবোর্ড পরের শব্দটি কী হবে তা আন্দাজ করে ফেলে।

সত্যি বলতে, কম্পিউটার তো আসলে আমাদের বাংলা বা ইংরেজি ভাষা বোঝে না।
কম্পিউটার বোঝে শুধু সংখ্যা শূন্য আর এক।
তাহলে এই বোকা যন্ত্রটা কীভাবে নজরুলের কবিতা বা আপনার আমার চ্যাটিং-এর ভাষা বোঝে?

এই পুরো বিষয়ের প্রথম ধাপ, এবং সম্ভবত সবচেয়ে গুরুত্বপূর্ণ ধাপটির নাম হলো "টোকেনাইজেশন" (Tokenization)।

টোকেনাইজেশন কী?

শব্দটা শুনে কঠিন মনে হলেও, কাজটা খুব সোজা।
টোকেনাইজেশন মানে হলো, একটা বড় বাক্যকে ছোট ছোট যৌক্তিক অংশে বা "টুকরোতে" ভাগ করা। এই প্রত্যেকটা টুকরোকে বলা হয় "টোকেন"।

ভাবছেন, এ আর এমন কী? একটা বাক্যকে শব্দে শব্দে আলাদা করা?

আসেন, একটা সহজ উদাহরণ দেখি।

বাক্য: "আমি ভাত খাই।"

একটা বাচ্চা ছেলেও এটাকে ভাগ করে ফেলবে:

টোকেন ১: "আমি"
টোকেন ২: "ভাত"
টোকেন ৩: "খাই"
টোকেন ৪: "।" (দাঁড়ি)

খুব সোজা। কম্পিউটার এই চারটি আলাদা টোকেন পেল। সে এই প্রতিটি টোকেনকে একটা একটা করে সংখ্যা দিয়ে চিনে রাখে।

যেমন, ধরা যাক তার ডিকশনারিতে:

"আমি" → ৫০
"ভাত" → ২০১
"খাই" → ৩৫০
"।" → ৪

সে বাক্যটাকে দেখবে এভাবে: [৫০, ২০১, ৩৫০, ৪]

ব্যাস! বাক্যটা সংখ্যায় বদলে গেলো। কম্পিউটারের বুঝতে সুবিধা হলো।

কিন্তু... জীবন এতো সহজ নয়।

এই সোজা কাজটা করতে গেলেই পদে পদে বিপদ।

বিপদ ১: যতিচিহ্ন

ধরুন বাক্যটা হলো "আমি ভাত খাই!"
এখন শেষ টোকেনটা কি "খাই!" নাকি "খাই" আর "!" আলাদা?

যদি "খাই!" কে একটা টোকেন ধরা হয়, তাহলে কম্পিউটারের ডিকশনারিতে "খাই" এবং "খাই!" দুটো আলাদা শব্দ হয়ে গেলো। অথচ দুটোর মানে তো একই। আবার যদি "!" কে আলাদা করা হয়, তাহলে কম্পিউটার বুঝবে যে এটা একটা আশ্চর্যবোধক বাক্য। টোকেনাইজেশন ঠিকঠাক না হলে, কম্পিউটার বাক্যের আবেগই ধরতে পারবে না।

বিপদ ২: ইংরেজি নাম বা জোড়া শব্দ

ধরুন আপনি লিখলেন "আমি নিউ ইয়র্ক যাবো।"

যদি স্পেস দেখে ভাগ করা হয়, তাহলে টোকেন হবে:

"আমি"
"নিউ"
"ইয়র্ক"
"যাবো"
"।"

এতে একটা মস্ত বড় ভুল হলো। "নিউ" আর "ইয়র্ক" আলাদা শব্দ নয়। এটা একটা জায়গার নাম "নিউ ইয়র্ক"। কম্পিউটার যদি "নিউ" কে 'নতুন' আর "ইয়র্ক" কে আলাদা কিছু ভাবে, তাহলে সে ভাববে "আমি নতুন ইয়র্ক যাবো", যার কোনো মানে হয় না।

সঠিক টোকেনাইজেশন হবে:

"আমি"
"নিউ ইয়র্ক"
"যাবো"
"।"

অর্থাৎ, সিস্টেমকে বুঝতে হবে যে "নিউ ইয়র্ক" একটা জিনিস।

বিপদ ৩: বাংলা যুক্তশব্দ (সবচেয়ে বড় বিপদ)

ভাষার আসল মজা শুরু হয় এখানে।
ধরুন একটা শব্দ: "প্রধানমন্ত্রীর" এটা কি একটা টোকেন? নাকি "প্রধান" আর "মন্ত্রীর" দুটো টোকেন?

যদি একটা টোকেন হয়, তাহলে ঠিক আছে।
কিন্তু যদি কম্পিউটার "প্রধানমন্ত্রী" শব্দটা আগে কখনো না দেখে? সে তো বুঝতেই পারবে না এর মানে কী।

আবার ধরুন, "চা-ওয়ালা" বা "টাউনহল"। এগুলো কীভাবে ভাঙবে?

বিপদ ৪: অসীম শব্দভাণ্ডার

পৃথিবীতে শব্দের সংখ্যা অসীম। প্রতিদিন নতুন শব্দ তৈরি হচ্ছে, "কোভিড১৯", "ইনস্টাগ্রামিং", "ট্রলড"। আবার বাংলা ভাষায় ক্রিয়াপদের হাজারটা রূপ:

"খেয়েছিলাম"
"খাচ্ছিলাম"
"খাবো"
"খেতে"
"খাইয়ে"।

একটা কম্পিউটারের ডিকশনারিতে কত কোটি শব্দ সেভ করে রাখা সম্ভব?

শত শত কোটি? তাও তো শেষ হবে না।

সমাধান: সাবওয়ার্ড টোকেনাইজেশন (Subword Tokenization)

এই সমস্যার সমাধানের জন্য বিজ্ঞানীরা এক দারুণ বুদ্ধি বের করলেন। একে বলা হয় "সাবওয়ার্ড টোকেনাইজেশন"।

ব্যাপারটা একটা লেগো (Lego) ব্লকের খেলার মতো।

ধরুন, আপনার কাছে মাত্র ৫০০ রকমের ব্লক আছে। কিন্তু এই ৫০০ ব্লক দিয়েই আপনি দুনিয়ার সব কিছু বানাতে পারেন। একটা গাড়ি বানাতেও যে ব্লক লাগে, একটা বাড়ি বানাতেও সেই একই ব্লক লাগে, শুধু জোড়া লাগানোর কৌশলটা ভিন্ন।

ভাষার লেগো ব্লক

ভাষার ক্ষেত্রেও এই বুদ্ধি খাটানো হলো।
ঠিক করা হলো, আমরা পুরো শব্দকে টোকেন বানাবো না আমরা শব্দের "ভেতরের অংশ" কে টোকেন বানাবো।

যেমন:

"খেয়েছিলাম" → "খেয়ে" + "ছিলাম"
"খাচ্ছিলাম" → "খা" + "চ্ছিলাম"
"অসম্ভব" → "অ" + "সম্ভব"

দেখুন মজাটা! "ছিলাম" বা "চ্ছিলাম" বা "অ" এগুলো নিজেরা কোনো শব্দ নয়, কিন্তু এগুলো বারবার অন্য শব্দের সাথে যুক্ত হয়।

কম্পিউটার যদি "খেয়ে" আর "ছিলাম" এর মানে আলাদা করে শিখে ফেলে, তাহলে সে "গিয়েছিলাম" (গিয়ে + ছিলাম) বা "দেখেছিলাম" (দেখে + ছিলাম) শব্দগুলোও সহজে চিনে ফেলবে এমনকি যদি সে শব্দগুলো আগে কখনো নাও দেখে থাকে।

এই সাবওয়ার্ড বা "শব্দাংশ" গুলোই হলো আসল লেগো ব্লক।

আধুনিক সিস্টেমে টোকেনাইজেশন

আধুনিক সিস্টেমগুলো (যেমন GPT বা Google Translate) এভাবেই কাজ করে।
তারা আপনার বাক্যকে শব্দে নয়, শব্দাংশে ভাঙে।

ধরুন, একটা নতুন শব্দ আসলো "সুপারম্যান"।
সিস্টেম দেখলো, সে "সুপারম্যান" চেনে না।
কিন্তু সে "সুপার" চেনে, আর "ম্যান" চেনে।
সে ওটাকে ভেঙে ফেলবে: "সুপার" + "ম্যান"।
ব্যস, সে অর্থ আন্দাজ করে ফেললো।

বাংলায় "রাষ্ট্রপতি" শব্দটা সে হয়তো ভাঙবে "রাষ্ট্র" + "পতি" হিসেবে।
তখন সে "সেনাপতি" (সেনা + পতি) বা "দলপতি" (দল + পতি) দেখলেও ঘাবড়াবে না,
কারণ "পতি" ব্লকটা তার চেনা।

সুতরাং, টোকেনাইজেশন শুধু স্পেস দেখে শব্দ আলাদা করা নয়। এটা হলো একটা ভাষাকে তার মূল লেগো ব্লকগুলোতে ভেঙে ফেলার শিল্প।

এই ভাঙার কাজটা যত নিখুঁত হবে, কম্পিউটার তত ভালোভাবে আপনার ভাষা বুঝবে।

যদি ভাঙাটা ভুল হয়, তাহলে "নিউ ইয়র্ক" হয়ে যাবে "নতুন ইয়র্ক"। আর তখন গুগল আপনাকে "সেরা কাচ্চি" এর বদলে হয়তো "কাঁচা মরিচ" এর ছবি দেখাবে।

পরের বার যখন দেখবেন কোনো AI আপনার সাথে মানুষের মতো কথা বলছে, তখন মনে রাখবেন, এর সবকিছুর পেছনে প্রথম ধাপে রয়েছে এই নিরীহদর্শন "টোকেনাইজেশন" অর্থাৎ, শব্দ ভাঙার খেলা।

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

Table of Contents

টোকেনাইজেশন কী?

কিন্তু... জীবন এতো সহজ নয়।

বিপদ ১: যতিচিহ্ন

বিপদ ২: ইংরেজি নাম বা জোড়া শব্দ

বিপদ ৩: বাংলা যুক্তশব্দ (সবচেয়ে বড় বিপদ)

বিপদ ৪: অসীম শব্দভাণ্ডার

সমাধান: সাবওয়ার্ড টোকেনাইজেশন (Subword Tokenization)

ভাষার লেগো ব্লক

আধুনিক সিস্টেমে টোকেনাইজেশন

Share this article

Written by Sakhawat Adib

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?

আদালতে AI? Paper in NAACL 2025 Explains