আজকে খুবই মজার একটা বিষয় নিয়ে পড়লাম৷ গবেষণাপত্রটা ২০২৪ সালে EMNLP অর্থাৎ Natural Language Processing এর অন্যতম সবচেয়ে প্রসিদ্ধ সম্মেলনে সেরা পুরষ্কার পেয়েছে। ছবিও কি অনুবাদ করা যায়? ছবির বর্ণনার কথা বলছি না। আসেন দেখি,
আমরা যখন কোনো বিদেশি সিনেমা দেখি বা বই পড়ি, তখন তার অনুবাদ আমাদের খুব সাহায্য করে। কিন্তু শুধু কি শব্দ অনুবাদ করলেই কাজ শেষ?
একটু ভেবে দেখেন, জাপানি কার্টুন ডোরেমন যখন আমেরিকায় দেখানো হলো, তখন ওরা ডোরেমনের চপস্টিক দিয়ে খাওয়ার দৃশ্য বদলে কাঁটা চামচ করে দিয়েছিল। কেন? কারণ আমেরিকার বাচ্চারা চপস্টিকের সাথে পরিচিত নয়। আবার পিক্সারের সিনেমা Inside Out এ আমেরিকার বাচ্চাদের ব্রকলি খেতে দেয়া হয়, কারণ তারা ওটা পছন্দ করে না। কিন্তু জাপানে ব্রকলি অতটা অপছন্দের সবজি নয়, তাই সেখানে ব্রকলি বদলে বেল পেপার দেখানো হয়েছিল।

এই যে শুধু শব্দ নয়, বরং ছবি, রীতিনীতি, এমনকি খাবারও একটা দেশের মানুষের রুচি অনুযায়ী বদলে ফেলা, একে বলে ট্রান্সক্রিয়েশন বা সাংস্কৃতিক রূপান্তর। এতদিন এই কঠিন কাজটা মানুষরাই করতো।
কিন্তু সম্প্রতি কিছু গবেষক ভাবলেন, আচ্ছা, কৃত্রিম বুদ্ধিমত্তা বা এআই কি এই কাজটা করতে পারে? তারা কি একটা ছবিকে এক সংস্কৃতি থেকে আরেক সংস্কৃতিতে ‘অনুবাদ’ করতে পারবে?
এই প্রথমবার এমন একটা চ্যালেঞ্জিং বিষয় নিয়ে গবেষণা করা হলো। আর এর ফলাফলও খুব মজার।
গবেষকরা প্রথমে বোঝার চেষ্টা করলেন এআই কে ঠিক কীভাবে নির্দেশ দিলে কাজটা হতে পারে। তারা মোট তিনটা আলাদা পদ্ধতি বা পাইপলাইন তৈরি করলেন।

-
প্রথম পদ্ধতি: তারা এআই কে একটা ছবি দিলেন (যেমন, নাইজেরিয়ার একটা স্থানীয় খাবারের ছবি) আর সরাসরি বললেন, "এই ছবিটাকে আমেরিকার সংস্কৃতির মতো করে বদলে দাও।"
-
দ্বিতীয় পদ্ধতি: এখানে কয়েকটা ধাপ ছিল।
- ধাপ এক: প্রথমে এআই কে মূল ছবিটা দেখিয়ে একটা ক্যাপশন লিখতে বলা হলো। যেমন, "একটা প্লেটে মাংস আর সবুজ শাক দিয়ে রান্না করা খাবার।"
- ধাপ দুই: এরপর আরেকটা এআই (বিশেষ করে GPT 3.5 এর মতো) কে বলা হলো এই ক্যাপশনটাকে টার্গেট দেশের সংস্কৃতি অনুযায়ী ‘অনুবাদ’ করতে। যেমন, আমেরিকার জন্য ক্যাপশনটা বদলে হলো, "একটা ডিশে গরুর মাংস আর সবজি আছে।"
- ধাপ তিন: শেষে, মূল ছবিটা আর এই নতুন আমেরিকান ক্যাপশনটা আরেকটা এআই কে দিয়ে বলা হলো, ছবিটাকে নতুন ক্যাপশনের মতো করে এডিট করে দাও।
-
তৃতীয় পদ্ধতি: আগের দুই ধাপ এক থাকলেও শেষটা ভিন্ন।
- ধাপ এক আর দুই আগের মতোই: ছবি দেখে ক্যাপশন বানানো, তারপর সেই ক্যাপশন অনুবাদ করা।
- ধাপ তিন: এবার ছবি এডিট না করে, এআই কে বলা হলো, এই নতুন ক্যাপশন (যেমন, "গরুর মাংস আর সবজি") দিয়ে ইন্টারনেট থেকে ওই দেশের একটা আসল ছবি খুঁজে বের করো।
এখন প্রশ্ন হলো, এই তিনটা পদ্ধতির কোনটা কাজ করলো?
এটা পরীক্ষা করার জন্যও গবেষকদের নতুন করে ভাবতে হয়েছে। কারণ আগে তো কেউ এই কাজ করেনি, তাই এটা মাপার কোনো ডেটাসেট বা পদ্ধতিও ছিল না।
তারা নিজেরাই দুটো নতুন ডেটাসেট বানালেন।
- Concept dataset: ব্রাজিল, ভারত, জাপান, নাইজেরিয়া সহ ৭টা দেশের খাবার, ফুল, পাখির মতো সহজ বিষয়ের ৬০০টা ছবি।
- Application dataset: বাচ্চাদের গল্পের বই বা গণিত শেখার ওয়ার্কশিটের মতো বাস্তব জগতের ১০০টা ছবি।
এরপর তারা ওই ৭টা দেশ থেকে সত্যিকারের মানুষদের ভাড়া করলেন। তাদের কাজ ছিল এআই এর বানানো ‘অনুবাদিত’ ছবিগুলো দেখে রেটিং দেয়া।
এই নতুন ছবিটা কি আসলেই আপনার দেশের সংস্কৃতির মতো দেখতে? এটা কি স্বাভাবিক দেখাচ্ছে? নাকি বিদঘুটে?
ফলাফল?
এক কথায় বলতে গেলে, এআই এই পরীক্ষায় শোচনীয়ভাবে ফেল করেছে।
- প্রথম পদ্ধতি: ভয়ানক খারাপ। এআই ‘সাংস্কৃতিক’ মানে কী তা বুঝতেই পারেনি। গবেষকরা দেখলেন, যখনই কোনো ছবিকে "আমেরিকান" করতে বলা হয়েছে, এআই সেই ছবির ওপর আমেরিকার পতাকার লাল, সাদা, নীল রঙ মাখিয়ে দিয়েছে। একটা বার্গারের ছবিকে আমেরিকান করতে গিয়ে বার্গারটাকেই লাল নীল করে ফেলেছে।
- দ্বিতীয় পদ্ধতি: ছবিগুলোকে এমনভাবে বদলেছে যে সেগুলো খুব অবাস্তব আর আনন্যাচারাল দেখাচ্ছিল। মূল ছবির কাঠামো ঠিক রাখতে গিয়ে ছবিটা অদ্ভুত হয়ে গেছে।
- তৃতীয় পদ্ধতি: কিছুটা ভালো কাজ করেছে, কারণ ওগুলো আসল ছবি ছিল। কিন্তু বেশিরভাগ সময়ই এআই এমন সব ছবি খুঁজে এনেছে যা মূল বিষয়ের সাথে একেবারেই বেমানান বা অপ্রাসঙ্গিক।

গবেষকরা বলছেন, সবচেয়ে ভালো পদ্ধতিটাও নাইজেরিয়ার মতো দেশের জন্য মাত্র ৫% ছবি ঠিকঠাকভাবে সাংস্কৃতিক অনুবাদ করতে পেরেছে।
আর বাচ্চাদের গল্পের বই বা ওয়ার্কশিটের মতো কঠিন ছবির ক্ষেত্রে?
পর্তুগালের মতো দেশের জন্য একটা ছবিও সফলভাবে অনুবাদ করা সম্ভব হয়নি — ০%।
অবশ্যই এই গবেষণার কিছু সীমাবদ্ধতা আছে। গবেষকরা নিজেরাই স্বীকার করেছেন যে ‘সংস্কৃতি’ আর ‘দেশ’ এক জিনিস নয়। একটা দেশের ভেতরেই অনেক সংস্কৃতি থাকতে পারে। তারা মাত্র ৭টা দেশ নিয়ে কাজ করেছেন এবং সব কমান্ড ইংরেজিতে দিয়েছেন।
তবুও এই গবেষণাটা খুব গুরুত্বপূর্ণ। কারণ এটা প্রথমবার প্রমাণ করলো যে এআই এখনো মানুষের সংস্কৃতির গভীরতা, রসবোধ বা প্রেক্ষাপট কিছুই বুঝতে পারে না। শব্দ অনুবাদ করা হয়তো সহজ, কিন্তু একটা সংস্কৃতির অনুভূতি অনুবাদ করা এখনো পুরোপুরি মানুষের কাজ।
এই গবেষণা ভবিষ্যতের এআই মডেলগুলোর জন্য একটা নতুন চ্যালেঞ্জ তৈরি করে দিয়ে গেল।