এআই কি ছবি অনুবাদ করতে পারে ? EMNLP Transcreation Paper

আজকে খুবই মজার একটা বিষয় নিয়ে পড়লাম৷ গবেষণাপত্রটা ২০২৪ সালে EMNLP অর্থাৎ Natural Language Processing এর অন্যতম সবচেয়ে প্রসিদ্ধ সম্মেলনে সেরা পুরষ্কার পেয়েছে। ছবিও কি অনুবাদ করা যায়? ছবির বর্ণনার কথা বলছি না। আসেন দেখি,

আমরা যখন কোনো বিদেশি সিনেমা দেখি বা বই পড়ি, তখন তার অনুবাদ আমাদের খুব সাহায্য করে। কিন্তু শুধু কি শব্দ অনুবাদ করলেই কাজ শেষ?

একটু ভেবে দেখেন, জাপানি কার্টুন ডোরেমন যখন আমেরিকায় দেখানো হলো, তখন ওরা ডোরেমনের চপস্টিক দিয়ে খাওয়ার দৃশ্য বদলে কাঁটা চামচ করে দিয়েছিল। কেন? কারণ আমেরিকার বাচ্চারা চপস্টিকের সাথে পরিচিত নয়। আবার পিক্সারের সিনেমা Inside Out এ আমেরিকার বাচ্চাদের ব্রকলি খেতে দেয়া হয়, কারণ তারা ওটা পছন্দ করে না। কিন্তু জাপানে ব্রকলি অতটা অপছন্দের সবজি নয়, তাই সেখানে ব্রকলি বদলে বেল পেপার দেখানো হয়েছিল।

transcreation

এই যে শুধু শব্দ নয়, বরং ছবি, রীতিনীতি, এমনকি খাবারও একটা দেশের মানুষের রুচি অনুযায়ী বদলে ফেলা, একে বলে ট্রান্সক্রিয়েশন বা সাংস্কৃতিক রূপান্তর। এতদিন এই কঠিন কাজটা মানুষরাই করতো।

কিন্তু সম্প্রতি কিছু গবেষক ভাবলেন, আচ্ছা, কৃত্রিম বুদ্ধিমত্তা বা এআই কি এই কাজটা করতে পারে? তারা কি একটা ছবিকে এক সংস্কৃতি থেকে আরেক সংস্কৃতিতে ‘অনুবাদ’ করতে পারবে?

এই প্রথমবার এমন একটা চ্যালেঞ্জিং বিষয় নিয়ে গবেষণা করা হলো। আর এর ফলাফলও খুব মজার।

গবেষকরা প্রথমে বোঝার চেষ্টা করলেন এআই কে ঠিক কীভাবে নির্দেশ দিলে কাজটা হতে পারে। তারা মোট তিনটা আলাদা পদ্ধতি বা পাইপলাইন তৈরি করলেন।

প্রথম পদ্ধতি: তারা এআই কে একটা ছবি দিলেন (যেমন, নাইজেরিয়ার একটা স্থানীয় খাবারের ছবি) আর সরাসরি বললেন, "এই ছবিটাকে আমেরিকার সংস্কৃতির মতো করে বদলে দাও।"
দ্বিতীয় পদ্ধতি: এখানে কয়েকটা ধাপ ছিল।
- ধাপ এক: প্রথমে এআই কে মূল ছবিটা দেখিয়ে একটা ক্যাপশন লিখতে বলা হলো। যেমন, "একটা প্লেটে মাংস আর সবুজ শাক দিয়ে রান্না করা খাবার।"
- ধাপ দুই: এরপর আরেকটা এআই (বিশেষ করে GPT 3.5 এর মতো) কে বলা হলো এই ক্যাপশনটাকে টার্গেট দেশের সংস্কৃতি অনুযায়ী ‘অনুবাদ’ করতে। যেমন, আমেরিকার জন্য ক্যাপশনটা বদলে হলো, "একটা ডিশে গরুর মাংস আর সবজি আছে।"
- ধাপ তিন: শেষে, মূল ছবিটা আর এই নতুন আমেরিকান ক্যাপশনটা আরেকটা এআই কে দিয়ে বলা হলো, ছবিটাকে নতুন ক্যাপশনের মতো করে এডিট করে দাও।
তৃতীয় পদ্ধতি: আগের দুই ধাপ এক থাকলেও শেষটা ভিন্ন।
- ধাপ এক আর দুই আগের মতোই: ছবি দেখে ক্যাপশন বানানো, তারপর সেই ক্যাপশন অনুবাদ করা।
- ধাপ তিন: এবার ছবি এডিট না করে, এআই কে বলা হলো, এই নতুন ক্যাপশন (যেমন, "গরুর মাংস আর সবজি") দিয়ে ইন্টারনেট থেকে ওই দেশের একটা আসল ছবি খুঁজে বের করো।

এখন প্রশ্ন হলো, এই তিনটা পদ্ধতির কোনটা কাজ করলো?

এটা পরীক্ষা করার জন্যও গবেষকদের নতুন করে ভাবতে হয়েছে। কারণ আগে তো কেউ এই কাজ করেনি, তাই এটা মাপার কোনো ডেটাসেট বা পদ্ধতিও ছিল না।

তারা নিজেরাই দুটো নতুন ডেটাসেট বানালেন।

Concept dataset: ব্রাজিল, ভারত, জাপান, নাইজেরিয়া সহ ৭টা দেশের খাবার, ফুল, পাখির মতো সহজ বিষয়ের ৬০০টা ছবি।
Application dataset: বাচ্চাদের গল্পের বই বা গণিত শেখার ওয়ার্কশিটের মতো বাস্তব জগতের ১০০টা ছবি।

এরপর তারা ওই ৭টা দেশ থেকে সত্যিকারের মানুষদের ভাড়া করলেন। তাদের কাজ ছিল এআই এর বানানো ‘অনুবাদিত’ ছবিগুলো দেখে রেটিং দেয়া।

এই নতুন ছবিটা কি আসলেই আপনার দেশের সংস্কৃতির মতো দেখতে? এটা কি স্বাভাবিক দেখাচ্ছে? নাকি বিদঘুটে?

ফলাফল?

এক কথায় বলতে গেলে, এআই এই পরীক্ষায় শোচনীয়ভাবে ফেল করেছে।

প্রথম পদ্ধতি: ভয়ানক খারাপ। এআই ‘সাংস্কৃতিক’ মানে কী তা বুঝতেই পারেনি। গবেষকরা দেখলেন, যখনই কোনো ছবিকে "আমেরিকান" করতে বলা হয়েছে, এআই সেই ছবির ওপর আমেরিকার পতাকার লাল, সাদা, নীল রঙ মাখিয়ে দিয়েছে। একটা বার্গারের ছবিকে আমেরিকান করতে গিয়ে বার্গারটাকেই লাল নীল করে ফেলেছে।
দ্বিতীয় পদ্ধতি: ছবিগুলোকে এমনভাবে বদলেছে যে সেগুলো খুব অবাস্তব আর আনন্যাচারাল দেখাচ্ছিল। মূল ছবির কাঠামো ঠিক রাখতে গিয়ে ছবিটা অদ্ভুত হয়ে গেছে।
তৃতীয় পদ্ধতি: কিছুটা ভালো কাজ করেছে, কারণ ওগুলো আসল ছবি ছিল। কিন্তু বেশিরভাগ সময়ই এআই এমন সব ছবি খুঁজে এনেছে যা মূল বিষয়ের সাথে একেবারেই বেমানান বা অপ্রাসঙ্গিক।

গবেষকরা বলছেন, সবচেয়ে ভালো পদ্ধতিটাও নাইজেরিয়ার মতো দেশের জন্য মাত্র ৫% ছবি ঠিকঠাকভাবে সাংস্কৃতিক অনুবাদ করতে পেরেছে।
আর বাচ্চাদের গল্পের বই বা ওয়ার্কশিটের মতো কঠিন ছবির ক্ষেত্রে?
পর্তুগালের মতো দেশের জন্য একটা ছবিও সফলভাবে অনুবাদ করা সম্ভব হয়নি — ০%।

অবশ্যই এই গবেষণার কিছু সীমাবদ্ধতা আছে। গবেষকরা নিজেরাই স্বীকার করেছেন যে ‘সংস্কৃতি’ আর ‘দেশ’ এক জিনিস নয়। একটা দেশের ভেতরেই অনেক সংস্কৃতি থাকতে পারে। তারা মাত্র ৭টা দেশ নিয়ে কাজ করেছেন এবং সব কমান্ড ইংরেজিতে দিয়েছেন।

তবুও এই গবেষণাটা খুব গুরুত্বপূর্ণ। কারণ এটা প্রথমবার প্রমাণ করলো যে এআই এখনো মানুষের সংস্কৃতির গভীরতা, রসবোধ বা প্রেক্ষাপট কিছুই বুঝতে পারে না। শব্দ অনুবাদ করা হয়তো সহজ, কিন্তু একটা সংস্কৃতির অনুভূতি অনুবাদ করা এখনো পুরোপুরি মানুষের কাজ।

এই গবেষণা ভবিষ্যতের এআই মডেলগুলোর জন্য একটা নতুন চ্যালেঞ্জ তৈরি করে দিয়ে গেল।

এআই কি ছবি অনুবাদ করতে পারে ? EMNLP Transcreation Paper

Table of Contents

ফলাফল?

Share this article

Written by Sakhawat Adib

References

An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?