এআই কি ছবি অনুবাদ করতে পারে ? EMNLP Transcreation Paper

EMNLP 2024 Best Paper Machine Transcreation MT Paper
এআই কি ছবি অনুবাদ করতে পারে ? EMNLP Transcreation Paper

আজকে খুবই মজার একটা বিষয় নিয়ে পড়লাম৷ গবেষণাপত্রটা ২০২৪ সালে EMNLP অর্থাৎ Natural Language Processing এর অন্যতম সবচেয়ে প্রসিদ্ধ সম্মেলনে সেরা পুরষ্কার পেয়েছে। ছবিও কি অনুবাদ করা যায়? ছবির বর্ণনার কথা বলছি না। আসেন দেখি,

আমরা যখন কোনো বিদেশি সিনেমা দেখি বা বই পড়ি, তখন তার অনুবাদ আমাদের খুব সাহায্য করে। কিন্তু শুধু কি শব্দ অনুবাদ করলেই কাজ শেষ?

একটু ভেবে দেখেন, জাপানি কার্টুন ডোরেমন যখন আমেরিকায় দেখানো হলো, তখন ওরা ডোরেমনের চপস্টিক দিয়ে খাওয়ার দৃশ্য বদলে কাঁটা চামচ করে দিয়েছিল। কেন? কারণ আমেরিকার বাচ্চারা চপস্টিকের সাথে পরিচিত নয়। আবার পিক্সারের সিনেমা Inside Out এ আমেরিকার বাচ্চাদের ব্রকলি খেতে দেয়া হয়, কারণ তারা ওটা পছন্দ করে না। কিন্তু জাপানে ব্রকলি অতটা অপছন্দের সবজি নয়, তাই সেখানে ব্রকলি বদলে বেল পেপার দেখানো হয়েছিল।

transcreation

এই যে শুধু শব্দ নয়, বরং ছবি, রীতিনীতি, এমনকি খাবারও একটা দেশের মানুষের রুচি অনুযায়ী বদলে ফেলা, একে বলে ট্রান্সক্রিয়েশন বা সাংস্কৃতিক রূপান্তর। এতদিন এই কঠিন কাজটা মানুষরাই করতো।

কিন্তু সম্প্রতি কিছু গবেষক ভাবলেন, আচ্ছা, কৃত্রিম বুদ্ধিমত্তা বা এআই কি এই কাজটা করতে পারে? তারা কি একটা ছবিকে এক সংস্কৃতি থেকে আরেক সংস্কৃতিতে ‘অনুবাদ’ করতে পারবে?

এই প্রথমবার এমন একটা চ্যালেঞ্জিং বিষয় নিয়ে গবেষণা করা হলো। আর এর ফলাফলও খুব মজার।

গবেষকরা প্রথমে বোঝার চেষ্টা করলেন এআই কে ঠিক কীভাবে নির্দেশ দিলে কাজটা হতে পারে। তারা মোট তিনটা আলাদা পদ্ধতি বা পাইপলাইন তৈরি করলেন।

Image

  1. প্রথম পদ্ধতি: তারা এআই কে একটা ছবি দিলেন (যেমন, নাইজেরিয়ার একটা স্থানীয় খাবারের ছবি) আর সরাসরি বললেন, "এই ছবিটাকে আমেরিকার সংস্কৃতির মতো করে বদলে দাও।"

  2. দ্বিতীয় পদ্ধতি: এখানে কয়েকটা ধাপ ছিল।

    • ধাপ এক: প্রথমে এআই কে মূল ছবিটা দেখিয়ে একটা ক্যাপশন লিখতে বলা হলো। যেমন, "একটা প্লেটে মাংস আর সবুজ শাক দিয়ে রান্না করা খাবার।"
    • ধাপ দুই: এরপর আরেকটা এআই (বিশেষ করে GPT 3.5 এর মতো) কে বলা হলো এই ক্যাপশনটাকে টার্গেট দেশের সংস্কৃতি অনুযায়ী ‘অনুবাদ’ করতে। যেমন, আমেরিকার জন্য ক্যাপশনটা বদলে হলো, "একটা ডিশে গরুর মাংস আর সবজি আছে।"
    • ধাপ তিন: শেষে, মূল ছবিটা আর এই নতুন আমেরিকান ক্যাপশনটা আরেকটা এআই কে দিয়ে বলা হলো, ছবিটাকে নতুন ক্যাপশনের মতো করে এডিট করে দাও।
  3. তৃতীয় পদ্ধতি: আগের দুই ধাপ এক থাকলেও শেষটা ভিন্ন।

    • ধাপ এক আর দুই আগের মতোই: ছবি দেখে ক্যাপশন বানানো, তারপর সেই ক্যাপশন অনুবাদ করা।
    • ধাপ তিন: এবার ছবি এডিট না করে, এআই কে বলা হলো, এই নতুন ক্যাপশন (যেমন, "গরুর মাংস আর সবজি") দিয়ে ইন্টারনেট থেকে ওই দেশের একটা আসল ছবি খুঁজে বের করো।

এখন প্রশ্ন হলো, এই তিনটা পদ্ধতির কোনটা কাজ করলো?

এটা পরীক্ষা করার জন্যও গবেষকদের নতুন করে ভাবতে হয়েছে। কারণ আগে তো কেউ এই কাজ করেনি, তাই এটা মাপার কোনো ডেটাসেট বা পদ্ধতিও ছিল না।

তারা নিজেরাই দুটো নতুন ডেটাসেট বানালেন।

  • Concept dataset: ব্রাজিল, ভারত, জাপান, নাইজেরিয়া সহ ৭টা দেশের খাবার, ফুল, পাখির মতো সহজ বিষয়ের ৬০০টা ছবি।
  • Application dataset: বাচ্চাদের গল্পের বই বা গণিত শেখার ওয়ার্কশিটের মতো বাস্তব জগতের ১০০টা ছবি।

এরপর তারা ওই ৭টা দেশ থেকে সত্যিকারের মানুষদের ভাড়া করলেন। তাদের কাজ ছিল এআই এর বানানো ‘অনুবাদিত’ ছবিগুলো দেখে রেটিং দেয়া।

এই নতুন ছবিটা কি আসলেই আপনার দেশের সংস্কৃতির মতো দেখতে? এটা কি স্বাভাবিক দেখাচ্ছে? নাকি বিদঘুটে?

ফলাফল?

এক কথায় বলতে গেলে, এআই এই পরীক্ষায় শোচনীয়ভাবে ফেল করেছে

  • প্রথম পদ্ধতি: ভয়ানক খারাপ। এআই ‘সাংস্কৃতিক’ মানে কী তা বুঝতেই পারেনি। গবেষকরা দেখলেন, যখনই কোনো ছবিকে "আমেরিকান" করতে বলা হয়েছে, এআই সেই ছবির ওপর আমেরিকার পতাকার লাল, সাদা, নীল রঙ মাখিয়ে দিয়েছে। একটা বার্গারের ছবিকে আমেরিকান করতে গিয়ে বার্গারটাকেই লাল নীল করে ফেলেছে।
  • দ্বিতীয় পদ্ধতি: ছবিগুলোকে এমনভাবে বদলেছে যে সেগুলো খুব অবাস্তব আর আনন্যাচারাল দেখাচ্ছিল। মূল ছবির কাঠামো ঠিক রাখতে গিয়ে ছবিটা অদ্ভুত হয়ে গেছে।
  • তৃতীয় পদ্ধতি: কিছুটা ভালো কাজ করেছে, কারণ ওগুলো আসল ছবি ছিল। কিন্তু বেশিরভাগ সময়ই এআই এমন সব ছবি খুঁজে এনেছে যা মূল বিষয়ের সাথে একেবারেই বেমানান বা অপ্রাসঙ্গিক।

গবেষকরা বলছেন, সবচেয়ে ভালো পদ্ধতিটাও নাইজেরিয়ার মতো দেশের জন্য মাত্র ৫% ছবি ঠিকঠাকভাবে সাংস্কৃতিক অনুবাদ করতে পেরেছে।
আর বাচ্চাদের গল্পের বই বা ওয়ার্কশিটের মতো কঠিন ছবির ক্ষেত্রে?
পর্তুগালের মতো দেশের জন্য একটা ছবিও সফলভাবে অনুবাদ করা সম্ভব হয়নি — ০%।

অবশ্যই এই গবেষণার কিছু সীমাবদ্ধতা আছে। গবেষকরা নিজেরাই স্বীকার করেছেন যে ‘সংস্কৃতি’ আর ‘দেশ’ এক জিনিস নয়। একটা দেশের ভেতরেই অনেক সংস্কৃতি থাকতে পারে। তারা মাত্র ৭টা দেশ নিয়ে কাজ করেছেন এবং সব কমান্ড ইংরেজিতে দিয়েছেন।

তবুও এই গবেষণাটা খুব গুরুত্বপূর্ণ। কারণ এটা প্রথমবার প্রমাণ করলো যে এআই এখনো মানুষের সংস্কৃতির গভীরতা, রসবোধ বা প্রেক্ষাপট কিছুই বুঝতে পারে না। শব্দ অনুবাদ করা হয়তো সহজ, কিন্তু একটা সংস্কৃতির অনুভূতি অনুবাদ করা এখনো পুরোপুরি মানুষের কাজ।

এই গবেষণা ভবিষ্যতের এআই মডেলগুলোর জন্য একটা নতুন চ্যালেঞ্জ তৈরি করে দিয়ে গেল।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance

Khanuja, Simran and Ramamoorthy, Sathyanarayanan and Song, Yueqi and Neubig, Graham · 2024

Given the rise of multimedia content, human translators increasingly focus on culturally adapting not only words but also other modalities such as images to convey the same meaning. While several appl...

Read the paper