জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

আমরা যখন কোনো বড় কোম্পানির নতুন প্রডাক্টের ঘোষণা শুনি, সেটা সাধারণত একটা প্রেস রিলিজের মাধ্যমে আসে। এই প্রেস রিলিজগুলো খুব যত্ন করে লেখা হয়, যাতে কোম্পানির সবচেয়ে ভালো দিকটাই ফুটে ওঠে। কিন্তু একজন ভালো সাংবাদিকের কাজ হলো এই চকচকে প্রচারণার পেছনের আসল ঘটনাটা খুঁজে বের করা। তারা শুধু প্রেস রিলিজ কপি পেস্ট করেন না। তারা ঘটনার গভীরে যান, ভিন্ন একটা অ্যাঙ্গেল বা দৃষ্টিকোণ খোঁজেন, আর এমন লোকদের সাথে কথা বলেন যারা হয়তো কোম্পানির বক্তব্যের সাথে একমত নন।

সাংবাদিকতার ভাষায় একে বলে "ডি স্পিনিং" বা প্রচারণার মোড়ক খোলা। এই কাজটার জন্য দরকার গভীর পরিকল্পনা, সৃজনশীলতা আর বাস্তব পৃথিবীর জ্ঞান।

সম্প্রতি একদল গবেষক ঠিক এই প্রশ্নটাই করেছেন। তারা দেখতে চেয়েছেন, আজকের দিনের সবচেয়ে আধুনিক এআই বা লার্জ ল্যাঙ্গুয়েজ মডেল (যেমন জিপিটি ফোর) কি একজন দক্ষ সাংবাদিকের মতো এরকম "প্ল্যান" করতে পারে? তাদের এই গবেষণাপত্রটি খুবই চমকপ্রদ।

এই গবেষণার নতুনত্ব কী?

প্রথমত, গবেষকরা বিশাল এক ডেটাসেট তৈরি করেছেন। তারা গত দশ বছরের ২৫০,০০০ প্রেস রিলিজ এবং সেগুলোর ওপর ভিত্তি করে লেখা ৬৫০,০০০ আসল নিউজ আর্টিকেল জোগাড় করেছেন। এত বড় ডেটাসেট এই বিষয়ে আগে কখনো তৈরি হয়নি।
দ্বিতীয়ত, তারা "কন্ট্রাস্টিভ সামারাইজেশন" নামে একটা নতুন ধারণার জন্ম দিয়েছেন। এর মানে হলো, একটা ভালো নিউজ আর্টিকেল শুধু প্রেস রিলিজের সারসংক্ষেপ করে না, বরং সেটিকে চ্যালেঞ্জ করে এবং নতুন তথ্য বা কনটেক্সট যোগ করে। গবেষকরা একটা এআই সিস্টেম বানিয়েছেন যা স্বয়ংক্রিয়ভাবে চিনতে পারে কোন আর্টিকেলগুলো এরকম "ভালো" মানের কাজ করেছে।

গবেষকরা কাজটা করলেন কীভাবে? মেথোডোলজিটা খুবই মজার।

ধাপ ১: ডেটাসেট তৈরি। তারা ওয়েব থেকে কোটি কোটি ডেটা ঘেঁটে এই বিশাল তথ্যভাণ্ডার বানান। তারা নিশ্চিত করেন যেন কোনো নির্দিষ্ট ধরনের নিউজের প্রতি পক্ষপাত না থাকে।
ধাপ ২: "ভালো" সাংবাদিকতা চেনা। তারা তাদের বানানো "কন্ট্রাস্টিভ সামারাইজেশন" মডেল দিয়ে প্রথমে খুঁজে বের করলেন কোন আর্টিকেলগুলো প্রেস রিলিজকে সবচেয়ে বেশি চ্যালেঞ্জ করেছে। তারা দেখলেন, এই "ভালো" আর্টিকেলগুলোর কিছু সাধারণ বৈশিষ্ট্য আছে।
ধাপ ৩: মানুষের প্ল্যান বিশ্লেষণ। তারা দেখলেন, যে সাংবাদিকরা প্রেস রিলিজকে চ্যালেঞ্জ করেছেন, তারা গড়ে অন্যদের চেয়ে অনেক বেশি সোর্স ব্যবহার করেছেন (গড়ে ৯টা, যেখানে সাধারণ আর্টিকেলে মাত্র ৩টা)। শুধু তাই নয়, তাদের সোর্সগুলোও ছিলো অনেক আলাদা। তারা কোম্পানির মুখপাত্রের বাইরে গিয়ে ভুক্তভোগী, স্বাধীন গবেষক বা আইনি কাগজপত্রের মতো গভীর সোর্স ব্যবহার করেছেন। আর তাদের লেখার "অ্যাঙ্গেল" বা দৃষ্টিকোণ ছিলো অনেক বেশি সৃজনশীল।
ধাপ ৪: আসল পরীক্ষা (এআই বনাম মানুষ)। এইবার তারা ৩০০টা এমন প্রেস রিলিজ নিলেন যেগুলো নিয়ে সাংবাদিকরা খুব ভালো, ক্রিটিক্যাল আর্টিকেল লিখেছেন।
- প্রথমে, তারা এই প্রেস রিলিজগুলো এআই মডেলকে (যেমন জিপিটি ফোর) দিলেন। তাকে বললেন, "তুমি যদি একজন সাংবাদিক হতে, তাহলে এই প্রেস রিলিজটা কাভার করার জন্য কী কী ক্রিটিক্যাল অ্যাঙ্গেল নিতে? আর কাদের সাথে কথা বলতে বা কী ধরনের সোর্স খুঁজতে?"
- এরপর, তারা ওই একই প্রেস রিলিজের জন্য মানুষ সাংবাদিকেরা আসলে কী করেছিলেন সেটা বের করলেন। অর্থাৎ, মানুষ সাংবাদিকের আসল "প্ল্যান" (তিনি কোন অ্যাঙ্গেল নিয়েছিলেন এবং কোন সোর্স ব্যবহার করেছিলেন) বের করলেন।
- শেষে, তারা এআই এর দেওয়া প্ল্যানের সাথে মানুষ সাংবাদিকের আসল প্ল্যানের তুলনা করলেন।

ফলাফল যা এলো তা খুবই চিন্তার খোরাক জোগায়

গবেষকরা দেখলেন, এআই মডেলগুলো একটা লেখার "অ্যাঙ্গেল" বা দৃষ্টিকোণ কী হতে পারে, সেটা মোটামুটি ধরতে পারছিলো। মানুষ সাংবাদিকের নেওয়া অ্যাঙ্গেলের সাথে এআই এর অ্যাঙ্গেলের মিল পাওয়া গেছে প্রায় ৬৩ শতাংশ ক্ষেত্রে।

কিন্তু যখনই "সোর্স" বা তথ্যের উৎস খোঁজার প্রশ্ন এসেছে, এআই মডেলগুলো পুরোপুরি ফেল করেছে। মানুষ সাংবাদিকের ব্যবহার করা সোর্সের সাথে এআই এর সাজেস্ট করা সোর্সের মিল ছিলো মাত্র ২৭ শতাংশ!

এর কারণ কী? এআই হয়তো বলতে পারে "একজন বিশেষজ্ঞের সাথে কথা বলুন"। কিন্তু মানুষ সাংবাদিক ঠিকই খুঁজে বের করেছেন "ওই কোম্পানির একজন প্রাক্তন কর্মচারী" বা "একটি নির্দিষ্ট অ্যাডভোকেসি গ্রুপ" কে। এই গভীর, বাস্তব পৃথিবীর জ্ঞান এআই এর নেই।

সবচেয়ে বড় তফাৎ দেখা গেছে "সৃজনশীলতা" বা ক্রিয়েটিভিটির ক্ষেত্রে। গবেষকরা দুজন আসল সাংবাদিককে দিয়ে এআই এর প্ল্যান এবং মানুষের প্ল্যান রেটিং করিয়েছেন। দেখা গেলো, মানুষের সৃজনশীলতার গড় স্কোরের কাছেও এআই এর কোনো মডেল (এমনকি ফাইন টিউন করার পরেও) পৌঁছাতে পারেনি।

আরও মজার ব্যাপার হলো, এআই মডেলগুলো শুধু সেইসব অ্যাঙ্গেলই ধরতে পেরেছে যেগুলো ছিলো গতানুগতিক বা সহজ। মানুষ সাংবাদিকেরা যখন খুব গভীর, ইনভেস্টিগেটিভ বা একদম নতুন কোনো অ্যাঙ্গেল থেকে লিখেছেন, এআই সেটা ধরতেই পারেনি।

গবেষকরা বলছেন, এর কারণ হলো এআই এর "কনটেক্সট" বা পারিপার্শ্বিক জ্ঞানের অভাব। যেমন, থেরানোস কোম্পানির কোনো প্রেস রিলিজ পেলে এআই সেটাকে একটা সাধারণ টেক কোম্পানির ঘোষণা হিসেবেই দেখছে। কিন্তু একজন সাংবাদিক জানেন ওই কোম্পানির পেছনের বিশাল জালিয়াতির ইতিহাস। এআই এর সেই "অ্যাওয়ারনেস" নেই।

তবে, এই গবেষণার কিছু সীমাবদ্ধতাও আছে

প্রথমত, গবেষকরা নিজেরাই স্বীকার করেছেন, এই লড়াইটা একতরফা ছিলো। এআইকে শুধু প্রেস রিলিজের টেক্সট দেওয়া হয়েছে। কিন্তু একজন মানুষ সাংবাদিকের হাতে থাকে তার অভিজ্ঞতা, এডিটরের গাইডলাইন, তার নিজস্ব সোর্স নেটওয়ার্ক এবং বাস্তব জগতে গিয়ে তথ্য সংগ্রহের ক্ষমতা।
দ্বিতীয়ত, এই গবেষণা শুধু ইংরেজি ভাষার এবং মূলত আমেরিকার ফিনান্সিয়াল নিউজের ওপর করা। অন্য দেশের, অন্য ভাষার বা অন্য ধরনের (যেমন রাজনৈতিক বা অনুসন্ধানী) সাংবাদিকতার ক্ষেত্রে এই ফলাফল একরকম নাও হতে পারে।
তৃতীয়ত, তারা মানুষ সাংবাদিকের "অ্যাঙ্গেল" কী ছিলো, সেটা বের করতেও জিপিটি ফোর মডেল ব্যবহার করেছেন, যা কিছুটা স্ববিরোধী।

তাহলে এই গবেষণার গুরুত্ব কী?

এই গবেষণা প্রথমবার প্রমাণ করলো যে, সৃজনশীল "প্ল্যানিং" আর সাধারণ "লেখা" এক জিনিস নয়। এআই হয়তো সুন্দর গুছিয়ে লিখতে পারে, কিন্তু কী লিখতে হবে, কেন লিখতে হবে, আর তার জন্য কার কাছে যেতে হবে এই মৌলিক পরিকল্পনা এখনো মানুষের কাজ।

এই গবেষণা এটাও দেখায় যে, এআই মডেলগুলোকে যদি ভবিষ্যতে আরও ভালো করতে হয়, তবে তাদের শুধু টেক্সট দিলেই হবে না, তাদের বাস্তব পৃথিবীর জ্ঞান বা "কনটেক্সট" জোগাড় করার ক্ষমতাও দিতে হবে (যাকে বলে রিট্রিভাল অগমেন্টেশন)।

আপাতত, সাংবাদিকতা বা যেকোনো গভীর সৃজনশীল কাজের পরিকল্পনা মানুষের দখলেই থাকছে।

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

Table of Contents

এই গবেষণার নতুনত্ব কী?

গবেষকরা কাজটা করলেন কীভাবে? মেথোডোলজিটা খুবই মজার।

ফলাফল যা এলো তা খুবই চিন্তার খোরাক জোগায়

তবে, এই গবেষণার কিছু সীমাবদ্ধতাও আছে

তাহলে এই গবেষণার গুরুত্ব কী?

Share this article

Written by Sakhawat Adib

References

Do {LLM}s Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with {LLM}s

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

গবেষণাপত্র পড়ব কিভাবে ?

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

আদালতে AI? Paper in NAACL 2025 Explains

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?