Skip to main content

একটি চাইনিজ কোম্পানির রিলিজ করা এআই মডেল ডিপসিক (DeepSeek) হুট করেই প্রযুক্তি বিশ্বে আলোড়ন সৃষ্টি করেছে। জানুয়ারি ২৭ তারিখে এক দিনে NVIDIA’র ভ্যালুয়েশন $৩.৫ ট্রিলিয়ন ডলার থেকে $৬০০ বিলিয়ন কমে $২.৯ ট্রিলিয়ন ডলার হয়ে গেছে! কিন্তু কেন? মনে হতে পারে এআই এর তো অনেক কোম্পানিই আছে ChatGPT এর পাশাপাশি। আর অনেক আগে থেকেই তো যেকোনো প্রযুক্তিতে চাইনিজরা ওয়েস্টের টেকনোলজি ক্লোন বানিয়ে সস্তা মডেল বাজারে আনে—তাহলে ডিপসিক এমন কী আনলো যে, অনেক কিছু উলটপালট হয়ে গেল বা হতে যাচ্ছে বলে ধারণা করা হচ্ছে? শুধু চাইনিজ ‘সস্তা কপি’ বলে? সেটা বোঝার চেষ্টা করছি এই লেখায়।

শীর্ষ এআই মডেল এবং সোর্সকোডের কন্ট্রোল 

মার্কেটে শীর্ষ এআই মডেল বললে অবধারিত ভাবে চলে আসে ওপেনএআই এর চ্যাটজিপিটি। সেপ্টেম্বর ২০২২ এ রিলিজ পাওয়া এই এআই চ্যাটবট দুনিয়ায় হইচই ফেলে দিয়েছিল কৃত্রিম বুদ্ধিমত্তাকে সাধারণ মানুষের ব্যবহার উপযোগী করে সেটাকে ফ্রিতে এক্সেস করতে দিয়ে। পরবর্তিতে কয়েকটা এআই মডেল মার্কেটে আসে। মার্কেটে শীর্ষ তিনটা এআই মডেল বললে বলতে হয় OpenAI এর ‘ChatGPT’, Google এর ‘Gemini’ এবং Anthropic এর ‘Claude’। একটা জিনিস বোঝা ইম্পরট্যান্ট – এরা সবাই “ক্লোজ-সোর্সড”। তার মানে, এরা যে মডেল (Large Language Model সংক্ষেপে – LLM) বানিয়েছে, ইন্টারনেট-স্কেল ডাটা দিয়ে মডেলকে ফাইন-টিউন করেছে, তারপর পাবলিককে ব্যবহার করার সুযোগ দিয়েছে,  কিন্তু সোর্স কোড বা মডেলের নিয়ন্ত্রণ ওই কোম্পানিগুলোর হাতেই রেখে দিয়েছে “ক্লোজ-সোর্সড” করে। তার মানে ইউজাররা তাদের সাইটে যাবে অথবা তাদের API কল করবে, ইউজার ইনপুট দিয়ে ব্যবহার করতে পারবে। এটা ফ্রি বা পেইড, যাই হোক না কেন, কিন্তু দিন শেষে ডাটার সব কন্ট্রোল তাদের হাতেই। কেউ চাইলে লোকাল মেশিনে ডাউনলোড করে বাইরে ইন্টারনেট বন্ধ করে এইসব এআই মডেল চালাতে পারবে না।

এইটা বড় একটা লিমিটেশন। অনেক দিক দিয়ে। শুধু প্রাইভেসি এর দিকটা যদি দেখি – একটা ফাইন্যান্সিয়াল কোম্পানি বা কোনো সরকার বা আর্মি যদি তাদের ডাটা নিয়ে এআই মডেল ট্রেন আপ করিয়ে সেটা কোনো কাজে ব্যবহার করতে চায়—তাহলে সেগুলো যেতে হবে OpenAI, Google বা Anthropic এর সার্ভারে… যা স্বাভাবিকভাবেই বিশাল প্রাইভেসি কনসার্ন এবং জিও-পলিটিক্যাল কারণে বেশিরভাগ সেন্সেটিভ অর্গানাইজেশন, specially যারা US এর বাইরে, এটা করতে চাইবে না।

প্রশ্ন আসবে –  এআই এর ওপেন-সোর্স মডেল কি নেই? উত্তর – আছে। সবচেয়ে জনপ্রিয় হলো (ছিলো বলা যায় এখন!) ফেসবুক/মেটার ‘Llama’, যা জুলাই ২০২৩ এ রিলিজ করা হয়েছিল। আরেকটি আছে Mistral AI, যা একটি ফ্রেঞ্চ কোম্পানির । এর মানে,  এই ওপেন-সোর্স মডেল গুলা যে কেউ locally চালাতে পারবে, বাণিজ্যিকভাবে ব্যবহার করতে পারবে (যদিও মেটার Llama তে কিছু রেস্ট্রিকশন আছে)। সমস্যা হলো, Mistral লাইটওয়েট মডেল হিসেবে ভালো, কিন্তু এর সক্ষমতা কম। মেটার সক্ষমতা Mistral এর চেয়ে বেশি।

এআই মডেল এর সক্ষমতা এবং জিপিউ ব্যবহার

এআই  মডেল গুলোর সক্ষমতা পরিমাপ করার একটা পদ্ধতি হচ্ছে—প্যারামিটার (বা টোকেন) ধারণ করার মান দিয়ে। প্যারামিটার কী? প্যারামিটার অনেকটা ব্রেইন সেলের মতো এআই মডেলে—এগুলো দিয়ে মডেল শেখে, মনে রাখে এবং টেক্সট জেনারেট করে। যত বেশি প্যারামিটার হ্যান্ডেল করতে পারে, আউটপুট সাধারণত তত ভালো হয়। কিন্তু বড় মানেই কি সবসময় ভালো? তা না। এখানে ফাস্ট প্রসেসিং এবং কার্যকর হ্যান্ডলিংও গুরুত্বপূর্ণ। আর বড় মডেলগুলো অনেক বেশি রিসোর্স নেয়, মানে প্রচুর কম্পুটেশন পাওয়ার এবং মেমোরি লাগে এগুলো রান করতে। ওপেন-সোর্স মডেলের মধ্যে Mistral হ্যান্ডেল করতে পারে ৭ বিলিয়ন প্যারামিটার, Meta’র Llama হ্যান্ডেল করতে পারে ৭০ বিলিয়ন প্যারামিটার। ওপেনএআই এর চ্যাটজিপিটি এর মডেল  GPT-3 ১৭৫ বিলিয়ন প্যারামিটার প্রসেস করতে পারে – যা ফ্রি ইউজাররা ব্যবহার করতে পারে। আর পেইড ইউজাররা ওপেনএআই যে মডেলটা ব্যবহার করতে পারে – GPT-4 সেটার সংখ্যা প্রকাশ করা হয়নি, তবে ধারণা করা হয় GPT-4 এক ট্রিলিয়ন প্যারামিটার প্রসেস করতে পারে!

ব্যাপার হচ্ছে, এই মডেলগুলো যত শক্তিশালী, তত উন্নত জিপিউ (GPU) হার্ডওয়্যার লাগে এগুলো চালাতে। জিপিউ শুনে প্রথমে একটু খটকা লাগতে পারে। সবসময় তো কম্পুটেশন এর জন্য সিপিইউ (CPU বা Central Processing Unit) ব্যবহার এর কথা শুনে আসছি আমরা। তাহলে জিপিউ আসলো কেমনে? আসলে GPU বা Graphics Processing Unit বানানো হয়েছিলো specialized গ্রাফিক্স এর কাজের জন্য – যেমন গেমিং। এই জিপিউ দিয়ে অনেক বেশি কম্পিউটেশন একই সময়ে প্রসেস (parallel processing) করা যায় – যেটা এআই এর জন্য খুবই গুরুত্বপূর্ণ। ওপেনএআই সহ সব এআই কোম্পানি তাই  প্রচুর অর্থ ঢালছে শুধু এই জিপিউ কেনার পেছনে। এগুলো অনেক ব্যয়বহুল। যত ফ্রি অ্যাক্সেস দেখা যায়—ChatGPT বা Gemini দিচ্ছে, সবাই মূলত money burn করছে এই ব্যয়বহুল রিসোর্স চালাতে গিয়ে। আর এর পুরো সুবিধা পাচ্ছিল NVIDIA, কারণ তারা প্রয়োজনীয় শক্তিশালী জিপিউ সরবরাহ করতে পারছিলো। আর এজন্যই তাদের স্টক আকাশচুম্বী হয়ে যাচ্ছিলো গত দুই বছর ধরে।আগে প্রসেসর এর কথা বললে সবসময় ইন্টেল সামনে আসতো। কিন্তু এই এআই এর যুগে এসে এআই প্রসেসরের শক্তিমত্তার  প্রতিযোগিতায় অনেক পিছিয়ে পরেছে। অনেকটা মোবাইল ওয়ার্ল্ডে এককালের প্রতাপশালী নকিয়া যেমন স্মার্টফোন এর প্রতিযোগিতায় সামসাং এর কাছে টিকতে পারে নাই। এনভিডিয়ার জিপিউ এর বিশাল প্রভাব এখন এআই এর ডেভেলপমেন্ট এর উপর। যখন এই ধারণা শক্ত হচ্ছিল যে – যত শক্তিশালী মডেল, তত শক্তিশালী জিপিউ প্রসেসর লাগবে, ঠিক তখনই পুরো ঘটনাপ্রবাহ উল্টে দিল এই চাইনিজ কোম্পানি ডিপসিক। কিভাবে, সেটা বলার আগে, চ্যাটজিপিটি এর সবচেয়ে নতুন উন্নত মডেল “o1” সম্পর্কে জেনে নেই। 

ওপেনএআই সেপ্টেম্বর ২০২৪-এ o1 মডেল উন্মোচন করে। ওপেনএআই এর ঘোষণা অনুসারে o1 সিরিজের মডেলগুলো রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে জটিল বিশ্লেষণ করতে পারে। তাদের website এ বলা আছে:

The o1 series of models are trained with reinforcement learning to perform complex reasoning. o1 models think before they answer, producing a long internal chain of thought before responding to the user.

সোজা কথায়, এটাকে বলা যায় “থিংকিং মডেল”। এটি চ্যাটজিপিটি এর বর্তমান GPT-4 মডেলের তুলনায় অনেক ভালো। যেখানে GPT-4 ম্যাথেমেটিক্স অলিম্পিয়াড (IMO) এর মাত্র ১৩% সমস্যা সমাধান করতে পারে, সেখানে এই “o1” মডেল ৮৩% স্কোর করতে পেরেছে। এখানে গুরুত্বপূর্ণ বিষয় হলো, “o1” মডেলটি চ্যাটজিপিটি এর ফ্রি ইউজারদের জন্য উন্মুক্ত নয়। প্লাস ক্যাটাগরির ইউজাররা $২০ ডলার প্রতি মাসে দিয়ে প্রতিদিন কিছু লিমিটেড অ্যাক্সেস পায়, আর $২০০ ডলার দিয়ে প্রো ইউজাররা আনলিমিটেড অ্যাক্সেস পায়। o1 এর  রিসোর্স ব্যবহারের হার অনেক বেশি এবং উচ্চক্ষমতাসম্পন্ন জিপিউ লাগে, যার অপারেশনাল খরচ প্রচুর। ওপেনএআই এর সিইও Sam Altman টুইটারে অভিযোগ করেছেন যে, প্রো সাবস্ক্রিপশনে $২০০ চার্জ করার পরও ওপেনএআই নাকি প্রতি সাবস্ক্রিপশনে “টাকা হারাচ্ছে”!

ডিপসিক – সক্ষমতা এবং প্রভাব

চাইনিজ স্টার্টআপ ডিপসিক এই বছর জানুয়ারির ২০ তারিখে তাদের R1 মডেলটা সাধারণ ব্যবহারকারীদের জন্য উন্মুক্ত করেছে। ডিপসিক এর দুটি এআই মডেল তৈরি আছে, V3 এবং R1। ডিপসিক V3 মডেলটা  ৬৭১ বিলিয়ন প্যারামিটার ব্যবহার করে (বলা যায় মেটার ওপেন-সোর্স মডেল থেকে দশ গুন বেশি), তবে এই মডেলে একটি বিশেষ অপটিমাইজেশন কৌশল ব্যবহার করা হয়েছে যার মাধ্যমে একই সময়ে সর্বাধিক ৩৭ বিলিয়ন টোকেন ব্যবহার করে এটি কাজ করে। এই কৌশলের মাধ্যমে, মডেলটি অপ্রয়োজনীয় ডেটা ব্যবহার করা থেকে বিরত থাকে এবং সবচেয়ে গুরুত্বপূর্ণ তথ্যের ওপর মনোযোগ দিতে পারে। ফলে ডিপসিক মডেল কম রিসোর্স ব্যবহার করে অনেক বেশি কম্পিউটেশনাল দক্ষতা অর্জন করেছে। অন্যদিকে ডিপসিক R1 মডেলটি অন্যভাবে কার্যকরী, যা “রিইনফোর্সমেন্ট লার্নিং” ব্যবহার করে ৭০ বিলিয়ন প্যারামিটার প্রসেস করতে পারে এবং অনেক ফাস্ট এবং এটি চ্যাটজিপিটি o1 মডেলের মতোই “থিংকিং মডেল”। আর সবচেয়ে বড় বিষয় হলো, এটি চালানোর জন্য NVIDIA’র উচ্চক্ষমতাসম্পন্ন জিপিউ লাগবে না।

এখানে একটি বড়  geo-political ওয়ার এর কথা চলে আসে। ২০২২ সালে আমেরিকা NVIDIA’র উচ্চক্ষমতাসম্পন্ন জিপিউ চীনে রপ্তানি নিষিদ্ধ করে দেয়। কিন্তু ডিপসিক এর প্রতিষ্ঠাতা লিয়াং ওয়েনফেং সেই নিষেধাজ্ঞার ঠিক আগেই দশ হাজার NVIDIA’র cutting-edge জিপিউ H100 অর্ডার দিয়ে মজুদ করে ফেলেছিলেন। এই চিপগুলো দিয়েই ডিপসিক তাদের মডেলগুলো ট্রেনিং করেছে, উন্নত করেছে। এমনভাবে অপ্টিমাইজ করেছে, যে, এখন সেটা চালাতে উচ্চক্ষমতাসম্পন্ন জিপিউ লাগবে না, তাই আমেরিকার নিষেধাজ্ঞা কার্যত কোনো বাধা সৃষ্টি করতে পারবে না ডিপসিক প্রডাকশন এ চালাতে। পাশাপাশি, রিসোর্সের খরচ দশ-বিশ গুণের মত কমে গেছে। তাই ডিপসিক অলরেডি চ্যাটজিপিটি থেকে অনেক কম খরচে API বিক্রি করা শুরু করে দিয়েছে।

কিন্তু সবচেয়ে বড় ব্যাপার হলো—তারা এই এআই মডেল গুলো পুরোপুরি ওপেনসোর্স করে ছেড়ে দিয়েছে, এমআইটি ওপেনসোর্স লাইসেন্সের অধীনে। এর মানে, কাউকে ব্যক্তিগত অথবা বাণিজ্যিক ব্যবহারের জন্য ডিপসিক কে টাকা দিতে হবে না। যে কেউ এই এআই মডেল তাদের মেশিনে নামিয়ে অ্যাপ্লিকেশনে ব্যবহার করতে পারবে। এবং এটি চালানোর জন্য উচ্চক্ষমতাসম্পন্ন জিপিউও লাগবে না। ওপেন-সোর্স হওয়ার ফলে এর কার্যকারিতা ও দক্ষতা অনেক দ্রুত বাড়তে থাকবে, কারণ সারা বিশ্বের গবেষকরা এটি ব্যবহার করবে, ট্রেনিং করে আরও উন্নত বানাবে। ডিপসিক তাদের রিসার্চ গুলোও উন্মুক্ত করেছে যেখানে তারা ব্যাখ্যা করেছে যে কীভাবে মডেল অপটিমাইজ করা হয়েছে। সেই রিসার্চ পেপার পড়ে ওপেনএআই এর চিফ রিসার্চ অফিসার পর্যন্ত ডিপসিক-কে অভিনন্দন জানিয়েছেন এবং স্বীকার করেছেন যে, ওপেনএআইও তাদের ক্লোজ-সোর্স o1 মডেলে একই ধরনের পদ্ধতি ব্যবহার করেছে।

মৌলিকতা নাকি কপি-পেস্ট

এখন স্বাভাবিকভাবেই প্রশ্ন আসে—ডিপসিক এর কাজ এর কি টেকনিক্যাল ব্রেকথ্রু বা মৌলিকতা (novelty)  আছে? যেকোনো প্রযুক্তি আসলে সময়ের সাথে আরও দক্ষ, সস্তা এবং সহজলভ্য হয়—এটাই স্বাভাবিক এবং ডিপসিক তো সেটাই করেছে। তাহলে মৌলিকতা প্রশ্নে তাদের কাজের অবস্থান কোথায়? সম্ভবত উত্তর—তেমন মৌলিকতা নেই। 

কিন্তু এটি অত্যন্ত ইম্প্যাক্টফুল এবং গেম-চেঞ্জার। কেন – সেটা বুঝতে হলে কম্পিউটারের এভালুয়েশন ইতিহাসে একটু দৃষ্টি দেওয়া যেতে পারে। আগে কম্পিউটার বিশাল আকৃতির ছিল, অনেক রিসোর্স লাগত, বড় রুম লাগত, অনেক খরচ লাগত চালাতে। তাই কেবল গবেষক বা বিজ্ঞানীরা বড় কোম্পানি বা প্রতিষ্ঠানে এটি ব্যবহার করতে পারতেন। সময়ের সাথে কম্পিউটার ছোট হতে লাগলো, ডেস্কটপ কম্পিউটার হলো, সস্তা হলো, তখন সাধারণ মানুষ এটি কিনে ব্যবহার করতে পারলো। এরপর এটি আরও ছোট হলো, ল্যাপটপ হলো, তারপর স্মার্টফোনে একই ধরনের ক্ষমতা চলে এলো। এখন বিলিয়ন মানুষ হাতের মুঠোয় কম্পিউটারের শক্তি ব্যবহার করছে। এর ফলে আমাদের সমাজ গত কয়েক যুগে কীভাবে বদলে গেছে, সেটা তো আমরা সবাই দেখতে পাচ্ছি। বড় সাইজ কম্পিউটার থেকে ছোট বানানো কি মৌলিক আবিষ্কার? – না হয়তো। কিন্তু অনেক ইম্প্যাক্টফুল

ঠিক একইভাবে, এই সক্ষম AI মডেলগুলো ক্লোজ-সোর্স ছিল, কোম্পানির নিয়ন্ত্রণে ছিল, ওপেনসোর্সগুলো ততটা সক্ষম ছিল না। কিন্তু ডিপসিক এখন একই সক্ষমতার মডেল ওপেনসোর্স করে, কম রিসোর্স ব্যবহার করে চালানোর সুযোগ করে দিয়ে AI এর ব্যাপক বিস্তার বাড়াতে সাহায্য করবে।  এটি হয়তো ‘নভেলটি অফ ইনোভেশন’ নয়, কিন্তু অত্যন্ত প্রভাবশালী।

অনেকে ভাবতে পারে—ডিপসিক শুধুই একটা কপি-পেস্ট কাজ। এটা ভুল। ওপেনএআই বা গুগলের কোনো মডেলই তো ওপেনসোর্স ছিল না, তাই মডেল/অ্যালগোরিদম কপি করার প্রশ্নই আসে না। মেটার ওপেনসোর্স মডেল Llama অনেক কম সক্ষম। তাই তাদেরটাও কপি-পেস্ট করে এরকম পারফরম্যান্স বানাতে পারার কথা না। তবে ডিপসিক মডেল বানানোর পর কিছু ‘ডাটা ট্রেনিং’ চ্যাটজিপিটি এর কাছ থেকে করিয়েছে। কিন্তু মনে রাখতে হবে, চ্যাটজিপিটি নিজেও তো বেশিরভাগ ডাটা নিজে তৈরি করেনি। ইন্টারনেট থেকে, এমনকি কপিরাইটেড কনটেন্ট থেকে স্ক্র্যাপিং করে ডাটা নিয়ে মডেল বানিয়েছে, যার জন্য কারও অনুমতি নেয়নি। তাই বলা যায়, ডিপসিক একই প্যাটার্ন অনুসরণ করছে।

শেষকথা

সারাংশ বললে বলতে হয়, ডিপসিক ইতোমধ্যেই একটি বড় disruptor হয়ে গেছে। এখন যে কেউ যেকোনো ক্লাউডে, বা সেলফ-হোস্টেড মেশিনে ডিপসিক চালাতে পারছে। অনেক আপ্লিক্যাশন আগে যারা বেশি খরচে সার্ভিস দিত, কারণ তাদের চ্যাটজিপিটি API ব্যবহার করতে হতো উচ্চ মূল্যে, তারা এখন হয় ডিপসিক-এর API তে শিফট করছে অথবা সেলফ-হোস্টেড মডেল ব্যবহার করছে। সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো – এখন আর সেন্ট্রালাইজড কন্ট্রোল নেই যেখানে ওপেনএআই বা গুগল-এর হাতে সবকিছু থাকবে। অন্যভাবে বললে, আমেরিকা আগে হয়তো NVDIA কে দিয়ে চিপ সাপ্লাই বন্ধ করে, কিংবা ওপেনএআই  বা গুগলকে চাপ দিয়ে API এক্সেস বন্ধ করে দিয়ে এআই এর উপর এক ধরনের কন্ট্রোল করতে পারতো অন্যদের ব্যবহারে। এখন একই সক্ষমতার ওপেনসোর্স মডেল থাকার কারণে যে কেউ নিজের মতো এটি ম্যানেজ করতে পারবে। তাই এআই এর ক্ষমতা এখন আর মুষ্টিমেয় কিছু প্রতিষ্ঠানের হাতে নেই, বরং এটি আরও বেশি মানুষের কাছে পৌঁছে যাবে। এই পরিবর্তন ভূ-রাজনৈতিক ক্ষমতার ভারসাম্যে গুরুত্বপূর্ণ ভূমিকা রাখবে।

আমরা এখন অত্যন্ত ইন্টারেস্টিং একটি সময়ে বসবাস করছি। এআই প্রযুক্তির ভবিষ্যৎ কোন দিকে যায়, তা আমরা খুব কাছ থেকে দেখার সুযোগ পাচ্ছি!

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.