DeepSeek یک مدل هوش مصنوعی متنباز است که توسط محققان در چین توسعه داده شده است. این مدل با هدف کاهش هزینههای هوش مصنوعی و افزایش دسترسی برای عموم کاربران طراحی شده است. این مدل همچنین به دلیل متنباز بودن، برای توسعهدهندگان بسیار جذاب است. آنها میتوانند به راحتی مدل را برای نیازهای خاص خود سفارشی کنند، بدون اینکه هزینههای سنگینی متحمل شوند.
در این مطلب می خواهیم به صورت دقیق تر بررسی کنیم deepseek چطوری توانسته مدل های زبانی معروف مانند چت gpt رو به چالش بکشد و چه عواملی باعث شده ارزش کمپانی nvidia بیش از 500 میلیون دلار سقوط کند.
برای بررسی موضوع ابتدا باید ببینیم مدل های زبانی مانند چت gpt چگونه عمل می کنند. این مدل ها هزینه آموزش و نگهداری بسیار بالایی دارند. هزینه آموزش چت gpt بالغ بر ۵ میلیارد دلار و هزینه نگهداری ماهیانه اش بیش از 100 میلیون دلار است و نیاز به دیتاسنتر های بسیار بزرگ دارد. این هزینه غیر از هزینه تحقیق و توسعه و نیروی انسانی ست.
در چنین شرایطی deepseek ظهور کرده و گفته من این هزینه را به ۵ میلیون دلار کاهش می دهم بدون نیاز به سخت افزار بسیار گران حتی با پردازنده گرافیکی یک لپ تاپ گیمینگ. ولی deepseek چطور موفق شده است به چنین دستاورد بزرگی برسد؟
همه چیز در یک کلمه خلاصه می شود. باز آفرینی. برای مثال هوش مصنوعی های سنتی هر عدد را با ۳۲ رقم اعشار نمایش می دهند. در حالی که deepseek گفته چرا این کار را با ۸ رقم انجام ندهیم در حالی که هنوز هم بسیار دقیق است. این کار باعث کاهش مصرف انرژی تا ۷۵٪ می شود.
هوش مصنوعی های مرسوم مانند کودک انسان که در حال آموختن زبان است جملات را می خواند:”بابا… نان …داد”
ولی دیپ سیک کل جمله را یکجا می خواند با سرعت ۲ برابر و دقت ۹۰٪. زمانی که قرار است میلیارد ها کلمه تحلیل بشه تفاوت ها بسیار زیاد است.
نکته دیگر این است که چت جی پی تی مانند یک دانشمند همه چیز دان است. از پزشکی و مهندسی گرفته تا وکالت و سیاست. تعداد پارامترهای فعال چت چی پی هر لحظه ۱.۸ تریلیون است. حال اگر سیستم طوری طراحی شود که متناسب با سوال و موضوع فقط بخشی از پارامتر ها فعال باشند در هزینه و انرژی مورد نیاز بسیار صرفه جویی کرده ایم. دیپ سیک از ۶۷۱ میلیارد پارامتر در هر لحظه فقط ۳۷ میلیارد پارامتر فعال دارد.
خیلی اوقات وقتی محصولی از چین به بازار عرضه میشه ممکنه توی ذهنمون فکر کنیم دارن تقلب می کنند و اعداد واقعی نیستند. ولی در این مورد تمامی موارد صحیح هستند چون دیپ سیک اپن سورس است. همه می توانند کد را بررسی کند، یک راهنمای تکنیکال برای عموم داره بتونن مدل رو درک کنند. و اون رو با یک لپ تاپ گیمینگ آموزش دهند و مدل زبانی خودشون رو داشته باشند.
حالا اهمیت این داستان چیه؟ اینکه در کمتر ۵ روز ارزش سهام nvidia بیش از 500 میلیون دلار سقوط کرد. چون الان میدونیم دیگه نیاز به پردازنده های گرافیکی با هزینه بالا نداریم.
البته که شرکت های بزرگ مانند مایکروسافت و open ai بیکار نمی نشینند حتما دارن از این ابداعات ایده میگیرند و استفاده می کنند و نکته ای که همه الان بهش رسیدین این است که دیگه نیاز نیست برای ساخت مدل های بزرگتر و بهتر سخت افزار اضافه کنیم و هزینه ها رو بالا ببریم. به نظر می رسه که این از اون لحظه هاست که بعدا بهش به عنوان نقطه عطف نگاه می کنیم. هوش مصنوعی باز هم قرار تاثیرش رو در زندگیمون بیشتر و عمیق تر کنه. این بار ارزون تر و راحتتر.
سوال این نیست که آیا ظهور دیپ سیک باعث تغییر بازی بزرگان این حوزه میشه یا نه، سوال اصلی این است که با چه سرعتی این کارو انجام میده؟