هوش مصنوعی جمنای چیست؟ – هر آنچه باید درباره Gemini گوگل بدانید

تغییرات و تحولی که با گذشت زمان در فناوری‌ها رخ می‌دهند، در واقع فرصتی برای جهش در اکتشافات علمی، تسریع پیشرفت انسان‌ها و بهبود زندگی‌هایمان فراهم خواهند کرد. تغییر – و مرحله جدیدی – که اکنون با هوش مصنوعی یا همان AI شاهد وقوع آن هستیم، تأثیر بسیار عمیق‌تری نسبت به تحولات پیشین فناوری – مثل روی کار آمدن تلفن‌های همراه یا ظهور اینترنت – خواهند داشت. هوش مصنوعی این توانایی را دارد تا فرصت‌هایی را – از مواردی معمولی در زندگی روزمره گرفته تا فرصت‌های خارق‌العاده – برای انسان‌ها و در هرجایی که هستند، ایجاد کند. این فناوری، موج‌های جدیدی از پیشرفت‌های اقتصادی و نوآوری را به‌دنبال خواهد داشت. همچنین دانش، یادگیری، بهره‌وری و خلاقیت را در ابعادی که تا به حال ندیده‌ایم به پیش می‌برند. هوش مصنوعی «جمنای» (Gemini) گوگل، تازه‌ترین و توانمندترین راهکار «چندوجهی» (Multimodal) هوش مصنوعی از این شرکت – که به‌تازگی منتشر شده است، بخشی از همین تحولات محسوب می‌شود. در این مطلب از مجله فرادرس می‌خواهیم به زبان ساده برایتان توضیح دهیم که هوش مصنوعی جمنای چیست و همچنین، ماهیت پیشرفته‌ترین و جامع‌ترین مدل غول فناوری گوگل – تا این لحظه – را برای شما شرح دهیم.

به‌طور کلی، هوش مصنوعی جمنای یک مدل جدید و قدرتمند هوش مصنوعی است که توانایی انقلاب و ایجاد تحول در حوزه‌های گوناگون را دارد. هوش مصنوعی Gemini از گوگل، برای اولین بار در کنفرانس توسعه‌دهندگان I/O گوگل در سال 2023 (۱۴۰۲ خورشیدی) معرفی شد که پیشرفت و گامی اساسی رو به جلو در «برنامه راهبردی» (Roadmap) هوش مصنوعی این برند را نشان می‌دهد. این رویداد، نتیجه فعالیت‌های ترکیبی آزمایشگاه‌های هوش مصنوعی Brain و DeepMind گوگل است که سفری جدید در رابطه با LLM را به‌ اتفاق هم شروع کرده‌اند. اطلاع‌رسانی اولیه در مورد هوش مصنوعی جمنای، کمی پس از راه‌اندازی گوگل بارد، Duet AI و PaLM 2 LLM شروع شد. با این حال، غول فناوری گوگل چندین ماه بعد، نخستین نسخه از این راهکار را به‌همراه Roadmap واضح برای پیشرفت‌های بعدی معرفی کرد.

نقش هوش مصنوعی در کاربردهای گوناگون

کمترین چیزی که از این قضیه در می‌یابیم، این است که گوگل با هوش مصنوعی جمنای، پیشروی پیوسته‌‌ای را در راستای پس گرفتن سهم خود از بازار هوش مصنوعی از رقیب‌هایی مانند مِتا و مایکروسافت به نمایش گذاشته است، همچنان که تقاضا هم برای هوش مصنوعی مولد زیاد می‌شود. در ادامه، توضیحات بیشتری را در رابطه با هوش مصنوعی جمنای گوگل و نحوه به‌کارگیری آن بیان می‌کنیم.

هوش مصنوعی جمنای چیست؟

هوش مصنوعی جِمِنای گوگل یا همان Google Gemini، بیان‌گر مجموعه‌ای از «مدل‌های زبانی بزرگ» (Large Language Models | LLM) است که روش‌های آموزشی – نظیر جستجوی درختی و «یادگیری تقویتی» (Reinforcement Learning) – از AlphaGo را به‌کار می‌گیرند. هوش مصنوعی جمنای به دنبال این است که پرچم‌دار گوگل در حوزه هوش مصنوعی شود و مجموعه محصولات و سرویس‌های گوگل را قدرت ببخشد.

با توجه به اظهارات «Demis Hassabis» مدیر اجرایی و هم‌بنیان‌گذار DeepMind گوگل، هوش مصنوعی جمنای، قدرتمندترین مدلی است که تا به حال ساخته‌اند. این محصول نتیجه تلاش‌های مشارکتی قابل توجهی است که به‌وسیله چندین تیم‌ در گوگل و همچنین بخش پژوهش‌های گوگل صورت گرفته است. برعکس سایر مدل‌های LLM، هوش مصنوعی جمنای گوگل، از پایه با هدف Multimodal یا چندوجهی بودن ساخته شد. Gemini می‌تواند به‌طور بی‌وقفه انواع داده‌ای گوناگون نظیر متن، کدها، صدا، ویدیو و تصاویر را ترکیب، «عمومی‌سازی» (Generalize) و درک کند.

راهکار ارائه‌شده، روی تراشه‌های هوش مصنوعی – درون‌سازمانی – گوگل و واحدهای پردازشی تنسور، نظیر TPU نسخه ۴ و v5e آموزش دیده است که یکی از منعطف‌ترین مدل‌های بازار و یکی از کارآمدترین آن‌ها است. در حالی‌که سایر پردازش‌های مالتی‌مُدال به انرژی زیادی نیاز دارند، هوش مصنوعی جمنای می‌تواند روی هر سیستمی، از دیتاسنترها گرفته تا دستگاه‌های تلفن‌همراه اجرا شود.

هوش مصنوعی و انواع داده‌ها

هوش مصنوعی جمنای، خانواده‌ای از«مدل‌های زبانی بزرگ و چندوجهی» (Multimodal Large Language Models) است که توسط DeepMind گوگل توسعه یافته است و به ‌عنوان جانشینی برای LaMDA و PaLM 2 مورد استفاده قرار می‌گیرد.

منظور از چندوجهی بودن هوش مصنوعی جمنای چیست؟

شرکت گوگل به‌تازگی سیستم هوش مصنوعی جدیدی به‌نام جمنای را معرفی کرده است که به ظاهر می‌تواند هر نوع پرامپتی – نظیر تصاویر، متون، گفتار‌، موسیقی، کدهای برنامه‌نویسی و بسیاری موارد دیگر – را هوشمندانه درک و راجع به آن گفتگو کند. این نوع از سیستم‌های هوش مصنوعی با نام «مدل چندوجهی» (Multimodal Model) شناخته می‌شود. این مفهوم در واقع چیزی فراتر از توانایی مدل‌های پیشین در مدیریت متن یا تصاویر است. و این بیان‌گر مسیری است که آینده هوش مصنوعی ممکن است در آن پیش رود یعنی توانایی تحلیل و پاسخ‌دهی بی‌درنگ به اطلاعاتی که از جهان بیرون می‌آید. مشخص است که سیستم‌های هوش مصنوعی به‌سرعت در حال پیشرفت هستند. این سیستم‌ها در حال پیشروی به‌سوی قابلیت مدیریت ورودی و خروجی‌های بسیار پیچیده‌تر هستند.

معماری هوش مصنوعی جمنای چیست؟

با وجود اینکه پژوهشگران، جزئیات مفصلی را در رابطه با معماری هوش مصنوعی Gemini افشا نکرده‌اند، این قضیه را می‌دانیم که مدل‌های جمنای بر مبنای دیکودرهای ترانسفورمر – با بهبودهای صورت گرفته در معماری و بهینه‌سازی مدل به منظور آموزشی با ثبات در اندازه بزرگ ایجاد شده‌اند. مدل‌ها در JAX – از فریمورک‌های یادگیری ماشین – نوشته شده و با استفاده از TPU-ها آموزش دیده‌اند.

این معماری شبیه به Flamingo ،CoCa و PaLI دیپ‌مایند – با انکودرهای بصری و متنی جداگانه – است.

معماری Gemini
«برای مشاهده تصویر در اندازه اصلی، روی آن کلیک کنید».

مؤلفه‌های مربوط به این مدل را در ادامه توضیح داده‌ایم.

  • دنباله ورودی: کاربر، ورودی‌ها را – در قالب‌های گوناگون نظیر متن، عکس، صدا، ویدیو، مدل‌های ۳-بُعدی، نمودارها و غیره – به سیستم ارائه می‌دهد.
  • انکودر: انکودر، این ورودی‌ها را گرفته و آن‌ها را به زبانی عمومی و قابل فهم برای دیکودر تبدیل می‌کند. این کار با تبدیل انواع داده‌های گوناگون به یک بازنمایی یکپارچه انجام می‌شود.
  • مدل: سپس، ورودی‌های انکود شده، به مدل تغذیه می‌شوند. مدل چندوجهی یا Multi-Modal، نیازی به آگاهی از خصوصیات کار مورد نظر ندارد و ورودی‌ها را به‌سادگی بر مبنای کار فعلی پردازش می‌کند.
  • دیکودر متن و عکس: یکودر، ورودی‌های پردازش‌شده را از مدل گرفته و به تولید خروجی‌ها می‌پردازد. جمنای در زمان کنونی، تنها می‌تواند خروجی‌های متنی و تصویری را تولید کند.

انواع مختلف هوش مصنوعی جمنای

نسخه‌ای که از هوش مصنوعی جمنای در سال 2023 (۱۴۰۲ خورشیدی) منتشر شد، اولین نسخه از آن بود که Gemini 1.0 نام داشت. این نسخه برای ۳ اندازه گوناگون بهینه‌سازی شده است.

  • «هوش مصنوعی جمنای نانو» (Google Gemini Nano)
  • «هوش مصنوعی جمنای پرو» (Google Gemini Pro)
  • «هوش مصنوعی جمنای اولترا» (Google Gemini Ultra)

هوش مصنوعی Gemini، تنها یک مدل AI نیست. نسخه‌ای سبک‌تر از این سیستم به‌نام Gemini Nano وجود دارد که توانایی اجرا -به ‌صورت بومی و آفلاین – روی دستگاه‌های اندرویدی را دارد. نسخه قوی‌تری نیز از آن وجود دارد که با نام Gemini Pro شناخته می‌شود. این نسخه به‌زودی بسیاری از سرویس‌های هوش مصنوعی گوگل را نیرو می‌بخشد و هم اکنون تبدیل به ستون حیاتی Bard شده است. همچنین مدل قدرتمندتری به‌نام Gemini Ultra وجود دارد که قوی‌ترین LLM -گوگل تا این لحظه – است و به‌نظر می‌آید که برای دیتاسنترها و اپلیکیشن‌های سازمانی طراحی شده است.

در حال حاضر، Bard از جمنای پرو استفاده می‌کند. کاربران Pixel 8 Pro نیز ویژگی‌های جدیدی را به لطف جمنای نانو دریافت خواهند کرد. جمینی اولترا هم درسال آینده عرضه خواهد شد.

ربات هوش مصنوعی با پس زمینه ای از یک شهر

نوع Nano در هوش مصنوعی جمنای چیست؟

هوش مصنوعی «جمنای نانو» (Gemini Nano) گوگل، نسخه‌ای سبک و بهینه‌شده از مدل LLM محسوب می‌شود که در ۲ اندازه آورده شده در زیر موجود است.

  • Nano-1: دارای ۱٫۸ میلیارد پارامتر
  • Nano-2: دارای ۳٫۲۵ میلیارد پارامتر

این نسخه از هوش مصنوعی جمنای، به منظور اجرا روی دستگا‌ه‌های موبایل طراحی شده است. به‌زودی نیز در برنامه «هسته هوش مصنوعی» (AI Core) گوگل با اندروید ۱۴ شاهد آن خواهیم بود. Nano تغذیه‌کننده ویژگی‌های مختلفی نظیر خلاصه‌سازی درون اپلیکیشن Record و پیشنهاد پاسخ برای اپلیکیشن‌های پیام‌رسانی است.

نوع Pro در هوش مصنوعی جمنای چیست؟

«جمنای پرو» (Gemini Pro) روی دیتاسنترهای گوگل اجرا می‌شود و مواردی نظیر گوگل بارد – چت‌باتی شبیه به راهکار Capilot مایکروسافت – را امکان‌پذیر می‌کند. این نسخه به‌زودی در سایر ابزارهای گوگل، نظیر Duet AI، گوگل‌کروم، گوگل Ads و جستجوی مولد گوگل نیز به‌کار گرفته خواهد شد. با توجه به اظهارات گوگل، جمنای Pro در انجام کارهایی نظیر ایده‌پردازی، نویسندگی و خلاصه‌سازی محتوا از GPT-3.5 عملکرد بسیار کارآمدتری از خود نشان داده است.

نوع Ultra در هوش مصنوعی جمنای چیست؟

جمنای Ultra – که هنوز به‌طور عمومی در دسترس نیست – بهترین و قدرتمندترین مدل در این مجموعه محسوب می‌شود. درست مانند Pro، آموزش نسخه اولترا هم به‌صورت Multimodal بوده است. همچنین روی سورس‌کدهای گوناگون، از پیش آموزش دیده و تنظیم و بهینه‌سازی شده است. جمنای اولترا می‌تواند اطلاعات پیچیده – و با جزئیات فراوان – در متن، کد و صدا را درک کند و به پرسش‌های مرتبط با مباحث پیچیده پاسخ دهد.

هوش مصنوعی در کنار ما

تحلیل بی‌درنگ اطلاعات

سیستم‌های هوش مصنوعی برای توسعه قابلیت‌های جدید، به‌شدت به نوع داده‌های آموزشی وابسته هستند که در اختیار دارند. سیستم‌های AI در معرض این داده‌ها قرار می‌گیرند تا در کاری که انجام می‌دهند مانند استنتاج – مثل شناسایی چهره در یک عکس یا نوشتن مقاله – پیشرفت کنند.

هم‌اکنون داده‌های که شرکت‌های گوگل، OpenAI، متا و غیره مدل‌های خود را بر مبنای آن آموزش می‌دهند هنوز به‌طور عمده داده‌های دیجیتالی‌شده‌ای است که از اینترنت جمع‌آوری شده‌اند. با این وجود تلاش‌های در حال انجام است تا دامنه داده‌های در دسترس هوش مصنوعی گسترش یابد. به‌طور مثال، با به‌کارگیری دوربین‌ها، میکروفون‌ها و سایر سنسورهای همیشه فعال، این امکان وجود دارد تا به AI اجازه دهیم که بداند در جهان اطرافش چه وقایعی رخ می‌دهد.

تحلیل داده‌های بی‌درنگ در هوش مصنوعی جمنای چیست؟

هوش مصنوعی جمنای گوگل، بیان‌گر جهش بزرگ بعدی در فناوری هوش مصنوعی است.

هوش مصنوعی در حال تفکر

سیستم جدید هوش مصنوعی گوگل یا همان جمنای، نشان می‌دهد که می‌تواند محتوای بی‌درنگ نظیر ویدیوهای زنده و گفتار انسان‌ها را بفهمد. هوش مصنوعی همچنین با سنسورها و داده‌های جدید می‌تواند بر وقایع جهانی واقعی نظارت، راجع به‌ آن‌ها بحث و بر مبنای آن‌ها عمل نماید.

برجسته‌ترین مثال برای این مورد، خودرو‌های خودران هستند که در حال حاضر حجم بسیار زیادی داده را هنگام رانندگی در جاده‌هایمان جمع‌آوری می‌کنند. این اطلاعات در نهایت به سرورهای کارخانه سازنده آن راه می‌یابند که علاوه بر لحظه عملکرد وسیله نقلیه، برای ساخت مدل‌های کامپیوتری دراز مدت از وضعیت‌های رانندگی به‌کار می‌روند. این مورد، هم به بهبود جریان‌های ترافیکی کمک می‌کند و هم برای شناسایی رفتارهای مجرمانه و مشکوک توسط نهادها به‌کار گرفته می‌شود.

سنسورهای حرکتی، دستیارهای صوتی و دوربین‌های امنیتی مورد استفاده در منازل، اکنون برای تشخیص فعالیت‌ها و آموختن عادت‌هایمان استفاده می‌شوند. سایر ابزارهای هوشمند نیز به‌طور مداوم در بازار، موجود هستند. با وجود اینکه با کاربردهای مرسوم این موارد – نظیر بهینه‌سازی سیستم گرمایشی به منظور مصرف بهینه انرژی – آشنا هستیم اما درک عادت‌ها خیلی بیشتر پیشرفت خواهد کرد.

یعنی هوش مصنوعی می‌تواند فعالیت‌های منزل را بفهمد و حتی رخدادهای آینده را نیز پیش‌بینی کند. سپس این داده‌ها می‌توانند در مواردی مفیدی به‌کار گفته شود. به‌طور مثال، به‌وسیله پزشکان برای تشخیص زودهنگام شروع بیماری‌هایی مثل دیابت یا زوال عقل و همچنین برای توصیه و پیگیری تغییرات لایف‌استایل به‌کار روند.

همچنان‌که اطلاعات – و آگاهی – هوش مصنوعی از جهان واقعی بیشتر می‌شود می‌تواند به عنوان یک همراه در تمام لحظات زندگی کنار ما حضور داشته باشد. در فروشگاه مواد غذایی می‌توانیم گفت‌و گویی در مورد انتخاب اقتصادی‌ترین و بهترین مواد غذایی – که در حال برنامه‌ریزی برای تهیه آن هستیم – داشته باشیم. هوش منصوعی در محل کار می‌تواند اسامی و علاقه‌مندی‌های مشتریان را در ملاقات‌های رو در رو با آنان، به ما یادآوری کند و همچنین بهترین روش برای ایمن‌سازی کسب و کارهایشان را پیشنهاد دهد.

هوش مصنوعی و شهر هوشمند

هنگام سفر به کشوری خارجی هوش مصنوعی می‌تواند مکالمه‌های پیوسته‌ای راجع به جاذبه‌های توریستی محلی با ما داشته باشد. ضمن اینکه هوش مصنوعی می‌تواند روی موقعیت‌های خطرناکی که ممکن است با آن رو به رو شویم نظارت داشته باشد.

تأثیر بر حریم شخصی

داده‌های جدید این چنینی، فرصت‌های مثبت متعددی به همراه دارد. اما به همین نسبت احتمال زیاده‌روی یا تجاوز در حریم شخصی افراد نیز محتمل است. همان‌گونه که مشاهده می‌شود، کاربران با مبادله حجم زیادی از اطلاعات شخصی خود در ازای دسترسی به محصولات رایگان – نظیر شبکه‌های اجتماعی و موتورهای جستجو – بسیار راضی هستند. این مورد در آینده بیشتر به چشم می‌آید و احتمال خطر نیز بیشتر می‌شود. به این دلیل که شناخت هوش مصنوعی از ما بیشتر شده و ما را در جنبه‌های مختلفی از زندگی روزمره‌مان حمایت می‌کند.

اگر اجازه دهیم این صنعت به گسترش داده‌های خود در تمام جنبه‌های زندگی، حتی در موارد آفلاین نیز ادامه خواهد داد. صاحب‌نظران و سیاست‌گذارن این عرصه باید چشم‌انداز جدید را درک کنند و مطمئن شوند که موازنه‌ای بین مزایا و خطرات آن برقرار است. آن‌ها نه تنها می‌بایست بر قدرت و شیوع مدل‌های نوین هوش مصنوعی نظارت داشته باشند بلکه می‌بایست به داده‌های جمع‌آوری شده توسط آنان را نیز توجه کنند.

هنگامی‌که هوش مصنوعی قابلیت‌های خود را به حوزه جدید – جهانی واقعی – گسترش دهد، تنها تصورات ما هستند که چشم‌اندازها و امکانات را محدود می‌کنند.

قابلیت های هوش مصنوعی جمنای چیست؟

مدل‌های جمنای گوگل توانایی انجام کارهای زیادی را در حالات یا Modality-های گوناگون نظیر درک متن، عکس، صدا و ویدیو دارا هستند. ماهیت Multimodal بودن جمنای همچنین، تلفیق حالات مختلف را به منظور درک و تولید خروجی، امکان‌پذیر می‌کند.

کارهایی که هوش منصوعی جمنای می‌تواند انجام دهد را در ادامه، بیان کرده‌ایم.

  • خلاصه‌سازی متن: مدل‌های هوش مصنوعی جمنای می‌توانند محتوا – شامل انواع گوناگون داده‌ای – را خلاصه کنند.
  • تولید متن: Gemini بر اساس پرامپت واردشده توسط کاربر می‌تواند متنی را تولید کند. این متن همچنین می‌تواند به‌وسیله رابط چت‌بات – از نوع Q/A – هدایت شود.
  • ترجمه متن: مدل‌های جمنای قابلیت‌های چندزبانی جامعی دارند که ترجمه و درک بیش از ۱۰۰ زبان را فراهم می‌کند.
  • درک تصویر: Gemini می‌تواند تصاویر پیچیده نظیر نمودارها، اَشکال و غیره را بدون ابزارهای OCR خارجی تجزیه کند. این قابلیت را می‌توان برای توضیح‌نویسی تصاویر و توانایی پرسش و پاسخ تصویری به‌کار برد.
  • پردازش صدا: جمنای توانایی تشخیص گفتار را در بیش از ۱۰۰ زبان و کارهای ترجمه صوتی را دارد.
  • درک ویدیو: Gemini می‌تواند فریم‌های ویدیویی را برای پاسخ دادن به پرسش‌ها و تولید توضیحات، پردازش و درک کند.
  • «استدلال چندوجهی» (Multimodal Reasoning): توانمندی اصلی جمنای، استدلال چندوجهی آن است. به‌طوری‌که انواع گوناگونی از داده‌ها می‌توانند برای یک پرامپت با هم ترکیب شوند تا به خروجی دست یابیم.
  • تولید و تحلیل کدها: هوش مصنوعی Gemini می‌تواند کدهای زبان‌های برنامه‌نویسی معروف نظیر پایتون، جاوا، C++‎ و Go را تولید کند، بفهمد و توضیح دهد.

نحوه کارکرد هوش مصنوعی جمنای چیست؟

هوش مصنوعی Gemini، نخست با داده‌های بسیار زیادی آموزش می‌بیند. پس از فرایند Training، این مدل با استفاده از روش‌های مختلف شبکه‌های عصبی، می‌تواند محتوا را بفهمد، به‌پرسش‌ها پاسخ دهد، متنی را تولید و خروجی را به ما عرضه کند.

LLM-های جمنای به‌طور خاص از معماری شبکه عصبی مبتنی بر مدل ترانسفورمر استفاده می‌کنند. معماری Gemini، بهبود یافته است تا بتواند دنباله‌های طولانی زمینه‌ای در انواع گوناگون داده‌ای نظیر متن، صدا و ویدیو را پردازش کند. DeepMind گوگل از «مکانیزم‌های توجه کارآمد» (Efficient Attention Mechanisms) در دیکودرهای ترانسفورمر استفاده کرده است تا به مدل‌ها در پردازش زمینه‌های طولانی کمک کند که در برگیرنده «حالات» (Modalities) مختلف است.

مدل‌های Gemini روی دیتاست‌های متنوع چندوجهی و چند زبانه از متن، عکس‌، صدا و ویدیو با گوگل دیپ‌مایند – و با استفاده از پایش پیشرفته داده‌ها برای بهینه‌سازی آموزش – آموزش دیده‌اند. با توجه به اینکه مدل‌های گوناگون جمنای به منظور پشتیبانی از سرویس‌های مخصوص گوگل راه‌اندازی – یا مستقر – می‌شوند، فرایند Fine-Tuning هدفمندی وجود دارد که می‌تواند برای بهینه‌سازی بیشتر یک مدل برای یک کاربرد، مورد استفاده قرار گیرد. جمنای در طی مراحل آموزش و استنتاج از به‌کارگیری جدیدترین تراشه‌های TPUv5 گوگل سود می‌برد. این تراشه‌ها در واقع، شتابگرهای هوش مصنوعی سفارشی‌‌شده و بهبودیافته‌ای هستند که با هدف آموزش و استقرار کارآمد مدل‌های بزرگ طراحی شده‌اند.

چالش اصلی در سر راه LLM-ها، ریسک «جانب‌داری» (Bias) و محتوای احتمالا خطرناک است. با توجه به گفته‌های گوگل، جمنای، آزمایش‌های ایمنی گسترده و کاهش خطراتی نظیر Bias و مضر بودن را پشت سر گذاشته است تا سطحی از امنیت LLM-ها را فراهم کند. برای کسب اطمینان بیشتر از عملکرد هوش مصنوعی جمنای،‌ این مدل‌ها روی بنچمارک‌های آکادمیکی آزمایش شدند که حوزه‌های زبان، تصویر، صدا، ویدیو وکد را در بر می‌گیرند.

کاربران هوش مصنوعی

چه اپلیکیشن‌ هایی از جمنای استفاده می کنند؟

همان‌طور که بیان شد، جمنای به‌وسیله شرکت گوگل و به‌عنوان مدلی بنیادین توسعه یافت و به‌طور گسترده‌ای در سرویس‌های گوگل ادغام شده است. Gemini همچنین در اختیار توسعه‌دهندگان قرار گرفته است تا اپلیکیشن‌ها خود را ایجاد کنند.

اپلیکیشن‌هایی که هوش مصنوعی جمنای را به‌کار گرفته‌اند، در ادامه آورده‌ایم.

  • گوگل بارد: سرویس هوش مصنوعی محاوره‌ای گوگل از نسخه Fine-Tune شده – یا بهبودیافته – جمنای پرو برای قابلیت‌های چت‌بات و استدلال پیشرفته استفاده می‌کند.
  • آلفا کد ۲ (AlphaCode 2): ابزار تولید کد آلفا کد ۲ از DeepMind گوگل، نسخه سفارشی‌شده جمنای پرو را مورد استفاده قرار می‌دهد.
  • اندروید ۱۴: Pixcel 8 Pro، نخستین گوشی هوشمند تلفن همراهی است که از Gemini سود می‌برد. توسعه‌دهندگان اندروید می‌توانند با جمنای نانو از طریق قابلیت سیستم AICore برنامه‌های خود را بسازند.
  • «استدیو هوش مصنوعی گوگل» (Google AI Studio): توسعه دهندگان قادر خواهند بود تا با استفاده از ابزار مبتنی بر وب Google AI Studio، اپلیکیشن‌های خود را با Gemini بسازند.
  • جست و جو: گوگل به منظور کاهش تأخیر و افزایش کیفیت، در حال آزمایش به‌کارگیری جمنای در Search Generative Experience خود است.

آیا هوش مصنوعی Gemini بهتر از GPT است؟

با افزایش تقاضا برای مدل‌های LLM و راهکارهای هوش مصنوعی مولد، رقیب‌های گوناگونی در این بازار در مقابل گوگل قرار دارند. بسیاری از مدل‌های نوظهور می‌توانند عملکرد بهتری از جمنای داشته باشند، به‌ویژه اگر به پیشرفت خود ادامه دهند. فالکون 180B نمونه‌ای از این مدل‌ها است. با این‌حال، بسیاری از علاقه‌مندان به فناوری، تمایل به پرسیدن این سوال دارند که آیا جمنای بهتر از GPT-4 است یا خیر.

GPT-4 مدل زبانی بزرگ و چندوجهی شرکت OpenAI، به‌طور معمول، معیار – یا بنچمارکی – است که تمامی توسعه‌دهندگان از آن برای ارزشیابی قابلیت‌های LLM-های جدید بهره می‌برند.

هوش مصنوعی و درک داده های متنوع

خوشبختانه گوگل مقایسه کارایی جمنای و جی پی تی ۴ را با نمودارهای ساده موجود در صفحه «+» بسیار ساده کرده است. به گفته گوگل، GPT-4 تنها در حوزه‌ای – به‌نام HellaSwag Reasoning یا استدلال عقلانی – از جمنای عملکرد بهتری از خود نشان داده است. GPT-4 در این مورد امتیازی برابر با ۹۵٫۳٪ کسب کرده‌، در حالی‌که امتیاز جمنای ۸۷٫۸٪ شده است.

در سایر زمینه‌ها، جمنای اولترا نسبت به GPT-4 دارای برتری است. در ادامه جدولی شامل آمار مربوط به «متن» را آورده‌ایم.

قابلیت بنچمارک جمنای اولترا جی پی تی ۴
عمومی MMLU (ارائه پرسش‌های گوناگون در ۵۷ موضوع) ٪۹۰٫۰ ٪۸۶٫۴
Big-Bench Hard (کارهای پیچیده و نیازمند استدلال چندگامی) ٪۸۳٫۶ ٪۸۳٫۱
استدلال DROP (درک مطلب) ٪۸۲٫۴ ٪۸۰٫۹
GSM8K (محاسبات مقدماتی) ٪۹۴٫۴ ٪۹۲٫۰
ریاضیات MATH (مسائل پیچیده ریاضی) ٪۵۳٫۲ ٪۵۲٫۹
کدنویسی HumanEval (تولید کدهای پایتون) ٪۷۴٫۴ ٪۶۷٫۰
Natural2Code (تولید کدهای پایتون) ٪۷۴٫۹ ٪۷۳٫۹

با اینکه این آمار، تنها قدرت جمنای اولترا را نشان می‌دهد اما باید گفت که گوگل دریافته است که جمنای – به‌طور کلی – در وظایف چندوجهی بهتر از GPT-4 عمل می‌کند. به یاد داشته باشید که GPT-4 با اینکه چندوجهی است اما تنها قادر به پردازش متن و تصاویر است. از سویی دگیر Gemini را داریم که می‌تواند ویدیو، صدا، عکس و متون را پردازش کند. با توجه به اینکه گوگل به آموزش ابزارهای خود ادامه می‌دهد، این امکان وجود دارد که از کارایی سایر مدل‌ها فراتر رود.

د‌‌‌‌لیل متمایز بودن هوش مصنوعی جمنای چیست؟

زمانی‌که گوگل، هوش مصنوعی جمنای را به‌طور عمومی معرفی کرد،‌ بنیان‌گذار آن بیان کرد که این مدل، قابلیت‌های پیشرفته‌تری در حل مسئله و استدلال هوشمند فراهم خواهد کرد. او همچنین اعلام کرد که جمنای در مقابل Google Search، ممکن است از حافظه برای تصدیق حقایق منابع و از یادگیری تقویتی بهبودیافته برای کاهش محتوای غیرواقعی استفاده کند. هرچند که این مورد هنوز تأیید نشده است.

چیزی که می‌دانیم این است که هوش مصنوعی جمنای گوگل، خود را از چندین جنبه – مثل معماری – از رقیب‌هایش در بازار LLM متمایز کرده است. تا پیش از این، روش معمول برای ایجاد مدل‌های چندوجهی به این صورت بوده که مؤلفه‌های گوناگونی را برای مدل‌های مختلف آموزش داده و سپس با هم تلفیق می‌کنند.

پردازش در هوش مصنوعی

هوش مصنوعی جمنای به‌گونه‌ای طراحی شده است تا به‌طور ذاتی Multimodal یا چندوجهی باشد. این سیستم هوش مصنوعی، روی حالات گوناگون، آموزش دیده و پس از آن نیز با داده‌های چندوجهی اضافی، به‌طور دقیق، تنظیم یا به اصطلاح Fine-Tuned شده است.

هوش مصنوعی جمنای در چه حوزه هایی کارآمد است؟

در ادامه – تنها برخی و نه همه – زمینه‌هایی که هوش مصنوعی جمنای در آن‌ها کارآمدی بالایی ارائه می‌دهد را بیان کرده‌ایم.

استدلال پیشرفته چندوجهی

قابلیت‌های «استدلال پیشرفته چندوجهی» (Sophisticated Multimodal Reasoning) از هوش مصنوعی جمنای – نسخه ۱ – به این معنا است که این مدل می‌تواند اطلاعات نوشتاری و بصری پیچیده‌تری را بفهمد. همچنین به‌طرز بی‌نظیری در بیرون کشیدن نکات و بینش‌ها از حجم وسیعی از داده‌ها مهارت دارد. این ابزار حتی‌می‌تواند با غربال صدها هزار سند بینش‌های نوآورانه‌ای را با سرعتی باورنکردنی از آن‌ها کسب کند.

همچنین، به دلیل اینکه Gemini می‌تواند به‌طور همزمان تصاویر، متون، صدا و غیره را درک کند، برای فهمیدن اطلاعات – مفصل و با جزئیات دقیق – به‌کار می‌رود. ضمن اینکه می‌تواند به پرسش‌های پیچیده پاسخ دهد و ما را در امور مختلف نظیر ریاضیات و فیزیک یاری دهد.

کدنویسی پیشرفته

نخستین نسخه از Gemini می‌تواند کدهایی با کیفیت را به محبوب‌ترین زبان‌های برنامه‌نویسی دنیا – نظیر جاوا، C++‎ و Go ایجاد و درک کند. همچنین می‌تواند این کدها را توشیح دهد. جمنای در بنچمارک‌های مختلف مربوط به کدنویسی عملکردی عالی ارائه کرده است و می‌تواند به عنوان موتوری برای سیستم‌های «کدنویسی پیشرفته» (Advanced Coding) مورد استفاده قرار گیرد.

به‌طور مثال، گوگل AlphaCode را ۲ سال پیش به‌عنوان اولین سیستم کدنویسی با هوش مصنوعی عرضه کرد که در رقابت‌های برنامه‌نویسی عملکرد خوبی از خود نشان داد. گوگل با به‌کارگیری نسخه‌ای خاص از Gemini ، آلفاکد ۲ را ساخته‌است که نتایج بهتری را فراهم‌ می‌کند.

این مدل جدید در مقایسه با آلفا کد اصلی، مسائل بیشتری را حل می‌کند – تبه‌طور تقریبی ۲ برابر – و نسبت به ۸۵٪ شرکت‌کنندگان عملکرد بهتری از خود به نمایش گذاشته است.

به گفته گوگل، جمنای ۱ در مقیاسی بزرگ روی زیرساخت بهینه‌شده هوش مصنوعی و با به‌کارگیری واحدهای پردازشی تنسور یا همان TPU-های انحصاری آموزش دیده است. جمنای روی TPU-ها سریع‌تر از مدل‌های کوچکتر و کم‌قدرت‌تر اجرا می‌شود.

سوالات متداول

اکنون که یاد گرفتیم هوش مصنوعی جمنای چیست، خوب است تا با برخی از سوالات رایجی که ممکن است برایتان پیش آمده باشد، به‌همراه پاسخ‌های متناظرشان را با هم مرور کنیم.

تلفظ هوش مصنوعی جمنای چیست؟

هوش مصنوعی Gemini به‌صورت «جِمِنای» تلفظ می‌شود.

نسخه های مختلف هوش مصنوعی جمنای چیست؟

هوش مصنوعی جمنای شامل نسخه‌های نانو، پرو و اولترا است.

  • جمنای Nano: کارآمدترین مدل برای انجام کارها روی دستگاه به‌شمار می‌رود.
  • جمنای Pro: مناسب‌ترین مدل برای توسعه در طیف گسترده‌ای از کارها است.
  • جمنای Ultra: بزرگترین و قدرتمندترین مدل که برای کارهای به‌شدت پیچیده مورد استفاده قرار می‌گیرد.

توسعه‌دهندگان به‌زودی می‌توانند به TPU ابری v5p برای آموزش مدل‌های پیشرفته هوش مصنوعی خود دسترسی داشته باشند.با توجه به گفته‌های شرکت، این مورد، توسعه جمنای را سرعت بخشیده و به مشتریان شرکتی کمک می‌کند تا راهکارهای AI خود را ایجاد کنند.

پیشرفت های فنی هوش مصنوعی جمنای چیست؟

از پیشرفت‌های تکنیکال هوش مصنوعی Gemini گوگل می‌توانیم به قابلیت‌های چندوجهی بودن، استدلال پیشرفته، بنچمارک‌های عملکرد عالی، زیرساخت مقیاس‌پذیر و کارآمد و کاربردهای متنوع آن اشاره کنیم.

توسعه دهنده هوش مصنوعی جمنای کیست؟

هوش مصنوعی Gemini توسط گوگل و آلفابت – شرکت مادر گوگل – ساخته شده و به‌عنوان پیشرفته‌ترین مدل هوش مصنوعی گوگل تا این لحظه، منتشر شده است. دیپ‌مایند نیز مشارکت قابل توجهی در توسعه جمنای داشته است.

نحوه دسترسی به هوش مصنوعی جنمای چیست؟

Genemi در حال حاضر روی محصولات گوگل در نسخه‌های نانو و پرو – مانند گوشی تلفن‌همراه Pixel 8 و چت‌بات Bard موجود است. گوگل می‌خواهد در طول زمان، جمنای را در قسمت‌های جست و جو، کروم، تبلیغات و سایر سرویس‌های خود نیز ادغام کند.

‌جمع‌بندی

برای بررسی و تجربه هوش مصنوعی جمنای و نسخه اولترای آن، می‌بایست مدتی منتظر بمانیم. تا این لحظه، به‌نظر می‌رسد که غول فناوری گوگل در راستای رسیدن به هدف خود و به‌دست گرفتن مجدد بازار حوزه هوش مصنوعی، در مسیر درستی قرار گرفته است.

به نظر می‌رسد که جمنای، معیاری جدید برای مسیر هوش مصنوعی گوگل ایجاد کرده است. به گفته این شرکت، Gemini بیان‌گر شروع عصر جدیدی در توسعه LLM-ها است. بر اساس عقیده‌ای که گوگل دارد، ما در مسیر آینده‌ای هستیم که به‌وسیله هوش مصنوعی «مسئولیت‌پذیر» قدرت می‌گیرد.

آن‌ها همچنین می‌گویند که این آینده راهی را برای مراحل جدیدی از نوآوری، خلاقیت و به‌اشتراک‌گذاری دانش برای میلیاردها نفر در سراسر جهان ایجاد خواهد کرد. شگفت‌انگیز است که بببینم نسل بعدی توسعه‌دهندگان با راهکاری به قدرتمندی گوگل جمنای به چه مواردی دست خواهند یافت. در این مطلب از مجله فرادرس سعی کردیم تا به زبانی ساده بگوییم که هوش مصنوعی جمنای چیست و شامل چه مؤلفه‌هایی است. همچنین معماری و قابلیت‌های آن را نیز بیان کردیم.

source