رویداد Google I/O 2024؛ هوش مصنوعی و دیگر هیچ!

نظرات 0 29 اردیبهشت 1403

مراسم گوگل I/O 2024، در حالی برگزار شد که گوگل عمده تمرکز خود را بر توسعه هوش مصنوعی و ادغام آن با دیگر سرویس‌های خود گذاشته است!

با آغاز مراسم Google I/O، رسما روزهای شلوغی در انتظار توسعه‌دهندگان (Developers) خواهد بود؛ چرا که یک هفته پس از گوگل I/O، کنفرانس توسعه‌دهندگان مایکروسافت (Microsoft Developers Conference) آغاز خواهد شد. نیمه دوم خرداد ماه نیز کنفرانس توسعه‌دهندگان اپل، WWDC 2024، در پیش است. انتظار داریم قسمت عمده این رویداد‌ها متمرکز بر هوش مصنوعی باشند. این موضوع آن‌قدر از اولویت برخوردار است که حتی اپل برای اولین‌بار مراسمی را به‌صورت جداگانه برای معرفی آیپدهای نسل جدید با عنوان رویداد Let Loose برگزار کرد تا در WWDC 2024، کاملا بر توسعه نرم‌افزار و هوش مصنوعی متمرکز بماند.

حتی کمپانی گوگل حدود یک هفته پیش از رویداد Google I/O با معرفی گوشی پیکسل 8a به‌طور ضمنی تاکید کرد که تمایل ندارد تمرکز خود را در رویداد پیش‌رو بر چیزی جز نرم‌افزار و هوش مصنوعی بگذارد. با هم مروری خواهیم داشت بر آنچه گوگل در رویداد IO 2024 به آن پرداخته است!

رویداد گوگل IO یا گوگل AI؟!

اگر طی یک سال گذشته، اخبار مربوط به هوش مصنوعی را دنبال کرده باشید، حتما مشاهده کرده‌اید که روزی نبوده تا با یک هوش مصنوعی جدید مواجه نشده باشیم. طبیعتا، برخی از بازیگران بزرگ صنعت نیز طی یک سال گذشته، در رویداد‌های اختصاصی، از دستاورد‌های خود در این زمینه صحبت می‌کنند و سرآمد همه آن‌ها گوگل نیز از این قاعده مستثنی نیست.

گوگل چندی پیش با ادغام تیم‌های پیکسل، کروم و اندروید به‌منظور یکپارچگی هر چه بیشتر هوش مصنوعی در دستگاه‌های اندرویدی، ثابت کرد که در حال حاضر قصد دارد تمرکز عمده خود را روی هوش مصنوعی بگذارد. بنا به گفته ساندر پیچای (Sundar Pichai) مدیر عامل گوگل «این تصمیم منجر به بالا بردن کیفیت محصولات و تجربه کاربری خواهد شد؛ به‌ویژه آن‌که اکوسیستم کروم و اندروید باید با سرعت هرچه بیشتر، بهترین نوآوری‌ها را برای کاربران و شرکای ما داشته باشند.»

رویداد گوکل با سخنرانی ساندار پیچای

پیشرفت چشم‌گیر Gemini؛ هسته اصلی کنفرانس I/O 2024

همان‌طور که انتظار داشتیم، گوگل در I/O 2024 عمده تمرکز خود را روی توسعه و بهبود خانواده Gemini گذاشته است. البته بسیاری از ویژگی‌ها یا ابزارهایی که گوگل در این مراسم معرفی کرد در مرحله آزمایشی به سر می‌برد یا منحصرا به توسعه‌دهندگان محدود می‌شود. با این حال، چنین مراسمی می‌تواند ما را با خط مشی گوگل و نگرشی که نسبت به هوش مصنوعی دارد، بیشتر آشنا کند. در ادامه با پیشرفت‌های خانواده Gemini بیشتر آشنا می‌شویم.

Gemini 1.5 Pro؛ تواناتر از همیشه

غول فناوری در مراسم Google IO 2024 از پیشرفت‌های قابل توجه Gemini 1.5 Pro خبر داد. Context Window مدل زبانی Gemini 1.5 Pro که سال گذشته به‌عنوان مدل پیشرفته جمنای 1.5 معرفی شد، به حدود یک میلیون توکن (Token) می‌رسید. به زبان ساده‌تر این مدل می‌توانست حدود یک ساعت ویدئو، یازده ساعت فایل صوتی، سی هزار خط کد و بالای 700 هزار کلمه بفهمد. گوگل مدل Gemini 1.5 Pro را که تاکنون فقط برای توسعه‌دهندگان در دسترس بوده‌، از طریق Google AI Studio و Vertex AI در معرض پیش‌نمایش عمومی قرار داده است.

آن‌طور که ساندر پیچای توضیح داد Context Window جمنای 1.5 پرو اکنون به حدود دو میلیون توکن رسیده که این مقدار معادل دو ساعت ویدیو، 60 هزار خط کد و 1.4 میلیون کلمه است. این مدل زبانی اکنون منحصرا برای توسعه‌دهندگان و مشتریان Google Cloud در دسترس قرار گرفته است.

رونمایی از Gemini 1.5 Flash؛ عضو جدید خانواده Gemini

در کنفرانس I/O 2024، عضو جدیدی از خانواده هوش مصنوعی جمنای نیز معرفی شد. این محصول جدید که نسخه سبک و ارزان‌تر Gemini 1.5 Pro است، Gemini 1.5 Flash نام دارد. Demis Hassabis مدیر عامل Google DeepMind می‌گوید: «Gemini 1.5 Flash در خلاصه‌سازی، برنامه های چت، شرح تصاویر و ویدیو، استخراج داده‌ها از اسناد و جداول طولانی و موارد دیگر برتری دارد. گوگل Gemini Flash را ایجاد کرده زیرا توسعه‌دهندگان به مدلی ارزان‌تر و سبک‌تر از مدل پرو احتیاج داشتند.»

جمنای 1.5 فلش در جایی بین جمنای نانو و جمنای 1.5 پرو قرار می‌گیرد و با اینکه نسخه سبک‌ترِ مدل پرو است اما به همان اندازه قدرتمند به حساب می‌آید. Context Wind این مدل به حدود یک میلیون توکن می‌رسد؛ یعنی قادر است به‌صورت همزمان 30 هزار خط کد یا یک سند 1500 صفحه‌ای را تجزیه و تحلیل کند. البته گفتنی است که Gemini 1.5 Flash نه برای کاربران عادی بلکه برای توسعه‌دهندگانی طراحی شده است که محصولات خود را با استفاده از فناوری گوگل طراحی می‌کنند.

Gemini Nano؛ جمنای در ابعاد دستگاه‌های هوشمند

طبق گفته ساندر پیچای، مدیر عامل گوگل «جمنای نانو (نسخه سبک مدل جمنای برای دستگاه‌های هوشمند) با پیشرفت‌های بزرگی مواجه شده است. اکنون این مدل می‌تواند هر ورودی را به هر خروجی تبدیل کند.»

این موضوع به این معنی است که این مدل اکنون می‌تواند از متن، تصویر، صدا، محتوای موجود در وب یا ویدیو‌های موجود در شبکه‌های اجتماعی و ویدیو‌هایی که به صورت لایو از دوربین گوشی هوشمند گرفته می‌شود اطلاعات کسب کند. سپس می‌تواند آن اطلاعات را خلاصه کند و آن‌ها را در پاسخ به سوالات کاربران ارائه دهد.

گوگل در رویداد 2024 I/O نشان داد که در حال افزودن ویژگی‌های بیشتر به جمنای در اندروید است. از جمله ویژگی‌های جدیدی که به جمنای اندروید افزوده می‌شود، Ask This Video و Ask this PDF است. گوگل این دو ویژگی را ویژگی‌های استاتیک یا ایستای این هوش مصنوعی می‌نامد؛ چرا که تا زمانی که کاربر به‌طور شفاف پرسشی را مطرح نکند، جمنای از محتوای موضوعات اطلاعی ندارد.

هوش مصنوعی جمنای نانو

گوگل همچنین از قابلیت پیشنهادات پویا (Dynamic Suggestion) صحبت می‌کند که در آن مدل Gemini Nano روی دستگاه از محتوا و کانتکست روی صفحه نمایش آگاه است و می‌تواند در رابطه با آن پیشنهاداتی را ارائه دهد. به‌واسطه این قابلیت، دیگر لازم نیست کاربر از صفحه برنامه مورد نظر خارج شده و به جست‌و‌جو در اینترنت بپردازد. به‌عنوان مثال، زمانی که با دوست خود درباره ورزشی در حال چت کردن و مکالمه هستید، این مدل با توجه به مکالمه شما با ارائه پیشنهاداتی همچون "قوانین فوتبال برای مبتدی‌ها" و "جست‌وجوی باشگاه فوتبال نزدیک من" سعی می‌‌کند پیشنهاداتی را در این زمینه ارائه دهد.

خانواده Gemma میزبان دو عضو جدید؛ Gemma 2 و PaliGemma

گوگل در کنفرانس IO 2024 از پیشرفت‌های قابل توجه خانواده مدل‌های هوش مصنوعی Gemma خبر داد. مدل هوش مصنوعی Gemma که اوایل سال 2024 معرفی شد، از همان فناوری که در ساخت Gemini به‌کار رفته است، استفاده می‌کند. این مدل در نسخه‌های 2 و 5 میلیارد پارامتری توسعه داده شده بود، اما گوگل در کنفرانس امسال از نسخه جدید آن، یعنی Gemma 2 با توانایی پردازش 27 میلیارد پارامتر رونمایی کرد. Gemma 2 که قرار است در ماه ژوئن امسال در اختیار توسعه‌دهندگان قرار بگیرد نیاز به منابع محاسباتی کمتری دارد و با معماری بهینه نوید موفقیت‌های بزرگ در آینده را می‌دهد.

علاوه‌بر این، در این مراسم از PaliGemma، مدل هوش مصنوعی تصویری متن باز (open-source Vision-Language Model) نیز رونمایی شد. این مدل هوش مصنوعی طوری مهندسی شده است که بتواند وظایف زبان بینایی (Vision Language) مانند زیرنویس برای ویدیوهای کوتاه، درک متن در تصاویر، تشخیص و تقسیم‌بندی اشیاء را انجام دهد. به‌عنوان مثال کاربر از هوش مصنوعی می‌خواهد آن‌چه را که در یک تصویر می‌بیند توضیح دهد و پس از شناسایی اجزای تصاویر جزء به‌خصوصی از آن را هایلایت کند. این مدل هوش مصنوعی برای پردازش روی پردازنده‌های نسل بعدی Nvidia و واحد پردازش تنسور (TPU) گوگل بهینه شده است.

هوش مصنوعی Veo؛ رقابت تنگاتنگ با Sora اوپن ای آی!

گوگل در رقابت نزدیک با OpenAI از هوش مصنوعی متن به ویدئوی خود موسوم به Veo رونمایی کرد. مدل Veo با درک هر چه بیشتر دنیای واقعی و مفاهیم آن و با استفاده از پردازش زبان طبیعی می‌تواند هر آنچه را که در ذهن کاربر می‌گذرد به صورت ویدئو خلق کند و خروجی را با کیفیت FullHD ارائه دهد. وئو قادر است تکنیک‌های سینمایی و استایل‌های دیداری مانند تایم لپس و تصاویر هوایی از یک منظره را در این ویدئوها به‌وجود آورد.

در آینده‌، برخی از قابلیت‌های وئو، در Youtube Shorts و محصولات دیگر ادغام می‌شود و همه کاربران می‌توانند از آن استفاده کنند، اما این شرکت می‌گوید فعلا دسترسی به Veo صرفا از طریق سرویس VideoFX امکان‌پذیر است و فقط در دسترس برخی از تولیدکنندگان محتوا قرار می‌گیرد.

هوش مصنوعی Imagen 3؛ خط و نشان گوگل برای Dall-E3

میان باران هوش مصنوعی در Google IO 2024، این کمپانی از هوش مصنوعی مولد متن به تصویر Imagen 3 رونمایی کرد که نسبت به نسخه قبلی خود، تصاویر را با دقت و جزئیات بیشتری به تصویر می‌کشد. گفته می‌شود این مدل، با دقت بسیار بالایی می‌تواند انعکاس نور خورشید یا جزئیات بسیار کوچک روی بدن حیوانات را در پرامپت‌های طولانی درک کند و آن‌ها را به تصویر بکشد. Imagen 3 هنوز در دسترس همه کاربران قرار نگرفته است و فقط برخی مشتریان سازمانی گوگل به آن دسترسی دارند.

هوش مصنوعی Imagen 3

پروژه آسترا؛ بلندپروازی به سبک گوگل

گوگل از پروژه آسترا (Project Astra) به‌عنوان Agent پیشرفته پاسخگو یاد می‌کند. این موضوع به این معنی است که در آینده‌ای نزدیک، هوش مصنوعی گوگل می‌تواند از محیط اطراف کاربر اطلاعات کسب کند و به‌صورت همزمان به سوالات وی پاسخ دهد. گوگل در IO 2024، ویدئویی دو قسمتی منتشر کرد تا نحوه عملکرد Project Astra را به شرکت‌کنندگان توضیح دهد. نیمه اول ویدئو، پروژه استرا را در حال اجرا روی گوشی موبایل Google Pixel نشان می‌دهد و نیمه دوم آن، روی عینک هوش مصنوعی گوگل ادامه می‌یابد.

در ویدئوی دمو می‌بینیم که کاربری با استفاده از گوشی پیکسل، از طریق اپلیکیشن دوربین محیط اطراف را به Gemini نشان می‌دهد و با پرسیدن سوالاتی توانایی جمنای در درک و پاسخ سریع را به تصویر می‌کشد. به‌عنوان مثال کاربر از هوش مصنوعی سوالی با عنوان «به من بگو که آیا وسیله‌ای در اتاق می‌بینی که صدا تولید کند؟» می‌پرسد و Gemini در کسری از ثانیه اسپیکر موجود روی میز را شناسایی می‌کند.

در صحنه‌ جالب توجهی دیگر، کاربر با نشان دادن مجموعه کدی روی یک مانیتور از Gemini کاربرد آن‌ها را می‌پرسد و Gemini به‌طور حیرت‌انگیزی به این پرسش پاسخ می‌دهد. در انتها می‌بینیم که جمنای توانایی خارق العاده‌ای در شناسایی محیط اطراف و به خاطر سپردن جزئیات آن دارد. چرا که در صحنه آخر، هوش مصنوعی گوگل به طور دقیق می‌داند قبلا کاربر عینک خود را در کدام قسمت اتاق گذاشته است. متوجه می‌شویم گوگل به‌طور ضمنی اشاره به عینک هوش مصنوعی خود دارد. چرا که کاربر در این لحظه تلفن همراه را کنار گذاشته و با پوشیدن عینک به ارتباط خود با جمنای ادامه می‌دهد.

Wear OS 5؛ دقیق‌ و بهینه!

اندروید تنها سیستم عاملی نیست که گوگل آن را توسعه می‌دهد. Wear OS نیز یکی از این سیستم‌عامل‌هاست که در ساعت‌های هوشمند مورد استفاده قرار می‌گیرد. همانطور که انتظار داشتیم، گوگل در I/O 2024، پیش‌نمایشی از نسخه جدید سیستم‌عامل ساعت هوشمند خود، یعنی Wear OS 5 را برای توسعه‌دهندگان ارائه کرد. در این نسخه از این سیستم‌عامل، گوگل روی بالا بردن عمر باتری و ردیابی کارآمدتر تمرینات ورزشی تمرکز کرده است.

سیستم عامل wearOs

سخن آخر
یک روز پس از عرضه ChatGPT-4o توسط OpenAI، گوگل در I/O 2024 با عرضه هوش مصنوعی چند وجهی (MultiModal AI) گام بزرگی برای ارتقای خانواده هوش مصنوعی جمنای برداشته است. حال باید منتظر رویداد مایکروسافت و اپل در روزها و ماه‌های آتی باشیم و ببینیم که این کمپانی‌ها در زمینه هوش مصنوعی چه حرف‌هایی برای گفتن دارند.

پرسش‌های متداول