رویداد Google I/O 2024؛ هوش مصنوعی و دیگر هیچ!
با آغاز مراسم Google I/O، رسما روزهای شلوغی در انتظار توسعهدهندگان (Developers) خواهد بود؛ چرا که یک هفته پس از گوگل I/O، کنفرانس توسعهدهندگان مایکروسافت (Microsoft Developers Conference) آغاز خواهد شد. نیمه دوم خرداد ماه نیز کنفرانس توسعهدهندگان اپل، WWDC 2024، در پیش است. انتظار داریم قسمت عمده این رویدادها متمرکز بر هوش مصنوعی باشند. این موضوع آنقدر از اولویت برخوردار است که حتی اپل برای اولینبار مراسمی را بهصورت جداگانه برای معرفی آیپدهای نسل جدید با عنوان رویداد Let Loose برگزار کرد تا در WWDC 2024، کاملا بر توسعه نرمافزار و هوش مصنوعی متمرکز بماند.
حتی کمپانی گوگل حدود یک هفته پیش از رویداد Google I/O با معرفی گوشی پیکسل 8a بهطور ضمنی تاکید کرد که تمایل ندارد تمرکز خود را در رویداد پیشرو بر چیزی جز نرمافزار و هوش مصنوعی بگذارد. با هم مروری خواهیم داشت بر آنچه گوگل در رویداد IO 2024 به آن پرداخته است!
رویداد گوگل IO یا گوگل AI؟!
اگر طی یک سال گذشته، اخبار مربوط به هوش مصنوعی را دنبال کرده باشید، حتما مشاهده کردهاید که روزی نبوده تا با یک هوش مصنوعی جدید مواجه نشده باشیم. طبیعتا، برخی از بازیگران بزرگ صنعت نیز طی یک سال گذشته، در رویدادهای اختصاصی، از دستاوردهای خود در این زمینه صحبت میکنند و سرآمد همه آنها گوگل نیز از این قاعده مستثنی نیست.
گوگل چندی پیش با ادغام تیمهای پیکسل، کروم و اندروید بهمنظور یکپارچگی هر چه بیشتر هوش مصنوعی در دستگاههای اندرویدی، ثابت کرد که در حال حاضر قصد دارد تمرکز عمده خود را روی هوش مصنوعی بگذارد. بنا به گفته ساندر پیچای (Sundar Pichai) مدیر عامل گوگل «این تصمیم منجر به بالا بردن کیفیت محصولات و تجربه کاربری خواهد شد؛ بهویژه آنکه اکوسیستم کروم و اندروید باید با سرعت هرچه بیشتر، بهترین نوآوریها را برای کاربران و شرکای ما داشته باشند.»
پیشرفت چشمگیر Gemini؛ هسته اصلی کنفرانس I/O 2024
همانطور که انتظار داشتیم، گوگل در I/O 2024 عمده تمرکز خود را روی توسعه و بهبود خانواده Gemini گذاشته است. البته بسیاری از ویژگیها یا ابزارهایی که گوگل در این مراسم معرفی کرد در مرحله آزمایشی به سر میبرد یا منحصرا به توسعهدهندگان محدود میشود. با این حال، چنین مراسمی میتواند ما را با خط مشی گوگل و نگرشی که نسبت به هوش مصنوعی دارد، بیشتر آشنا کند. در ادامه با پیشرفتهای خانواده Gemini بیشتر آشنا میشویم.
Gemini 1.5 Pro؛ تواناتر از همیشه
غول فناوری در مراسم Google IO 2024 از پیشرفتهای قابل توجه Gemini 1.5 Pro خبر داد. Context Window مدل زبانی Gemini 1.5 Pro که سال گذشته بهعنوان مدل پیشرفته جمنای 1.5 معرفی شد، به حدود یک میلیون توکن (Token) میرسید. به زبان سادهتر این مدل میتوانست حدود یک ساعت ویدئو، یازده ساعت فایل صوتی، سی هزار خط کد و بالای 700 هزار کلمه بفهمد. گوگل مدل Gemini 1.5 Pro را که تاکنون فقط برای توسعهدهندگان در دسترس بوده، از طریق Google AI Studio و Vertex AI در معرض پیشنمایش عمومی قرار داده است.
آنطور که ساندر پیچای توضیح داد Context Window جمنای 1.5 پرو اکنون به حدود دو میلیون توکن رسیده که این مقدار معادل دو ساعت ویدیو، 60 هزار خط کد و 1.4 میلیون کلمه است. این مدل زبانی اکنون منحصرا برای توسعهدهندگان و مشتریان Google Cloud در دسترس قرار گرفته است.
رونمایی از Gemini 1.5 Flash؛ عضو جدید خانواده Gemini
در کنفرانس I/O 2024، عضو جدیدی از خانواده هوش مصنوعی جمنای نیز معرفی شد. این محصول جدید که نسخه سبک و ارزانتر Gemini 1.5 Pro است، Gemini 1.5 Flash نام دارد. Demis Hassabis مدیر عامل Google DeepMind میگوید: «Gemini 1.5 Flash در خلاصهسازی، برنامه های چت، شرح تصاویر و ویدیو، استخراج دادهها از اسناد و جداول طولانی و موارد دیگر برتری دارد. گوگل Gemini Flash را ایجاد کرده زیرا توسعهدهندگان به مدلی ارزانتر و سبکتر از مدل پرو احتیاج داشتند.»
جمنای 1.5 فلش در جایی بین جمنای نانو و جمنای 1.5 پرو قرار میگیرد و با اینکه نسخه سبکترِ مدل پرو است اما به همان اندازه قدرتمند به حساب میآید. Context Wind این مدل به حدود یک میلیون توکن میرسد؛ یعنی قادر است بهصورت همزمان 30 هزار خط کد یا یک سند 1500 صفحهای را تجزیه و تحلیل کند. البته گفتنی است که Gemini 1.5 Flash نه برای کاربران عادی بلکه برای توسعهدهندگانی طراحی شده است که محصولات خود را با استفاده از فناوری گوگل طراحی میکنند.
Gemini Nano؛ جمنای در ابعاد دستگاههای هوشمند
طبق گفته ساندر پیچای، مدیر عامل گوگل «جمنای نانو (نسخه سبک مدل جمنای برای دستگاههای هوشمند) با پیشرفتهای بزرگی مواجه شده است. اکنون این مدل میتواند هر ورودی را به هر خروجی تبدیل کند.»
این موضوع به این معنی است که این مدل اکنون میتواند از متن، تصویر، صدا، محتوای موجود در وب یا ویدیوهای موجود در شبکههای اجتماعی و ویدیوهایی که به صورت لایو از دوربین گوشی هوشمند گرفته میشود اطلاعات کسب کند. سپس میتواند آن اطلاعات را خلاصه کند و آنها را در پاسخ به سوالات کاربران ارائه دهد.
گوگل در رویداد 2024 I/O نشان داد که در حال افزودن ویژگیهای بیشتر به جمنای در اندروید است. از جمله ویژگیهای جدیدی که به جمنای اندروید افزوده میشود، Ask This Video و Ask this PDF است. گوگل این دو ویژگی را ویژگیهای استاتیک یا ایستای این هوش مصنوعی مینامد؛ چرا که تا زمانی که کاربر بهطور شفاف پرسشی را مطرح نکند، جمنای از محتوای موضوعات اطلاعی ندارد.
گوگل همچنین از قابلیت پیشنهادات پویا (Dynamic Suggestion) صحبت میکند که در آن مدل Gemini Nano روی دستگاه از محتوا و کانتکست روی صفحه نمایش آگاه است و میتواند در رابطه با آن پیشنهاداتی را ارائه دهد. بهواسطه این قابلیت، دیگر لازم نیست کاربر از صفحه برنامه مورد نظر خارج شده و به جستوجو در اینترنت بپردازد. بهعنوان مثال، زمانی که با دوست خود درباره ورزشی در حال چت کردن و مکالمه هستید، این مدل با توجه به مکالمه شما با ارائه پیشنهاداتی همچون "قوانین فوتبال برای مبتدیها" و "جستوجوی باشگاه فوتبال نزدیک من" سعی میکند پیشنهاداتی را در این زمینه ارائه دهد.
خانواده Gemma میزبان دو عضو جدید؛ Gemma 2 و PaliGemma
گوگل در کنفرانس IO 2024 از پیشرفتهای قابل توجه خانواده مدلهای هوش مصنوعی Gemma خبر داد. مدل هوش مصنوعی Gemma که اوایل سال 2024 معرفی شد، از همان فناوری که در ساخت Gemini بهکار رفته است، استفاده میکند. این مدل در نسخههای 2 و 5 میلیارد پارامتری توسعه داده شده بود، اما گوگل در کنفرانس امسال از نسخه جدید آن، یعنی Gemma 2 با توانایی پردازش 27 میلیارد پارامتر رونمایی کرد. Gemma 2 که قرار است در ماه ژوئن امسال در اختیار توسعهدهندگان قرار بگیرد نیاز به منابع محاسباتی کمتری دارد و با معماری بهینه نوید موفقیتهای بزرگ در آینده را میدهد.
علاوهبر این، در این مراسم از PaliGemma، مدل هوش مصنوعی تصویری متن باز (open-source Vision-Language Model) نیز رونمایی شد. این مدل هوش مصنوعی طوری مهندسی شده است که بتواند وظایف زبان بینایی (Vision Language) مانند زیرنویس برای ویدیوهای کوتاه، درک متن در تصاویر، تشخیص و تقسیمبندی اشیاء را انجام دهد. بهعنوان مثال کاربر از هوش مصنوعی میخواهد آنچه را که در یک تصویر میبیند توضیح دهد و پس از شناسایی اجزای تصاویر جزء بهخصوصی از آن را هایلایت کند. این مدل هوش مصنوعی برای پردازش روی پردازندههای نسل بعدی Nvidia و واحد پردازش تنسور (TPU) گوگل بهینه شده است.
هوش مصنوعی Veo؛ رقابت تنگاتنگ با Sora اوپن ای آی!
گوگل در رقابت نزدیک با OpenAI از هوش مصنوعی متن به ویدئوی خود موسوم به Veo رونمایی کرد. مدل Veo با درک هر چه بیشتر دنیای واقعی و مفاهیم آن و با استفاده از پردازش زبان طبیعی میتواند هر آنچه را که در ذهن کاربر میگذرد به صورت ویدئو خلق کند و خروجی را با کیفیت FullHD ارائه دهد. وئو قادر است تکنیکهای سینمایی و استایلهای دیداری مانند تایم لپس و تصاویر هوایی از یک منظره را در این ویدئوها بهوجود آورد.
در آینده، برخی از قابلیتهای وئو، در Youtube Shorts و محصولات دیگر ادغام میشود و همه کاربران میتوانند از آن استفاده کنند، اما این شرکت میگوید فعلا دسترسی به Veo صرفا از طریق سرویس VideoFX امکانپذیر است و فقط در دسترس برخی از تولیدکنندگان محتوا قرار میگیرد.
هوش مصنوعی Imagen 3؛ خط و نشان گوگل برای Dall-E3
میان باران هوش مصنوعی در Google IO 2024، این کمپانی از هوش مصنوعی مولد متن به تصویر Imagen 3 رونمایی کرد که نسبت به نسخه قبلی خود، تصاویر را با دقت و جزئیات بیشتری به تصویر میکشد. گفته میشود این مدل، با دقت بسیار بالایی میتواند انعکاس نور خورشید یا جزئیات بسیار کوچک روی بدن حیوانات را در پرامپتهای طولانی درک کند و آنها را به تصویر بکشد. Imagen 3 هنوز در دسترس همه کاربران قرار نگرفته است و فقط برخی مشتریان سازمانی گوگل به آن دسترسی دارند.
پروژه آسترا؛ بلندپروازی به سبک گوگل
گوگل از پروژه آسترا (Project Astra) بهعنوان Agent پیشرفته پاسخگو یاد میکند. این موضوع به این معنی است که در آیندهای نزدیک، هوش مصنوعی گوگل میتواند از محیط اطراف کاربر اطلاعات کسب کند و بهصورت همزمان به سوالات وی پاسخ دهد. گوگل در IO 2024، ویدئویی دو قسمتی منتشر کرد تا نحوه عملکرد Project Astra را به شرکتکنندگان توضیح دهد. نیمه اول ویدئو، پروژه استرا را در حال اجرا روی گوشی موبایل Google Pixel نشان میدهد و نیمه دوم آن، روی عینک هوش مصنوعی گوگل ادامه مییابد.
در ویدئوی دمو میبینیم که کاربری با استفاده از گوشی پیکسل، از طریق اپلیکیشن دوربین محیط اطراف را به Gemini نشان میدهد و با پرسیدن سوالاتی توانایی جمنای در درک و پاسخ سریع را به تصویر میکشد. بهعنوان مثال کاربر از هوش مصنوعی سوالی با عنوان «به من بگو که آیا وسیلهای در اتاق میبینی که صدا تولید کند؟» میپرسد و Gemini در کسری از ثانیه اسپیکر موجود روی میز را شناسایی میکند.
در صحنه جالب توجهی دیگر، کاربر با نشان دادن مجموعه کدی روی یک مانیتور از Gemini کاربرد آنها را میپرسد و Gemini بهطور حیرتانگیزی به این پرسش پاسخ میدهد. در انتها میبینیم که جمنای توانایی خارق العادهای در شناسایی محیط اطراف و به خاطر سپردن جزئیات آن دارد. چرا که در صحنه آخر، هوش مصنوعی گوگل به طور دقیق میداند قبلا کاربر عینک خود را در کدام قسمت اتاق گذاشته است. متوجه میشویم گوگل بهطور ضمنی اشاره به عینک هوش مصنوعی خود دارد. چرا که کاربر در این لحظه تلفن همراه را کنار گذاشته و با پوشیدن عینک به ارتباط خود با جمنای ادامه میدهد.
Wear OS 5؛ دقیق و بهینه!
اندروید تنها سیستم عاملی نیست که گوگل آن را توسعه میدهد. Wear OS نیز یکی از این سیستمعاملهاست که در ساعتهای هوشمند مورد استفاده قرار میگیرد. همانطور که انتظار داشتیم، گوگل در I/O 2024، پیشنمایشی از نسخه جدید سیستمعامل ساعت هوشمند خود، یعنی Wear OS 5 را برای توسعهدهندگان ارائه کرد. در این نسخه از این سیستمعامل، گوگل روی بالا بردن عمر باتری و ردیابی کارآمدتر تمرینات ورزشی تمرکز کرده است.
سخن آخر
یک روز پس از عرضه ChatGPT-4o توسط OpenAI، گوگل در I/O 2024 با عرضه هوش مصنوعی چند وجهی (MultiModal AI) گام بزرگی برای ارتقای خانواده هوش مصنوعی جمنای برداشته است. حال باید منتظر رویداد مایکروسافت و اپل در روزها و ماههای آتی باشیم و ببینیم که این کمپانیها در زمینه هوش مصنوعی چه حرفهایی برای گفتن دارند.
پرسشهای متداول
چگونه میتوان مراسم 2024 Google I/O را مشاهده کرد؟
این مراسم از وبسایت رسمی گوگل و کانال یوتیوب این کمپانی پخش شده است.
هدف گوگل از معرفی پیش از موعد پیکسل 8a چیست؟
بنظر میرسد هدف گوگل با این کار خالی کردن صحنه گوگل IO، برای حضور پررنگتر هوش مصنوعی باشد.
به این مطلب امتیاز دهید!
مطالب مرتبط |