محققان اپل مدل هوش مصنوعی ReALM را معرفی کردند؛ بهتر از GPT-4


محققان اپل در مقاله‌ای تحقیقاتی خبر از توسعه یک سیستم هوش مصنوعی جدید داده‌اند که می‌تواند داده‌ها و ورودی‌های صفحه نمایش گوشی، بافت یا کانتکست مکالمات و تصاویر را درک کند. این سیستم جدید می‌تواند تعاملات طبیعی‌تر با دستیارهای صوتی مانند سیری را امکان‌پذیر کند. به ادعای محققان بنچمارک‌های این سیستم بهتر از مدل GPT-4 است.

محققان اپل در مقاله خود از سیستم ReALM نام می‌برند که از مدل‌های زبانی بزرگ برای درک ارجاعات مختلف بصری به منظور ارتباط طبیعی‌تر با کاربر استفاده می‌کند. این سیستم می‌تواند دستیار صوتی سیری را پیشرفته و مفیدتر کند.

محققان اپل می‌گویند که توانایی درک پیش‌زمینه مکالمه و تصاویر برای یک دستیار صوتی ضروری است. برای مثال هنگام استفاده از حالت CarPlay دستیار صوتی با تشخیص تصاویری که در پنل نوتیفیکیشن کاربر وجود دارد، می‌تواند بهتر کارهای او را از طریق فرمان‌های صوتی انجام دهد.

هوش مصنوعی ReALM اپل چگونه می‌تواند به توسعه دستیار صوتی پیشرفته کمک می‌کند؟

در مقاله محققان اپل، آن‌ها به تفصیل نحوه عملکرد این سیستم را تشریح کرده‌اند. این سیستم از چندین ورودی و داده‌های گوشی و کاربر برای ارتباط طبیعی‌تر با او استفاده می‌کند. اولین مورد، داده‌های صفحه نمایش گوشی است؛ به عبارتی، هوش مصنوعی همان‌چیزی که کاربر می‌بیند را خواهد دید و درک خواهد کرد.

دومین مورد، داده‌های مکالمه است. در این بخش، این سیستم باتوجه به مکالمات قبلی کاربر و همچنین اطلاعات گوشی می‌تواند کارهای او را انجام دهد.

سومین مورد نیز به داده‌های دنیای خارج و واقعی مربوط است. برای مثال این سیستم می‌تواند با شنیدن موسیقی که در محیط پخش است، یا صدای زنگ ساعت، با کاربر ارتباط مؤثرتری داشته باشد. گفتنی است که پیش‌تر شایعه‌ای خبر از تجهیز آیفون 16 به میکرفون‌های بهبودیافته‌ با نویزگیر بهتر داده بود، بنابراین احتمالاً دستیار صوتی اپل یا سیری در آینده در تشخیص صداهای خارجی بهتر عمل خواهد کرد.

اگر اپل بتواند این سیستم را به‌درستی روی سیری پیاده‌سازی کند، باید انتظار یک دستیار صوتی هوشمند و پیشرفته را داشته باشیم. به ادعای محققان، سیستم ReALM با اینکه از پارامترهای بسیار کمتری تشکیل شده است، از LLMهای پیشرفته امروزی مانند GPT-4 بهتر عمل می‌کند.

دیدگاهتان را بنویسید