Les rumeurs sur les appareils de nouvelle génération d'Apple avec intelligence artificielle soutenue depuis longtemps ont trouvé sa place sur l'agenda technologique. Il est affirmé que la société publiera les produits que Meta a développés pour rivaliser avec Ray-Ban Smart Lunes jusqu'en 2027. Ces produits incluent de nouveaux modèles Apple AirPods avec appareil photo. On pense que tous ces appareils offrent des expériences soutenues par l'intelligence artificielle.
Mais aujourd'hui, certains signes techniques peuvent être vus sur le type d'architecture de l'intelligence artificielle utilisera sur ces appareils. L'équipe de recherche sur l'apprentissage automatique de l'entreprise a introduit un cadre appelé MLX en 2023. Développé pour les processeurs d'Apple Silicon, ce cadre offre la possibilité de former et d'exécuter un modèle directement sur l'appareil. Il fournit un environnement familier aux développeurs.
Apple a développé le modèle FastVLM pour un fonctionnement efficace sur l'appareil
Basé sur MLX Framework, Apple a maintenant présenté le modèle de langue visuelle appelée FastVLM au public. Ce modèle peut traiter des images de résolution haute avec une puissance de traitement beaucoup plus faible. Selon l'analyse technique d'Apple, le modèle; Il fournit un équilibre efficace entre le temps de retard, le nombre de jetons et la taille du modèle. Cela signifie un grand avantage en particulier pour travailler sur des appareils mobiles et portables.
Fastvithd, le centre de FastVLM, est particulièrement configuré pour effectuer des performances efficaces dans des visuels à haute résolution. Apple dit que l'encodeur est 3,2 fois plus rapide que les modèles similaires. De plus, la taille du modèle est 3,6 fois plus petite. Ainsi, le traitement des données peut être effectué avec beaucoup plus rapidement et moins d'énergie sur les dispositifs de traitement locaux.
La faible production de jetons d'Apple, qui est préférée dans le modèle, est particulièrement efficace pour produire une réponse du modèle. Le temps du premier jeton pour atteindre l'utilisateur est 85 fois plus rapide que les données d'Apple. Cela montre que la première réponse de l'utilisateur peut être initiée presque instantanément. Cette vitesse peut être la clé d'une expérience courante pour les appareils portables.
L'un des aspects les plus frappants de FastVLM est qu'il termine l'ensemble du processus directement sur l'appareil. De cette façon, le besoin de connexion Internet est réduit et les données utilisateur sont traitées sans sortir de l'appareil. C'est un grand avantage en particulier pour les utilisations où la confidentialité est à l'avant-garde. De plus, cette structure élimine la dépendance de l'appareil à l'égard des systèmes basés sur le cloud.
La présence du modèle aux développeurs via GitHub comme open source est considérée comme une étape autre que la structure fermée habituelle d'Apple. Cependant, le rapport technique sur l'ARXIV contient des informations précieuses pour les chercheurs qui souhaitent comprendre de plus près la structure du modèle. Bien que les détails du rapport soient complexes, il est assez intéressant pour la communauté universitaire. Les développeurs peuvent avoir la possibilité de créer de nouvelles utilisations.
Apple a récemment attiré l'attention avec ses produits axés sur la réalité augmentée tels que Vision Pro. Cependant, des modèles légers et efficaces tels que FastVLM guident pour des dispositifs plus compacts. À l'avenir, il peut être possible de rencontrer des produits plus petits mais plus talentueux. Cela rend l'expérience d'intelligence artificielle plus accessible à l'utilisateur.
Malgré tout, il est important de noter que ce modèle n'est pas seulement une étape technique. FastVLM révèle que les appareils portables développent non seulement du matériel mais aussi des logiciels. L'analyse d'image, la compréhension du langage et les éléments de retour rapide peuvent désormais fonctionner plus intégrés. Cela révèle quel type de solutions pratiques de lunettes intelligentes dans la vie quotidienne.