Xai, mardi Imaginez V0.9 a annoncé sa version. Ce modèle réduit le processus de transformation du texte à la vidéo et de l'image en vidéo en dessous de 15 secondes et offre une prise en charge des conversations de caractère dans la production sonore. Avec cette mise à niveau, la qualité visuelle, la maîtrise du mouvement et Production multimod Leurs capacités sont sérieusement développées.
Le système, qui ne peut produire que des vidéos silencieuses ou visuelles dans les premières versions, a été enrichi des fonctions de type «Mode de parole» qui peuvent sonner les caractères dans la nouvelle version. Selon le partage de Xai, cette version a de grands progrès en termes de détails visuels, d'éclairage, de transitions d'ombre et de cohérence du mouvement par rapport à la v0.1.
De plus, Elon Musk, la plate-forme Grok Imagine de Xai, a déclaré que la production de secondes en secondes, déclarant que la création de vidéos de plus de 15 secondes a annoncé qu'elle ne nécessiterait plus d'attente. Cela comprend le potentiel de réduire considérablement le coût du temps, en particulier pour les producteurs de contenu, le secteur de la publicité et les gestionnaires de médias sociaux.
Grok Imagine V0.9 est devenu un modèle qui peut produire en détectant des entrées de texte, d'image et de son. En plus de la transformation rapide, des fonctionnalités telles que la production de caractères sonores, les modes «Fun» et «Custom» et le contrôle du style visuel ont été ajoutés au modèle. À cet égard, il est situé avec une capacité fonctionnelle plus large contre le modèle Sora 2 d'Openai.
Imagine V0.9 transportera la production vidéo à un nouveau niveau
En regardant les expériences des utilisateurs, les performances de production à court terme du modèle sont saluées. Dans les essais, on voit que les sorties vidéo à haute résolution sont tirées des scripts donnés au mode «Grok 4 Fast» en quelques secondes. Cependant, certains détails du visage et de la main seraient des incohérences observées. Nous avons observé que le dernier modèle a connu un grand succès dans la production vidéo dans nos expériences.
Le mode du modèle, qui comprend l'opportunité de production pour forcer les limites de contenu, a également fait l'objet de discussions. Certains tests montrent que ce mode peut être produit par des imitations sonores et un contenu sensible des personnes célèbres. Cela soulève des contrôles plus stricts sur la vérification du contenu, le droit d'auteur et les limites éthiques.
Parmi les plans futurs de l'entreprise Gok Imagine V1.0 La version présente des vidéos plus longues et une infrastructure visuelle avancée. Ils ont également annoncé qu'ils effectueraient leurs formations modèles sur 110 mille GB 200 GPU avec l'infrastructure de superformation appelée Colossus.
Cette évolution montre que la concurrence s'accumule rapidement dans la production vidéo soutenue de l'intelligence artificielle. Imaginez V0.9, vitesse, multiplicité Et intégration audio est devenu un exemple efficace dans le secteur. Cependant, les limites techniques et la nécessité d'une éthique seront parmi les sujets à surveiller étroitement.