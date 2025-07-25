Au cours des derniers mois, plusieurs acteurs majeurs ont fait leur entrée sur le marché de la conversion de texte en vidéo. En décembre 2024, OpenAI a lancé Sora, son premier modèle capable de générer de courts clips vidéo à partir de texte. En mai 2025, Google Gemini a présenté Veo 3, dédié à la qualité et la cohérence des vidéos. Le domaine connaît une croissance rapide, mais les fondateurs de Moonvalley estiment que de nombreuses options disponibles sur le marché négligent un aspect essentiel : ce que les artistes pensent de l’IA.
« Dès le premier jour, notre objectif était essentiellement de créer des modèles adaptés à la production, a déclaré Naeem Talukdar, cofondateur et PDG de Moonvalley, dans une interview accordée à IBM Think. Quels sont les modèles dont les cinéastes et les créateurs ont réellement besoin et qu’ils souhaitent utiliser ? » Moonvalley a recruté des chercheurs de DeepMind et Google et est également partenaire d’Asteria, un studio de cinéma d’IA fondé par Bryn Mooser, cadre de l’industrie cinématographique.
Depuis que la recherche sur les modèles de génération de texte en vidéo a pris son essor, de nombreux acteurs du secteur de l’IA anticipent une nouvelle révolution dans la production cinématographique et télévisuelle. Le réalisateur James Cameron a rejoint le conseil d’administration de Stability AI il y a près d’un an, et Darren Aronofsky, lauréat d’un Oscar, a récemment annoncé un partenariat avec Google DeepMind. Il convient également de mentionner que les films réalisés à l’aide de l’IA pourront remporter des Oscars, selon l’Academy of Motion Picture Arts and Sciences. Et Netflix vient de sortir sa première série utilisant l’IA générative.
L’IA est un sujet sensible à Hollywood, en particulier pendant la grève des scénaristes. De nombreux artistes ont exprimé leur crainte que leur voix ou leur image puissent être reproduites sans leur consentement.
Mais selon M. Talukdar, la plupart des producteurs n’ont pas encore franchi le pas de l’IA. Non pas en raison de ce que la technologie peut ou ne peut pas faire, mais en raison des préoccupations liées aux droits d’auteur. « Ce que nous avons constaté au niveau des studios, c’est que, pour des raisons juridiques et éthiques, personne ne voulait toucher à ces modèles en raison des données sur lesquelles ils étaient entraînés », a-t-il déclaré.
« Indépendamment de l’issue des différents procès et des précédents qui en découleront, un point demeure incontestable : la crainte que l’utilisation d’un modèle entraîné sur des millions et des millions d’heures d’images puisse conduire, même involontairement, à divulguer ou générer des images protégées par le droit d’auteur, a ajouté M. Talukdar. C’est totalement inacceptable pour les cinéastes et les studios sérieux. »
Créer un outil qui donnerait plus de pouvoir aux artistes et atténuerait cette crainte, telle est l’idée derrière le modèle fondamental de Moonvalley, Marey, lancé en juillet. Selon l’entreprise, le modèle a été entraîné à partir de contenus sous licence, et celle-ci se targue également d’offrir un plus grand contrôle aux créateurs.
« Nous considérons [nos clients] comme des professionnels au sens large. Nous ne nous concentrons pas sur les consommateurs ou les vidéos TikTok, a déclaré M. Mooser dans une interview accordée à IBM Think. Les créatifs et les cinéastes consciencieux ont besoin de contrôler ce qu’ils créent, au-delà de la simple rédaction de quelques mots. »
La création du modèle a posé deux défis : le premier consistait à trouver des données, que l’entreprise a obtenues en contactant individuellement des cinéastes et des youtubeurs.
« À l’exception de quelques sociétés de banques d’images, il n’existe pas de marché important de personnes accordant des licences pour leurs données, et encore moins pour des données vidéo destinées à l’entraînement, explique M. Talukdar. La recherche des données, la négociation avec les créateurs, la conclusion d’accords et, bien sûr, l’obtention des ressources en tant que start-up ont représenté une part importante du travail opérationnel. »
L'autre défi est d'ordre technique : le volume de données. « Nous estimons que nous utilisons probablement cinq fois moins de données pour entraîner notre modèle que le modèle comparable le plus proche », explique M. Talukdar. « Nous pensons que si vous avez cinq fois moins de données, vous avez besoin d'une architecture cinq fois meilleure. » « C'est un élément essentiel de tout ce que nous avons fait jusqu'à présent », a-t-il déclaré en faisant référence à l'équipe de recherche qu'il a constituée. « Nous avons vraiment constitué l’équipe de recherche la plus dense en talents du domaine. »
Le lancement plus tôt cet été a fait l’objet d’une large couverture médiatique, et Moonvalley a depuis annoncé une nouvelle levée de fonds, ainsi que des projets impliquant des personnalités de premier plan telles que l’actrice et réalisatrice Natasha Lyonne (cofondatrice d’Asteria avec M. Mooser) et Jaron Lanier, vétéran de la Silicon Valley et informaticien connu pour être un pionnier de la réalité virtuelle.
« Vous n’avez pas encore vu ce que cette technologie peut faire entre les mains de grands cinéastes, a déclaré M. Mooser. Et c’est ce qui va se passer dans les six prochains mois à un an. » Il a laissé entendre qu’Hollywood était sur le point de vivre un nouveau moment Toy Story, où il deviendrait soudainement indéniable que la créativité et la technologie peuvent aller de pair, impressionner les critiques et rapporter gros au box-office.
« Cela va arriver avec l’IA, mais ce sera davantage une histoire commerciale qu’une histoire créative. Vous allez voir un film qui a un budget similaire à celui de Flow et qui est réalisé par une petite équipe comme pour Flow, mais qui réalise le même box-office que Lilo et Stitch, explique M. Mooser. Et il appartiendra aux cinéastes. Les gens diront que c’est le moment où l’industrie a été bouleversée car un film de studio a été réalisé avec un budget indépendant. »
Avec Marey, l’équipe à l’origine de Moonvalley estime que l’IA a de réelles chances de transformer non seulement l’industrie cinématographique, mais aussi le cinéma lui-même. Marey ne résout pas seulement un défi technique. « C’est comme attendre d’un LLM qu’il écrive un livre, vous voyez ?, déclare M. Mooser. C’est possible, d’un point de vue technologique. Mais le problème, c’est que personne ne lira ce livre. C’est là le problème, en fin de compte : l’IA n’a aucun goût. Et je pense que c’est ce que les gens ont oublié. »
