Mais pouvez-vous imaginer un hedge fund de Wall Street décidant de dépenser des milliards pour bâtir unintelligence artificielle générale? C'est exactement ce qu'il a fait Haut vol, un fonds quantitatif chinois qui a transformé l'ensemble de son département R&D en Recherche profonde en 2023. Avec une montagne de GPU accumulés avant les sanctions américaines, le fondateur Liang Wenfeng a misé sur les chercheurs de moins de 30 ans et sur une optimisation extrême.
« Nous ne cherchons pas des profits immédiats, mais des réponses aux questions les plus difficiles du monde. » dit Liang.
Le résultat de cette philosophie est DeepSeek-R1, modèle open source qui surpasse OpenAI o1 en mathématiques et en logique, en utilisant 1/10 des ressources par Lama 3.1. Le secret ? « Faire de la vertu une nécessité »il explique Marina Zhang dell 'Université de Sydney. Sans accès aux puces Nvidia les plus avancées, DeepSeek a révolutionné l'architecture des modèles en créant des algorithmes qui communiquent comme un orchestre de jazz : peu d'instruments, un maximum d'harmonie. Et maintenant, ils font trembler les riches (et les chers aussi) en termes de ressources énergétiques) monde de l’IA occidentale.
Jeunes génies et patriotisme : la recette secrète (et un peu anarchique)
Alors que Google et Meta ils embauchent des vétérans (et des talents étrangers), DeepSeek se concentre sur récents diplômés de Pékin et de Tsinghua: des cerveaux avides de gloire académique, pas de salaires en or. « Nous embauchons ceux qui ont remporté des prix internationaux, même sans aucune expérience industrielle », admet Liang. Une approche payante: l'équipe a développé le Attention latente multi-têtes, une technique ce qui réduit la consommation de mémoire de 40%.
"C'est comme les startups des années 70 : peu d'argent, beaucoup de créativité", dit-il. Wendy Chang, analyste de la Institut Mercator. "Ils ont combiné des astuces d'ingénierie : des schémas de communication personnalisés, la compression des données... Des trucs connus, mais jamais utilisés comme ça".
Et il y a un ingrédient supplémentaire : patriotisme technologique. « Cette génération veut démontrer que la Chine peut innover malgré les sanctions », ajoute Zhang. Un état d'esprit (plus ou moins spontané) qui transforme les limites en tremplins.
MLA et mélange d'experts : les armes secrètes de DeepSeek pour battre OpenAI
Qu’est-ce qui rend DeepSeek-R1 si efficace ? Trois facteurs principaux :
- Attention latente multi-têtes (MLA): Réduit les calculs redondants, en concentrant l'attention sur les modèles clés.
- Mélange d'experts: Active uniquement des parties spécifiques du réseau neuronal en fonction de la tâche, comme un mécanicien utilisant uniquement les outils nécessaires.
- C'est open source, du moins pour l'instant. "C'est le seul moyen de rattraper l'Occident", explique Chang. « Vous attirez des contributeurs mondiaux, améliorez le modèle, créez un écosystème ». Stratégie gagnante : En 2 mois, 20.000 XNUMX développeurs ont contribué au code.
C'est comme avoir un moteur Ferrari qui consomme comme une Panda. La formation DeepSeek-R1 coûte de l’argent M $ 15 contre moi M $ 150 de Méta. Un écart qui fait trembler la Silicon Valley.
Des sanctions américaines ? Un boomerang (peut-être)
Lorsque les États-Unis ont bloqué l’exportation de puces avancées en 2022, beaucoup ont prédit l’effondrement de l’IA chinoise. Pour l'instant, DeepSeek prouve que l'ingéniosité bat le matériel. « Les estimations de ce que la Chine peut faire avec ses ressources doivent être révisées », prévient Chang.
Le modèle chinois ? Optimisation extrême + open source + nationalisme technologique. « Si d’autres suivent, les sanctions perdront leur sens », conclut Zhang. Pendant ce temps, les codes sont peut-être Open Source, mais DeepSeek ne répond pas aux e-mails de Wired (et encore moins aux nôtres).
Nous en entendrons certainement parler.