Daron Acemoglu , prix Nobel.d’économie 2024
TRADUCTION BRUNO BERTEZ
Quelques questions suscitées par la sortie de DeepSeek R1 le 20 janvier.
Celles-ci sont formulées sous forme de questions, car je ne connais pas les réponses et il se pourrait bien que la plupart de ces réponses ne puissent être découvertes qu’au fil du temps.
La première question, peut-être la plus importante, est la suivante : le succès de DeepSeek signifie-t-il que l’industrie technologique américaine a abordé le problème de la mauvaise façon ?
Les investissements américains dans l’intelligence artificielle sont considérables.
Goldman Sachs estime que le secteur technologique devrait dépenser 1 000 milliards de dollars : https://goldmansachs.com/insights/articles/will-the-1-trillion-of-generative-ai-investment-pay-off…
Depuis longtemps, un certain nombre de commentateurs (dont je fais partie) remettent en question l’orientation des investissements et du développement de l’IA dans l’industrie technologique américaine.
À ma connaissance, toutes les grandes entreprises suivent essentiellement la même stratégie (à la petite différence que Meta est partiellement open source). Ces entreprises ne sont pas disposées à envisager d’autres approches que des modèles de base pré-entraînés comme prédicteurs du mot suivant sur des ensembles de données massifs et, pour la plupart, autre chose que des modèles de diffusion et des chatbots destinés à effectuer des tâches humaines.
Bien que DeepSeek ne réinvente pas la roue et s’inscrive globalement dans le même programme, il semble s’être beaucoup plus appuyé sur l’apprentissage par renforcement, sur des méthodes de mélange d’experts et sur un raisonnement en chaîne de pensée affiné de manière très efficace.
Comme cela a été largement rapporté, cela a également été fait pour une fraction du coût des modèles des principales entreprises, soit environ 5,5 millions de dollars, par rapport aux sommes atteignant des centaines de millions de dollars pour les modèles leaders.
On peut donc penser que l’industrie américaine était aveugle aux approches alternatives, moins coûteuses et plus prometteuses. C’est d’ailleurs ce type de « pensée de groupe », combiné à un battage médiatique, que Simon Johnson et moi-même avions prédit dans Power and Progress, écrit avant le début de la saga de l’IA générative : https://amazon.com/Power-Progress-Thousand-Year-Technology-Prosperity/dp/1541702530/…
Autrement dit, la première question clé soulevée par cet épisode est la suivante : existe-t-il d’autres aspects encore plus importants auxquels l’industrie américaine ne prête pas attention ?
Le développement de ces modèles dans une direction plus « pro-humaine » pourrait-il être l’un de ces aspects prometteurs mais totalement et collectivement ignorés par l’industrie ?
Deuxièmement, cet épisode est-il la preuve que la Chine a dépassé les États-Unis ou est sur le point de le faire ? Si tel est le cas, cela signifie-t-il que l’innovation dans des institutions autoritaires et hiérarchisées (ou ce que James Robinson et moi avons appelé des « institutions extractives ») peut égaler ou dépasser l’innovation ascendante ? Mon parti pris ici est de penser que l’innovation est entravée par un contrôle descendant, comme James Robinson et moi l’avons soutenu dans Why Nations Fail: https://amazon.com/Why-Nations-Fail-Origins-Prosperity/dp/0307719227/… , et également dans The Narrow Corridor, https://amazon.com/Narrow-Corridor-States-Societies-Liberty/dp/0735224404/…
Mais je reconnais que cette possibilité existe désormais.
Il faudra voir.
Néanmoins, je voudrais souligner que DeepSeek s’appuie sur des années de progrès aux États-Unis (et certains en Europe). Plus important encore, toutes les méthodes utilisées par DeepSeek ont été développées aux États-Unis. Certaines d’entre elles, comme les modèles de mélange d’experts et l’apprentissage par renforcement, ont été développées dans le cadre de recherches universitaires il y a des décennies ; d’autres, comme les modèles de transformateurs et le raisonnement par chaîne de pensée, ont été introduites et utilisées dans des entreprises technologiques de premier plan.
Néanmoins, DeepSeek les a combinées différemment et très efficacement.
Il reste à voir si les entreprises et le monde universitaire chinois peuvent réellement franchir la prochaine étape et proposer des techniques, des produits et des approches révolutionnaires.
De plus, DeepSeek se distingue des autres entreprises chinoises d’IA, qui produisent souvent des produits et des technologies pour le gouvernement ou avec des fonds publics. Voir par exemple http://davidyyang.com/pdfs/ai_draft.pdfand… http://davidyyang.com/pdfs/govtvcai_draft.pdf… . Dans un certain sens, l’entreprise est peut-être passée « sous le radar ». Maintenant que ce n’est plus le cas, sa créativité et son dynamisme vont-ils perdurer ?
Mon interprétation est donc que ce dont nous avons été témoins est loin d’être une preuve concluante que le modèle chinois peut surpasser l’innovation dans des sociétés plus ouvertes.
Troisièmement, cela signifie-t-il que l’approche américaine consistant à contrôler les exportations et à utiliser d’autres méthodes pour freiner la recherche chinoise en matière d’IA a déjà échoué ? Je pense que la réponse à cette question n’est pas encore claire.
DeepSeek a formé ses principaux modèles, notamment V3 et R1, sur des puces plus anciennes et moins puissantes. Mais ils auront peut-être besoin des meilleures puces pour les prochaines avancées et pour passer à l’échelle supérieure.
Mon interprétation est que l’approche « à somme nulle » avec la Chine est impraticable et constitue une erreur. Une telle approche n’a de sens que si l’on croit
(a) que nous nous dirigeons vers l’intelligence artificielle générale (IAG) et
(b) que celui qui parviendra le premier à l’intelligence artificielle générale (AGI) aura un énorme avantage géopolitique;
Note BB: L’intelligence artificielle générale (AGI ) est un type d’intelligence artificielle (IA) qui égale ou dépasse les capacités cognitives humaines dans un large éventail…L’intelligence artificielle générale (AGI) désigne l’intelligence hypothétique d’une machine qui possède la capacité de comprendre ou d’apprendre n’importe quelle tâche intellectuelle qu’un être humain peut réaliser . Il s’agit d’un type d’intelligence artificielle (IA) qui vise à imiter les capacités cognitives du cerveau humain.
L’AGI est-elle vraiment possible ?
En 2023, le développement et la réalisation potentielle de l’AGI restent un sujet de débat intense au sein de la communauté de l’IA. Alors que le consensus traditionnel était que l’AGI était un objectif lointain, les avancées récentes ont conduit certains chercheurs et personnalités du secteur à affirmer que les premières formes d’AGI pourraient déjà exister .
Aucune de ces deux hypothèses n’est peut-être justifiée .
Si ces hypothèses ne sont pas correctes, il existe de nombreux domaines dans lesquels les États-Unis et la Chine peuvent collaborer. Par exemple, si l’innovation dans un pays permet de mettre au point des modèles qui augmentent la productivité humaine ou nous aident à mieux réguler l’énergie, ils seraient bénéfiques pour les deux pays, surtout s’ils sont largement diffusés et utilisés.
Enfin, DeepSeek nous rapproche-t-il un peu plus de l’AGI imminente ? L’ambition de l’entreprise (comme celle de ses cousins américains) est l’AGI. Des modèles moins coûteux à former et utilisant efficacement l’apprentissage par renforcement pourraient changer la donne. Mais en fin de compte, comme nous l’avons déjà dit, il s’agit de méthodes connues et rendre la formation de ces modèles moins coûteuse ne nous permettra pas d’atteindre l’AGI dans les prochaines années.
La question de savoir si l’AGI est réalisable à court terme reste ouverte et celle de savoir si c’est un objectif souhaitable est encore plus discutable.