Le rival d’OpenAI, Anthropic, a présenté ses modèles multimodaux Claude 3, qui sont plus performants, plus précis et offrent une tarification compétitive.

Anthropic a dévoilé Claude 3, une gamme de trois modèles de langage IA similaires à ceux qui alimentent ChatGPT. Anthropic affirme que ces modèles établissent de nouveaux repères dans l’industrie pour une gamme de tâches cognitives, frôlant même des capacités « quasi humaines » dans certains cas. Ils sont désormais disponibles sur le site web d’Anthropic, le modèle le plus puissant étant uniquement sur abonnement. Ils sont également disponibles via API pour les développeurs.

La suite de modèles Claude 3, élaborée par Anthropic, se décline en trois versions aux compétences et configurations évolutives : Haiku, Sonnet et Opus de Claude 3. Le modèle intermédiaire, Sonnet, alimente actuellement et sans frais le chatbot de Claude.ai, accessible après une inscription simple via e-mail. Opus, le modèle le plus avancé, n’est cependant accessible que via l’interface de chat d’Anthropic et nécessite un abonnement mensuel de 20 dollars pour accéder au service « Claude Pro », disponible sur le site d’Anthropic. Ces modèles partagent une fenêtre de contexte capable de gérer jusqu’à 200 000 tokens, permettant une analyse linguistique détaillée.

Claude 3 se distingue par ses aptitudes supérieures dans une variété de fonctions cognitives, incluant notamment le raisonnement, l’expertise dans des domaines de connaissance spécifiques, les compétences mathématiques et l’aisance linguistique. Bien que la capacité de « connaissance » ou de « raisonnement » des modèles de langage de grande envergure fasse débat, ces termes sont utilisés au sein de la communauté scientifique en IA. Selon Anthropic, Opus, le modèle le plus avancé, atteint des seuils de compréhension et d’aisance dans l’exécution de tâches complexes qui rivalisent avec les capacités humaines.

claude 3 benchmark

Selon Anthropic, Claude 3 Opus bat GPT-4 sur 10 benchmarks d’IA, incluant MMLU (connaissances de niveau licence), GSM8K (mathématiques de niveau école primaire), HumanEval (programmation) et le nom très coloré HellaSwag (connaissance commune). Plusieurs de ces victoires sont très serrées, comme 86,8 % pour Opus contre 86,4 % lors d’un essai à cinq reprises sur MMLU, et certains écarts sont plus importants, par exemple 90,7 % sur HumanEval contre 67,0 % pour GPT-4. Mais ce que cela pourrait signifier exactement pour vous en tant que client est difficile à dire.

Anthropic a indiqué que les trois modèles disposent initialement d’une fenêtre de contexte de 200 000 tokens mais sont capables de traiter plus d’un million de tokens, disponibles pour certains clients ayant besoin d’une puissance de traitement supplémentaire.

Opus est  le plus cher des trois – 15 dollars par million de tokens (MTok) pour l’entrée et 75 dollars/MTok pour la sortie. En comparaison, le GPT-4 Turbo d’OpenAI est moins cher à 10 dollars/MTok pour l’entrée et 30 dollars/MTok pour la sortie mais avec une fenêtre de contexte plus petite de 128k.

Sonnet, qui bat GPT-3.5 et est au même niveau que GPT-4 sur plusieurs mesures de performance, coûte 3 dollars/MTok pour les entrées et 15 dollars/MTok pour les sorties. Haiku, le modèle le moins cher à 25 cents/MTok pour l’entrée et 1,25 dollar/MTok pour la sortie, bat confortablement GPT-3.5 et Gemini Pro mais pas GPT-4 ou Gemini Ultra.

Les modèles Claude 3 ont été entraînés sur des données jusqu’en août 2023 mais peuvent accéder à des applications de recherche pour obtenir des informations à jour.

Opus et Sonnet sont disponibles dès aujourd’hui sur claude.ai et l’API Claude dans 159 pays, pas en Europe, Haiku arrivant prochainement. Opus est disponible dans la version payante Claude Pro. Il n’y a malheureusement pas de date pour la disponibilité de ces LLMs en Europe.