Connect with us

technologia

„The King is Dead” – Claude 3 po raz pierwszy przewyższa GPT-4 w Chatbot Arena

Published

on

„The King is Dead” – Claude 3 po raz pierwszy przewyższa GPT-4 w Chatbot Arena

We wtorek model Claude 3 Opus Large Language Model (LLM) firmy Anthropic po raz pierwszy przekroczył GPT-4 OpenAI (który obsługuje ChatGPT) w Chatbot Arena, popularnym programie crowdsourcingowym Tabela liderów Używany przez badaczy sztucznej inteligencji do pomiaru względnych możliwości modeli językowych AI. „Król nie żyje,” tweetował Programista Nick Dobos w poście porównującym GPT-4 Turbo i Claude 3 Opus, który krąży po mediach społecznościowych. „RIP GPT-4.”

Ponieważ GPT-4 został włączony do Chatbot Arena około 10 maja 2023 r (Rozpoczęła się tabela wyników 3 maja Odmiany GPT-4 niezmiennie w tym roku zajmowały czołowe miejsca w tabeli, więc jego porażka na arenie jest znaczącym momentem w stosunkowo krótkiej historii modeli językowych AI. Jeden z mniejszych modeli Anthropic, Haiku, również zwrócił na siebie uwagę swoimi występami w tabeli liderów.

„Po raz pierwszy najlepsze dostępne modele – Opus do zaawansowanych zadań, Haiku pod względem kosztów i wydajności – pochodzą od dostawcy innego niż OpenAI” – powiedział Ars Technica niezależny badacz sztucznej inteligencji Simon Willison. „To pocieszające – wszyscy korzystamy z usług wielu czołowych dostawców w tej dziedzinie. Ale GPT-4 ma już ponad rok i dopiero w tym roku wszyscy inni nadrobili zaległości”.

Zrzut ekranu tabeli liderów LMSYS Chatbot Arena przedstawiający Claude 3 Opus na szczycie przeciwko GPT-4 Turbo, zaktualizowano 26 marca 2024 r.
Powiększać / Zrzut ekranu tabeli liderów LMSYS Chatbot Arena przedstawiający Claude 3 Opus na szczycie przeciwko GPT-4 Turbo, zaktualizowano 26 marca 2024 r.

Benja Edwardsa

Chatbot Arena jest obsługiwana przez Organizacja systemu o dużym modelu (LMSYS ORG), organizacja badawcza zajmująca się modelami otwartymi, działająca w ramach współpracy studentów i wykładowców Uniwersytetu Kalifornijskiego w Berkeley, Uniwersytetu Kalifornijskiego w San Diego i Uniwersytetu Carnegie Mellon.

W grudniu przedstawiliśmy przegląd działania witryny, ale w skrócie: Chatbot Arena przedstawia użytkownikowi odwiedzającemu witrynę pole do wprowadzania danych na czacie i dwa okna z wynikami dwóch nieoznaczonych LLM. Zadaniem użytkownika jest ocena, który wynik jest lepszy, w oparciu o kryteria, które użytkownik uważa za najbardziej odpowiednie. Na podstawie tysięcy tych subiektywnych porównań Chatbot Arena oblicza ogólnie „najlepsze” modele, wypełnia rankingi i aktualizuje je w miarę upływu czasu.

READ  Google otwiera w Warszawie duże centrum rozwoju technologii chmurowych - pierwsze wiadomości

Chatbot Arena jest ważna, ponieważ zarówno badacze, jak i użytkownicy są często sfrustrowani, gdy próbują zmierzyć wydajność chatbotów AI, których bardzo zróżnicowane wyniki są trudne do oszacowania. Tak naprawdę w naszych wiadomościach o premierze Claude 3 pisaliśmy o tym, jak bardzo trudno jest obiektywnie ocenić LLM. W tej historii Willison podkreślił ważną rolę „wibracji”, czyli subiektywnych odczuć, w określaniu jakości LLM. „Kolejny przypadek„ wibracji ”jako kluczowego pojęcia współczesnej sztucznej inteligencji” – powiedział.

Zrzut ekranu z Chatbot Arena z 27 marca 2024 r. przedstawiający wynik dwóch losowych LLM, o które zapytano: "Czy kolor nazywałby się „Magenta”, gdyby miasto Magenta nie istniało?"
Powiększać / Zrzut ekranu z Chatbot Arena z 27 marca 2024 r. przedstawiający wynik dwóch losowych LLM, którym zadano pytanie: „Czy kolor nazywałby się„ Magenta ”, gdyby miasto Magenta nie istniało?”

Benja Edwardsa

Nastroje „wibracyjne” są powszechne w przestrzeni sztucznej inteligencji, gdzie dostawcy często wybierają numeryczne testy porównawcze mierzące wiedzę lub umiejętności testowania, aby ich wyniki wyglądały bardziej pozytywnie. „Właśnie odbyłem długą sesję kodowania z Claude 3 Opus i kurczę, to całkowicie niszczy gpt-4. Nie sądzę, że standardowe testy porównawcze oddają sprawiedliwość temu modelowi. tweetował Twórca oprogramowania AI Anton Bacaj 19 marca.

Wstąpienie Claude’a może zatrzymać OpenAI, ale jak wspomniał Willison, sama rodzina GPT-4 (pomimo kilkukrotnej aktualizacji) ma ponad rok. Obecnie Arena zawiera cztery różne wersje GPT-4, które reprezentują przyrostowe aktualizacje LLM, które są zamrażane w czasie, ponieważ każda z nich ma unikalny styl wyjściowy i niektórzy programiści używający ich z interfejsem API OpenAI potrzebują z tym spójności. Możesz na tym budować swoje aplikacje z tego.Wyjścia GPT-4 nie pękają.

Obejmuje to GPT-4-0314 („oryginalna” wersja GPT-4 z Marzec 2023), GPT-4-0613 (migawka GPT-4 z 13 czerwca 2023, z „ulepszoną obsługą wywołań funkcji”, odpowiednio OpenAI), GPT-4-1106-preview (wersja premierowa GPT-4 Turbo od listopada 2023) i GPT-4-0125-preview (najnowszy model GPT-4 Turbo mający na celu ograniczenie przypadków „lenistwa” w styczniu 2024 ).

READ  Świetna akcja, dużo wypełniaczy

Pomimo czterech modeli GPT-4 na liście liderów, modele Claude 3 firmy Anthropic stale wspinają się na szczyty list przebojów od czasu ich premiery na początku tego miesiąca. Sukces Claude 3 wśród użytkowników asystentów AI doprowadził już niektórych użytkowników LLM do zastąpienia ChatGPT w codziennej pracy, potencjalnie zmniejszając udział ChatGPT w rynku. Na X, programista Pietro Schirano napisał„Szczerze mówiąc, najbardziej szaloną rzeczą w tej całej sprawie Claude 3 > GPT-4 jest to, jak łatwo jest po prostu… przełączyć się?”

Podobnie potężny Gemini Advanced firmy Google zyskał również popularność w przestrzeni asystentów AI. Może to na razie postawić OpenAI na straży, ale w dłuższej perspektywie firma przygotowuje nowe modele. Oczekuje się, że nowy, główny następca GPT-4 Turbo (nazywany GPT-4.5 lub GPT-5) zostanie wydany jeszcze w tym roku, prawdopodobnie latem. Wiadomo, że przestrzeń LLM będzie na razie pełna rywalizacji, co może skutkować kolejnymi ciekawymi przetasowaniami w rankingach Chatbot Arena w nadchodzących miesiącach i latach.

Continue Reading
Click to comment

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *