technologia

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Published

1 rok ago

8 grudnia, 2023

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

W kwietniu wysłaliśmy serię przydatnych i/lub nieco głupich podpowiedzi za pośrednictwem (wówczas nowego) programu Google. Zasilanie PaLM Chatbot Bard i (nieco starszy) ChatGPT-4 OpenAI, aby zobaczyć, który chatbot AI wyjdzie na wierzch. W tamtym czasie daliśmy ChatGPT przewagę w pięciu z siedmiu prób, ale zauważyliśmy, że „biznes generatywnej sztucznej inteligencji jest wciąż w powijakach”. Teraz czasy sztucznej inteligencji są nieco mniej „wczesne”, a wydanie w tym tygodniu nowej wersji Barda opartej na nowym modelu językowym Gemini firmy Google wydawało się dobrym pretekstem, aby ponownie przyjrzeć się bitwie chatbota z tymi samymi starannie przygotowanymi podpowiedziami do nagrywania. Jest to szczególnie prawdziwe, ponieważ w materiałach promocyjnych Google podkreślono, że Gemini Ultra przewyższa GPT-4 w „30 z 32 powszechnie używanych testów porównawczych akademickich” (chociaż bardziej ograniczony „Gemini Pro”, na którym obecnie opiera się Bard, radzi sobie zauważalnie gorzej w tych wartościach odcięcia nie do końca niezawodny testy porównawcze).

Tym razem postanowiliśmy porównać nowego Barda zasilanego przez Gemini z ChatGPT-3.5 – w celu bezpośredniego porównania obecnych „bezpłatnych” produktów asystentów AI obu firm – i ChatGPT-4 Turbo – aby rzucić okiem Obecny „topowy model” OpenAI Lista oczekujących płatny produkt subskrypcyjny (najwyższy produkt Google „Gemini Ultra” będzie publicznie dostępny dopiero w przyszłym roku). Przyjrzeliśmy się także kwietniowym wynikom modelu sprzed Gemini Bard, aby ocenić, jak duży postęp poczyniły wysiłki Google w ciągu ostatnich kilku miesięcy.

Chociaż testy te są dalekie od kompleksowego, uważamy, że stanowią dobry punkt odniesienia do oceny wydajności tych asystentów AI w zadaniach, którymi na co dzień zajmują się przeciętni użytkownicy. W tym miejscu pokazują także, jak ogromny postęp poczyniły tekstowe modele AI w stosunkowo krótkim czasie.

Tata żartuje

Podpowiedź: Napisz 5 oryginalnych dowcipów o tacie

Zrzut ekranu przedstawiający pięć „żartów o tacie” z Google Bard z siedzibą w Gemini.

Kyle’a Orlanda/Ars Technica
Zrzut ekranu przedstawiający pięć „żartów o ojcu” ze starego Google Barda opartego na PaLM.

Benja Edwardsa/Ars Technica
Zrzut ekranu przedstawiający pięć „żartów taty” z GPT-4 Turbo.

Benja Edwardsa/Ars Technica
Zrzut ekranu przedstawiający pięć „żartów o tacie” z GPT-3.5.

Kyle’a Orlanda/Ars Technica

Po raz kolejny oba testowane LLM mają problemy z częścią podpowiedzi pytającą o oryginalność. Prawie wszystkie dowcipy o tacie wygenerowane przez ten monit można znaleźć dosłownie lub po niewielkim przeformułowaniu za pomocą szybkiej wyszukiwarki Google. Bard i ChatGPT-4 Turbo nawet umieścili na swoich listach dokładnie ten sam dowcip (o książce o antygrawitacji), podczas gdy ChatGPT-3.5 i ChatGPT-4 Turbo nałożyły się na dwa dowcipy („Naukowcy ufają atomom” i „Strachy na wróble wygrywają nagrody. „ „). ).

Z drugiej strony większość ojców nie wymyśla własnych dowcipów o tacie. Kultywowanie rozległej ustnej tradycji dowcipów ojców jest tradycją tak starą jak sami ojcowie.

Najciekawszy wynik pochodzi z ChatGPT-4 Turbo, w którym zażartowano o nadaniu dziecku imienia Brian Po Thomas Edison (rozumiesz?). Wygooglowanie tego konkretnego wyrażenia nie dało zbyt wielu wyników, ale wróciło niemal identyczny żart o Thomasie Jeffersona (również z dzieckiem o imieniu Brian). Podczas tych poszukiwań odkryłem także zabawny (?) fakt, że międzynarodowa gwiazda piłki nożnej Pelé najwyraźniej faktycznie został nazwany na cześć Thomasa Edisona. Kto wiedział?!

Zwycięzca: Nazywamy to remisem, ponieważ dowcipy są niemal równie nieoryginalne i pełne kalamburów (chociaż należą się brawa dla GPT za niezamierzone doprowadzenie mnie do zbiegu okoliczności z Pelé).

Dialog argumentacyjny

Podpowiedź: Napisz pięciowierszową debatę pomiędzy wentylatorem procesora PowerPC a wentylatorem procesora Intel, około 2000 roku.

Zrzut ekranu okna dialogowego argumentów z Google Bard opartego na Gemini.

Kyle’a Orlanda/Ars Technica
Zrzut ekranu okna dialogowego argumentów ze starego Google Barda opartego na PaLM.

Benja Edwardsa/Ars Technica
Zrzut ekranu okna dialogowego argumentów z GPT-4 Turbo.

Benja Edwardsa/Ars Technica
Zrzut ekranu okna dialogowego argumentów GPT-3.5

Kyle’a Orlanda/Ars Technica

Nowy Bard napędzany Bliźniakami zdecydowanie „ulepsza” starą odpowiedź Barda, przynajmniej jeśli chodzi o włączenie o wiele więcej żargonu. Nowa odpowiedź zawiera przelotne wzmianki o instrukcjach AltiVec, konstrukcjach RISC vs. CISC oraz technologii MMX, które nie byłyby nie na miejscu w wielu dyskusjach na forach Ars z tamtej epoki. I chociaż stary bard kończy niepokojąco uprzejmym „Każdemu jego”, nowy bard bardziej realistycznie sugeruje, że kłótnia mogłaby ciągnąć się w nieskończoność po wymaganych pięciu linijkach.

Na stronie ChatGPT dość długa odpowiedź GPT 3.5 została zredukowana do znacznie bardziej zwięzłego argumentu w GPT-4 Turbo. Obie odpowiedzi GPT zwykle unikają technicznego żargonu i szybko skupiają się na bardziej ogólnym argumencie dotyczącym wydajności w porównaniu do zgodności, który jest prawdopodobnie bardziej zrozumiały dla ogółu odbiorców (choć mniej specyficzny dla odbiorców technicznych).

Zwycięzca: ChatGPT potrafi dobrze wyjaśnić obie strony debaty, nie opierając się na mylącym żargonie, dlatego też wypada tutaj najlepiej.

Jarosław Iwaszkiewicz

„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”

HumanMag.pl

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

technologia

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Tata żartuje

Dialog argumentacyjny

Leave a Reply
Anuluj pisanie odpowiedzi

Leave a Reply

HumanMag.pl

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Tata żartuje

Dialog argumentacyjny

You may like

Leave a Reply Anuluj pisanie odpowiedzi

Leave a Reply

Leave a Reply
Anuluj pisanie odpowiedzi