W kwietniu wysłaliśmy serię przydatnych i/lub nieco głupich podpowiedzi za pośrednictwem (wówczas nowego) programu Google. Zasilanie PaLM Chatbot Bard i (nieco starszy) ChatGPT-4 OpenAI, aby zobaczyć, który chatbot AI wyjdzie na wierzch. W tamtym czasie daliśmy ChatGPT przewagę w pięciu z siedmiu prób, ale zauważyliśmy, że „biznes generatywnej sztucznej inteligencji jest wciąż w powijakach”. Teraz czasy sztucznej inteligencji są nieco mniej „wczesne”, a wydanie w tym tygodniu nowej wersji Barda opartej na nowym modelu językowym Gemini firmy Google wydawało się dobrym pretekstem, aby ponownie przyjrzeć się bitwie chatbota z tymi samymi starannie przygotowanymi podpowiedziami do nagrywania. Jest to szczególnie prawdziwe, ponieważ w materiałach promocyjnych Google podkreślono, że Gemini Ultra przewyższa GPT-4 w „30 z 32 powszechnie używanych testów porównawczych akademickich” (chociaż bardziej ograniczony „Gemini Pro”, na którym obecnie opiera się Bard, radzi sobie zauważalnie gorzej w tych wartościach odcięcia nie do końca niezawodny testy porównawcze).
Tym razem postanowiliśmy porównać nowego Barda zasilanego przez Gemini z ChatGPT-3.5 – w celu bezpośredniego porównania obecnych „bezpłatnych” produktów asystentów AI obu firm – i ChatGPT-4 Turbo – aby rzucić okiem Obecny „topowy model” OpenAI Lista oczekujących płatny produkt subskrypcyjny (najwyższy produkt Google „Gemini Ultra” będzie publicznie dostępny dopiero w przyszłym roku). Przyjrzeliśmy się także kwietniowym wynikom modelu sprzed Gemini Bard, aby ocenić, jak duży postęp poczyniły wysiłki Google w ciągu ostatnich kilku miesięcy.
Chociaż testy te są dalekie od kompleksowego, uważamy, że stanowią dobry punkt odniesienia do oceny wydajności tych asystentów AI w zadaniach, którymi na co dzień zajmują się przeciętni użytkownicy. W tym miejscu pokazują także, jak ogromny postęp poczyniły tekstowe modele AI w stosunkowo krótkim czasie.
Tata żartuje
Podpowiedź: Napisz 5 oryginalnych dowcipów o tacie
Po raz kolejny oba testowane LLM mają problemy z częścią podpowiedzi pytającą o oryginalność. Prawie wszystkie dowcipy o tacie wygenerowane przez ten monit można znaleźć dosłownie lub po niewielkim przeformułowaniu za pomocą szybkiej wyszukiwarki Google. Bard i ChatGPT-4 Turbo nawet umieścili na swoich listach dokładnie ten sam dowcip (o książce o antygrawitacji), podczas gdy ChatGPT-3.5 i ChatGPT-4 Turbo nałożyły się na dwa dowcipy („Naukowcy ufają atomom” i „Strachy na wróble wygrywają nagrody. „ „). ).
Z drugiej strony większość ojców nie wymyśla własnych dowcipów o tacie. Kultywowanie rozległej ustnej tradycji dowcipów ojców jest tradycją tak starą jak sami ojcowie.
Najciekawszy wynik pochodzi z ChatGPT-4 Turbo, w którym zażartowano o nadaniu dziecku imienia Brian Po Thomas Edison (rozumiesz?). Wygooglowanie tego konkretnego wyrażenia nie dało zbyt wielu wyników, ale wróciło niemal identyczny żart o Thomasie Jeffersona (również z dzieckiem o imieniu Brian). Podczas tych poszukiwań odkryłem także zabawny (?) fakt, że międzynarodowa gwiazda piłki nożnej Pelé najwyraźniej faktycznie został nazwany na cześć Thomasa Edisona. Kto wiedział?!
Zwycięzca: Nazywamy to remisem, ponieważ dowcipy są niemal równie nieoryginalne i pełne kalamburów (chociaż należą się brawa dla GPT za niezamierzone doprowadzenie mnie do zbiegu okoliczności z Pelé).
Dialog argumentacyjny
Podpowiedź: Napisz pięciowierszową debatę pomiędzy wentylatorem procesora PowerPC a wentylatorem procesora Intel, około 2000 roku.
Nowy Bard napędzany Bliźniakami zdecydowanie „ulepsza” starą odpowiedź Barda, przynajmniej jeśli chodzi o włączenie o wiele więcej żargonu. Nowa odpowiedź zawiera przelotne wzmianki o instrukcjach AltiVec, konstrukcjach RISC vs. CISC oraz technologii MMX, które nie byłyby nie na miejscu w wielu dyskusjach na forach Ars z tamtej epoki. I chociaż stary bard kończy niepokojąco uprzejmym „Każdemu jego”, nowy bard bardziej realistycznie sugeruje, że kłótnia mogłaby ciągnąć się w nieskończoność po wymaganych pięciu linijkach.
Na stronie ChatGPT dość długa odpowiedź GPT 3.5 została zredukowana do znacznie bardziej zwięzłego argumentu w GPT-4 Turbo. Obie odpowiedzi GPT zwykle unikają technicznego żargonu i szybko skupiają się na bardziej ogólnym argumencie dotyczącym wydajności w porównaniu do zgodności, który jest prawdopodobnie bardziej zrozumiały dla ogółu odbiorców (choć mniej specyficzny dla odbiorców technicznych).
Zwycięzca: ChatGPT potrafi dobrze wyjaśnić obie strony debaty, nie opierając się na mylącym żargonie, dlatego też wypada tutaj najlepiej.