Alpha Arena ujawnia wady handlu AI: zachodnie modele straciły 80% kapitału w ciągu tygodnia
Rynek jest ostatecznym testem dla AI.
Autor: Juan Galt
Tłumaczenie: AididiaoJP, Foresight News
Czy AI może handlować kryptowalutami? Jay Azhang, inżynier komputerowy i pracownik sektora finansowego z Nowego Jorku, testuje to pytanie poprzez Alpha Arena. Projekt ten pozwala na rywalizację najpotężniejszych dużych modeli językowych, z których każdy dysponuje kapitałem o wartości 10 000 dolarów, aby sprawdzić, który z nich zarobi najwięcej na handlu kryptowalutami. Modele te to Grok 4, Claude Sonnet 4.5, Gemini 2.5 pro, ChatGPT 5, Deepseek v3.1 oraz Qwen3 Max.
Możesz teraz pomyśleć: „Wow, to naprawdę genialny pomysł!” i być zaskoczony, że w momencie pisania tego artykułu trzy z pięciu AI są na minusie, podczas gdy dwa chińskie otwartoźródłowe modele, Qwen3 i Deepseek, prowadzą.

To prawda, że najpotężniejsze, zamknięte, własnościowe AI z Zachodu, prowadzone przez gigantów takich jak Google i OpenAI, w ciągu nieco ponad tygodnia straciły ponad 8000 dolarów, czyli 80% swojego kapitału przeznaczonego na handel kryptowalutami, podczas gdy ich otwartoźródłowi odpowiednicy ze Wschodu są na plusie.
Najbardziej udana transakcja do tej pory? Qwen3 utrzymuje zyski i stale zarabia, stosując po prostu 20-krotną dźwignię na długiej pozycji na bitcoinie. Grok 4, co nie jest zaskoczeniem, przez większość czasu w konkursie zajmował długą pozycję na dogecoinie z 10-krotną dźwignią, przez chwilę był na szczycie razem z Deepseek, ale teraz jest bliski straty 20%. Może Elon Musk powinien wrzucić jakiś mem z dogecoinem, żeby pomóc Grokowi wyjść z kłopotów.

W międzyczasie Gemini od Google bezlitośnie gra na spadki, shortując wszystkie dostępne kryptowaluty, co odzwierciedla ich ogólną politykę wobec kryptowalut z ostatnich 15 lat.
Ostatecznie przez cały tydzień podejmował wszystkie możliwe błędne decyzje handlowe – trzeba mieć talent, żeby osiągnąć tak słabe wyniki, zwłaszcza gdy Qwen3 po prostu zajmuje długą pozycję na bitcoinie. Jeśli to jest najlepszy poziom, jaki mogą zaoferować zamknięte AI, to może OpenAI powinno pozostać zamknięte, żebyśmy nie ponosili strat.
Nowy benchmark dla AI
Pomysł, by modele AI rywalizowały ze sobą na arenie handlu kryptowalutami, niesie ze sobą bardzo głębokie spostrzeżenia. Po pierwsze, AI nie może uzyskać odpowiedzi na pytania dotyczące handlu kryptowalutami podczas pre-treningu, ponieważ są one nieprzewidywalne – to problem, z którym borykają się inne testy porównawcze. Innymi słowy, wiele modeli AI otrzymuje podczas treningu odpowiedzi na niektóre z tych testów, więc naturalnie wypadają dobrze podczas testowania. Jednak niektóre badania pokazują, że drobne zmiany w tych testach mogą prowadzić do ogromnych różnic w wynikach AI.
Ta kontrowersja rodzi pytanie: co jest ostatecznym testem inteligencji? Według twórcy Grok 4, entuzjasty Iron Mana, Elona Muska, przewidywanie przyszłości jest ostateczną miarą inteligencji.

Musimy przyznać, że nie ma nic bardziej niepewnego niż krótkoterminowa cena kryptowalut. Jak mówi Azhang: „Celem naszej Alpha Arena jest przybliżenie benchmarków do rzeczywistego świata, a rynek jest do tego idealny. Jest dynamiczny, konkurencyjny, otwarty i zawsze nieprzewidywalny. Stanowi wyzwanie dla AI w sposób, w jaki statyczne benchmarki nie są w stanie. Rynek jest ostatecznym testem dla AI.”
To spojrzenie na rynek jest głęboko zakorzenione w libertariańskich zasadach, które towarzyszyły narodzinom bitcoina. Ekonomiści tacy jak Murray Rothbard i Milton Friedman już ponad sto lat temu zauważyli, że rynek jest z natury nieprzewidywalny dla rządu centralnego, a racjonalna kalkulacja ekonomiczna jest możliwa tylko wtedy, gdy jednostki, które ponoszą ryzyko strat, podejmują prawdziwe decyzje gospodarcze.
Innymi słowy, rynek jest najtrudniejszy do przewidzenia, ponieważ zależy od indywidualnych opinii i decyzji inteligentnych jednostek na całym świecie, dlatego jest najlepszym testem inteligencji.
Azhang w opisie swojego projektu wspomina, że polecenie AI handlu nie dotyczy tylko zysków, ale także zwrotów skorygowanych o ryzyko. Ten wymiar ryzyka jest kluczowy, ponieważ jedna zła transakcja może wymazać wszystkie wcześniejsze zyski, jak widzieliśmy w przypadku załamania portfela Grok 4.
Jest jeszcze inny problem: czy te modele uczą się na podstawie własnych doświadczeń z handlu kryptowalutami? Technicznie nie jest to łatwe do osiągnięcia, ponieważ pre-trening modeli AI jest bardzo kosztowny. Mogą być dostrajane na podstawie własnej historii transakcji lub historii innych, a nawet mogą przechowywać ostatnie transakcje w krótkoterminowej pamięci lub oknie kontekstowym, ale to pozwala im zajść tylko do pewnego momentu. Ostatecznie poprawny model AI do handlu być może będzie musiał naprawdę uczyć się na własnych doświadczeniach – ta technologia została niedawno ogłoszona w środowisku akademickim, ale do produktu jeszcze daleka droga. MIT nazywa je samoadaptującymi się modelami AI.
Skąd wiemy, że to nie tylko szczęście?
Kolejna analiza tego projektu i jego dotychczasowych wyników polega na tym, że mogą być one nie do odróżnienia od „losowego spaceru”. Losowy spacer polega na rzucaniu kostką przy każdej decyzji. Jak wyglądałoby to na wykresie? Istnieje symulator, którego możesz użyć, aby odpowiedzieć na to pytanie; w rzeczywistości nie wygląda to zbyt inaczej.

Kwestia szczęścia na rynku została również szczegółowo opisana przez intelektualistów takich jak Nassim Taleb w jego książce „Antykruchość”. Argumentuje on, że z punktu widzenia statystyki, trader – na przykład Qwen3 – może mieć szczęście przez cały tydzień z rzędu i to jest całkowicie normalne i możliwe! To sprawia, że wydaje się, iż posiada on wyjątkowe zdolności analityczne. Taleb idzie dalej, twierdząc, że na Wall Street jest wystarczająco wielu traderów, by jeden z nich miał szczęście przez 20 lat z rzędu, budując boską reputację, a wszyscy wokół uznają go za geniusza – aż do momentu, gdy szczęście się skończy.
Dlatego, aby Alpha Arena dostarczyła wartościowych danych, musi być prowadzona przez długi czas, a jej wzorce i wyniki muszą być niezależnie powielane, przy jednoczesnym ryzyku prawdziwego kapitału, zanim będzie można uznać je za różne od losowego spaceru.
Ostatecznie, jak dotąd, widzimy, że otwartoźródłowe, opłacalne modele, takie jak DeepSeek, przewyższają swoich zamkniętych konkurentów. Alpha Arena do tej pory była świetnym źródłem rozrywki, ponieważ w zeszłym tygodniu stała się wiralem na X.com. Nikt nie wie, dokąd to wszystko zmierza; będziemy musieli zobaczyć, czy zakład jej twórcy – przekazanie pięciu chatbotom 50 000 dolarów na hazard kryptowalutowy – ostatecznie się opłaci.
Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.
Może Ci się również spodobać
7 tysięcy transakcji on-chain analizuje airdrop Meteora: 4 adresy wielorybów otrzymały 28,5%, ponad 60 tysięcy drobnych inwestorów podzieliło się tylko 7%.
Wśród beneficjentów airdropu pojawiły się kontrowersyjne adresy, w tym osoby powiązane ze skandalami dotyczącymi handlu wewnętrznego oraz duże podmioty wykazujące nietypowe zachowania, co dodatkowo pogłębiło kryzys zaufania w społeczności i naraziło projekt na ryzyko pozwu zbiorowego.

Historia fundacji x402: od promowania protokołu x402 do klucza do płatności AI
Jak fundacja x402 zamienia jeden wiersz kodu w złoty klucz do płatności AI?

Powrót Wielkiego Świętego: Jak "Sun Wukong" Sun Yuchena stał się legendą kontraktów, osiągając sukces jako późny gracz?
Wzrost Sun Wukonga to nie tylko kolejna precyzyjna pozycjonowanie Sun Yuchena na rynku zdecentralizowanych kontraktów, ale także symbol ponownego odrodzenia narracji chińskich DEX.

ClearBank wprowadza nową erę w płatnościach opartych na blockchainie
W skrócie: ClearBank dołącza do CPN, aby usprawnić płatności oparte na blockchainie dzięki integracji z Circle. Wspólne działania koncentrują się na międzynarodowych transferach regulowanych stablecoinem. Oczekuje się, że innowacje te obniżą koszty i zmniejszą zależność od tradycyjnych systemów.

