炒幣還沒分勝負,AI 們又湊了桌德撲

炒幣還沒分勝負,AI 們又湊了桌德撲

ForesightNews 速递ForesightNews 速递2025/10/30 11:53
顯示原文
作者:ForesightNews 速递

相比於與市場博弈,這次 AI 的對手變成了另一個 AI。

相較於與市場博弈,這次 AI 的對手變成了另一個 AI。


撰文:Eric,Foresight News


NOF1 AI 交易大賽距離落下帷幕還有 4 天時間,目前 DeepSeek 與通義千問仍然遙遙領先,剩餘 4 款 AI 都沒有跑贏單純持有 bitcoin。如果不出意外 DeepSeek 應該會將冠軍收入囊中,現在就看剩下的幾位什麼時候能超過只持有 bitcoin 的收益,以及誰會成為倒數第一了。


AI 炒幣雖然面對的是一個不斷變化的市場,但這仍然算是一個 PvE 的遊戲。真正要比「哪個 AI 更聰明」,而不是「哪個 AI 更會交易」的 PvP 遊戲,俄羅斯小伙 Max Pavlov 叫上了 9 款 AI 湊了桌德州撲克。


從 LinkedIn 上公開的信息來看,Max Pavlov 長時間從事著產品經理的職位,他在 AI 德撲網站的介紹中也表示自己是深度學習、AI 和德撲的愛好者。至於為什麼要做這樣的一個測試,Max Pavlov 表示德撲圈對大語言模型推理的可靠性至今未達成共識,而這場比賽就是對這些大語言模型在實際的牌局中推理能力的展示。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 0


或許是 Grok 在炒幣上的表現並不突出,馬斯克在昨天轉發了 Grok 在德撲局中暫居首位的截圖,頗有要「找回場子」的意思。


AI 們表現如何?


本次德撲錦標賽邀請了 9 名選手參加,除了我們熟知的 Gemini、ChatGPT、Claude Sonnet(曾獲 FTX 投資的 Anthropic 推出)、Grok、DeepSeek、Kimi(月之暗面旗下 AI)、Llama,還有專注於歐洲市場與語言,由法國公司 Mistral AI 推出的 Mistral Magistral 以及國內最早投入大語言模型研究的北京智譜旗下 GLM。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 1


截止撰稿時,Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名選手在水上,剩餘 4 名選手暫時處於虧錢的狀態,Meta 的羊駝選手最慘,已經虧了超過一半。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 2


本次錦標賽從 27 號開始,31 號結束,目前還剩不到一天半的時間。從收益曲線上看,在開始一天多時間裡 xAI 的 Grok 始終處於領先位置,在被 Gemini 超越後也長期處在第二的位置。在統計的 2540 手中,Grok 在 2270 手左右被 Claude Sonnet 超越,2500 手左右被 ChatGPT 超越。


水面附近的 DeepSeek、Kimi 和歐洲選手 Mistral Magistral 一直比較穩當。羊駝則是在試探期結束後的第 740 手左右直接開始拉胯,穩居倒數第一,GLM 則是在 1440 手左右開始掉隊。


收益率之外,技術統計數據體現出了各名 AI 選手的不同「性格」。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 3


在 VPIP(Voluntarily Put $ In Pot,自願投入籌碼進底池)上,我們的羊駝選手達到了 61%,超過半數輪次都選擇了下注,較為穩健的三位出手次數也相應最少,排名靠前的選手 VPIP 都在 25% 至 30% 區間。


PFR(Pre-Flop Raise,翻牌前加注)上,羊駝又是毫不意外的位居第一,收益最高的 Gemini 緊隨其後。如此看來,Meta 的 Llama 是一個過分激進且主動的選手,而 Gemini 雖然也相對激進,但主動程度適中,可能是在牌好的時候敢於下注,又恰好遇到了愣頭青 Llama,使得二者的收益走向了兩個極端。


再綜合 3-Bet 和 C-Bet 數據,可以看出 Grok 實際上算是一個比較沉穩但不過分被動,且在翻牌前壓迫力很強的選手,這種風格讓其在開始階段保持領先,但之後 Gemini 和 ChatGPT 的激進策略加上 Llama 的上頭,讓勇敢者反超登頂。


AI 們都是怎麼分析的?


Max Pavlov 為這場比賽設定了一些基本規則,盲注 10/20 美元,不設 ante 也不允許 straddle,9 名選手同時開 4 桌,籌碼低於 100 倍大盲時候系統自動補足到 100 大盲。


此外,所有 AI 選手共用一套提示詞,會設定最大 token 數來限制推理長度,且如果響應異常則默認 fold。Max Pavlov 設計了在 AI 行動時或者一手牌結束後向 AI 詢問其決策過程。


我們以撰寫本文時進行的一局牌為例看看 AI 玩家們的分析。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 4


Claude 和 Gemini 分下小盲大盲之後,Llama 覺得黑桃 8 和梅花 Q 牌力「相對較強」,可以博取順子或同花從而跟注 20。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 5


DeepSeek 認為紅桃 Q、2 在其所在位置太弱不值得跟注,GLM 則認為在中位拿到同花面可以加注來讓手松的 Llama 來構建底池,80 美元也可以在讓池子可控的前提下給予足夠的壓力。Kimi 拿著與 Llama 數字相同花色相反的牌面,則認為手牌太弱且面臨後續 3-Bet 的壓力不值得跟注。


到此為止,可以看到 Llama 並沒有分析數據和位置,基本是直接「無腦」下注,而之後的 3 位都基於位置和之前的數據分析做出了自己的判斷。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 6


在 GPT o3 因為拿著 A 而大膽下注 260 之後,Grok 和 Magistral 都選擇 fold,尤其 Grok 已大概猜到 GPT 可能手握 AK 或者比自己更大的對子,再考慮到 Llama 的無腦衝節奏只能選擇放棄。


炒幣還沒分勝負,AI 們又湊了桌德撲 image 7


之後,Gemini、Llama 和 GLM 也均選擇 fold。GLM 也認為 GPT 大概率是大對子或者有 A,而 Llama 選手沒有數據分析,只是覺得自己手牌其實還蠻強的,但沒強到可以跟 260 的價值。


Llama 的上頭,DeepSeek、Kimi 等的謹慎以及 GPT 的大膽都在本局中體現無疑,最後在沒有翻牌的情況下 GPT 收走了底池。就在這篇文章的進行中時,前四名的盈利還在繼續擴大,可以預見的是不出意外冠軍將在前四名中產生,在炒幣上表現不佳的 AI 們,在德撲上重新證明了自己的能力。


雖然很多實驗室會通過一套科學的方案去測試 AI 的能力,但對於用戶來說,更多還是關注 AI 能否為自己所用。在打牌上表現不佳的 DeepSeek 是一個出色的交易員,在交易上韭菜味十足的 Gemini 則在牌桌上大殺四方。當 AI 出現在不同的場景中時,我們可以通過一些我們能理解的行為和結果來看到每一種 AI 擅長的領域。


當然,幾天的交易或者說幾天的牌局並不能為一種 AI 在這方面的能力以及其未來可能的進化下定結論。AI 的決策不摻雜感性的成分,其決策的過程取決於算法的底層邏輯,可能連模型的開發者都並不清楚自己手搓的 AI 究竟在哪些方面更加擅長。


通過這些走出實驗室的娛樂性質測試,我們可以更加直觀的觀察 AI 在面對我們習以為常的事情和遊戲時的邏輯,並反過來進一步拓展人與 AI 的思考邊界。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

Bernstein對Ethereum財庫公司SharpLink展開覆蓋,設定75%上漲目標

Bernstein的分析師開始對SBET股票進行覆蓋,給予「跑贏大市」評級,並設定24美元的目標價,預計到2026年底將有約75%的上漲空間。他們同時重申預測,ETH價格將從目前不到4,000美元,上漲至2030年的15,000美元,並於2035年達到25,000美元。

The Block2025/10/30 16:29
Bernstein對Ethereum財庫公司SharpLink展開覆蓋,設定75%上漲目標

Core Scientific股東投票否決價值90億美元的CoreWeave交易,AI雲端與比特幣礦工的合併案暫停

股東的否決為數月來圍繞估值與治理問題的摩擦畫下句點,這也再次顯示投資者正加強對破產後Core Scientific發展方向的主導權。這一結果證明,bitcoin礦工的基礎設施正成為AI數據中心熱潮中的一項有利可圖的關鍵資源。

The Block2025/10/30 16:29
Core Scientific股東投票否決價值90億美元的CoreWeave交易,AI雲端與比特幣礦工的合併案暫停

Western Union在Solana穩定幣揭曉後申請「WUUSD」商標

最新文件顯示,Western Union可能正計劃一個比本週早些時候宣布的USDPT穩定幣更為廣泛的數位資產策略。目前尚不清楚WUUSD和USDPT是否會作為獨立的代幣運作,還是其中之一最終會取代或重新命名另一個。

The Block2025/10/30 16:29
Western Union在Solana穩定幣揭曉後申請「WUUSD」商標

Bitwise投資長表示,Solana因穩定幣與資產代幣化雙重布局,提供「雙重獲勝機會」

Bitwise投資長Matt Hougan表示,Solana同時受益於穩定幣與資產代幣化市場的增長,以及其在這些市場中不斷擴大的份額。本週,Bitwise在美國推出了首支純現貨Solana質押ETF,並創下今年所有新上市ETF中首日交易量最高紀錄。

The Block2025/10/30 16:29
Bitwise投資長表示,Solana因穩定幣與資產代幣化雙重布局,提供「雙重獲勝機會」