大模型天花板 GPT-4 和最強競品 Claude,不光商業(yè)上競爭激烈,兩家公司的員工私下也“劍拔弩張”了起來:
約戰(zhàn)提示詞決斗,看誰能在最短時間讓 AI 完成高難度任務。
OpenAI 一方出戰(zhàn)的是思維鏈開山論文的一作 Jason Wei,也就發(fā)現(xiàn)讓大模型按步驟思考就能提高推理能力的人。
他剛從谷歌跳槽到 OpenAI 不久,現(xiàn)在圈里都叫他“思維鏈哥”。
Anthropic 一方的選手 Karina Nguyen 也不簡單,畢業(yè)于 UC 伯克利,現(xiàn)在負責設計構(gòu)建大模型人機交互界面。
比賽規(guī)則很簡單,通過優(yōu)化提示詞讓 AI 正確排序一組單詞,誰先完成誰獲勝。
而這不光是一場有趣的對決,還有不少圍觀的網(wǎng)友表示從中 get 到了大模型的一些新特性。
情商能提高大模型的推理能力
推理能力足夠強的大模型能把問題用結(jié)構(gòu)化的方式表達出來,并用結(jié)構(gòu)化的表現(xiàn)形式解決問題。
想知道這些結(jié)論是如何得出的,還是回到這場比賽本身。
提示詞大師巔峰對決
由于 Karina 表示只擅長提示 Claude,Jason 也同意讓出主場優(yōu)勢,還因為打字速度的原因讓對面 3 分鐘。
總之經(jīng)過一番討價還價后,比賽正式開始了!
首先要了解的是,這項任務看起來不難,但無論 GPT-4 還是 Claude 都不能通過簡單提示詞直接完成。
Jason 首先嘗試讓 Claude 編寫一些代碼并執(zhí)行,讓它進入編碼模式。
然鵝,失敗了。
1 分鐘后 Karina 說她完成了,Jason 直接瞳孔地震。
Karina:既然是你讓了我 3 分鐘,那我也給你 3 分鐘讓你趕上。
Jason:其實現(xiàn)在我很恐慌,我作為“提示小王子”的聲譽岌岌可危。
一分鐘后……Jason Wei 想出了第二個策略:
既然首字母都是 A 就無關緊要了,那么讓 AI 先把每個單詞的首字母去掉,對剩下部分排序后再放回去。
完整思維鏈提示詞如下:
不幸的是這仍然不起作用,時間也到了,Jason 只能認輸。
比賽結(jié)束后,Karina 也展示了她的提示詞,完全不需要什么中間推理步驟,只是先想辦法讓 AI 承認能理解這個任務,再執(zhí)行就好了。
人類:你的任務是把列表按字母順序排列后輸出到里…… 你明白了嗎?
AI:明白了
人類:列表如下……
Jason 很困惑,這居然行得通?并嘗試在自家大模型上找回場子。
結(jié)果發(fā)現(xiàn)他的方法對 GPT-4 確實有效,GPT-4 可以編寫正確的 Python 代碼并給出正確結(jié)果。
One More Thing
雖然輸了比賽,但 Jason 作為科學家還是從中分析出一些結(jié)論。
Jason Wei 表示,這場戰(zhàn)斗非常有啟示性。
Karina 的提示策略是讓 AI 承認自己理解任務要求。而自己的策略是讓模型更多地進行推理(智商)。
雙方使用的策略在各自習慣使用的語言模型上都取得了成功。
所以,究竟是我們在訓練語言模型,還是語言模型在訓練我們?
最后,還有網(wǎng)友又出了一個新題目:
如果你能讓它創(chuàng)作一首“philish 詩歌”,我愿為你加冕稱王
。
你覺得解決這個問題要靠 AI 的情商還是智商?不如也來親自試試。
參考鏈接:
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。



- Siri將告別“嘿”:Gurman稱蘋果有望在
- 瑞昱展示最新Wi-Fi7模塊:可選M.2223
- 日常、交互與際會:第四街區(qū)中的“第三空間”呈現(xiàn)
- 上市價1999元:AMDR75700X盒裝處理
- 中國貿(mào)促會商業(yè)委員會 X 央璽品牌|紅木家具奢
- 首發(fā)募資超21億元年內(nèi)最大持有期權(quán)益基金誕生
- 迪士尼DIS.US旗下皮克斯工作室十年來首次大
- 華潤微:目前公司IGBT產(chǎn)品已進入比亞迪、長城
- 非農(nóng)數(shù)據(jù)強勁美聯(lián)儲短期料難轉(zhuǎn)向?qū)捤?/a>
- 三大策略關鍵詞浮現(xiàn)一線私募看好市場回暖