速遞！狂飆的ChatGPT，為什么是OpenAI最先做出來？

2023-02-13 12:39:05 來源：手機網(wǎng)易網(wǎng)

國內(nèi)公司如何接招？

作者 | 趙健

(資料圖片)

ChatGPT的熱度正在一路狂飆。

“去年12月在機器學(xué)習(xí)圈曾持續(xù)熱議過，但是沒有現(xiàn)在每一個群都在交流和使用的狀況。這是除了疫情，從未有過的現(xiàn)象。”有人如此感慨。

一位AI產(chǎn)品經(jīng)理向「甲子光年」表示，或許若干年后回看AI行業(yè)的發(fā)展，會有兩個標(biāo)志：阿爾法狗代表AI在專業(yè)領(lǐng)域“干翻”人類的起點，ChatGPT代表AI在通用智能領(lǐng)域“干翻”人類的起點......

《財富》雜志則是這樣描述的：

在一代人的時間中總有一種產(chǎn)品的出現(xiàn)，它將從工程系昏暗的地下室、書呆子們臭氣熏天的青少年臥室和愛好者們孤獨的洞穴中彈射出來，變成了你的祖母Edna都知道如何使用的東西。早在 1990 年就有網(wǎng)絡(luò)瀏覽器，但直到 1994 年Netscape Navigator的出現(xiàn)，大多數(shù)人才發(fā)現(xiàn)了互聯(lián)網(wǎng)。2001 年 iPod 問世之前就已經(jīng)有了 MP3 播放器，但它們并沒有引發(fā)數(shù)字音樂革命。在2007 年蘋果推出iPhone之前，也有智能手機，但在 iPhone 之前，沒有智能手機的應(yīng)用程序。2022年11月30日，人工智能迎來了Netscape Navigator時刻。

對于人工智能或者聊天機器人，我們并不陌生。從蘋果Siri、微軟小冰、智能音箱，這些人工智能產(chǎn)品已經(jīng)融入到人們的生活中，但是基本都有一個特點——還比較笨，跟我們在《流浪地球2》中看到的MOSS相差十萬八千里。

但這次的ChatGPT有點不一樣。它不但可以實現(xiàn)多輪文本對話，也可以寫代碼、寫營銷文案、寫詩歌、寫商業(yè)計劃書、寫電影劇本。雖然并不完美、也會出錯，但看起來無所不能。

連埃隆·馬斯克都評價道：“ChatGPT好得嚇人，我們離危險的強人工智能不遠了?！?/p>

而且，ChatGPT也不僅僅是一個打發(fā)時間的聊天機器人，微軟與谷歌此時此刻正在因為ChatGPT的出現(xiàn)籌備一場關(guān)乎未來的AI大戰(zhàn)。而國內(nèi)的科技公司，也在努力思考著如何搭上駛向未來的船票，無論是以蹭概念，還是真產(chǎn)品的方式。

這一切，ChatGPT是如何做到的？本文，「甲子光年」將首先回答幾個最基礎(chǔ)的問題：

ChatGPT和過去的AI有什么不同？OpenAI是如何戰(zhàn)勝谷歌的？OpenAI的成功花了多少錢？ChatGPT爆火之后，誰是最后贏家？

1.ChatGPT，生成式AI的王炸

剛剛過去的2022年，從硅谷到國內(nèi)的科技公司，上上下下都蔓延著一股“寒氣”。但是，AI行業(yè)卻完全是另一番熱鬧的景象。

這一年，通過輸入文本描述就能自動生成圖片的AI繪畫神器突然雨后春筍般冒了出來，其中最具代表性的幾家為第二代DALL·E（由OpenAI于2022年4月發(fā)布）、Imagen（谷歌2022年5月發(fā)布）、Midjourney（2022年7月發(fā)布）、Stable Diffusion（2022年7月發(fā)布）等，讓人眼花繚亂。

2022年9月，由Midjourney創(chuàng)作生成的畫作《太空歌劇院》在科羅拉多州博覽會數(shù)字藝術(shù)創(chuàng)作類比賽中獲得一等獎并引發(fā)爭議，AI繪畫進一步破圈，受到大眾關(guān)注。

AI繪畫是AI發(fā)展的里程碑級應(yīng)用，但沒過多久人們便發(fā)現(xiàn)，AI繪畫只是“四個二”，真正的“王炸”在11月30日上線——ChatGPT。

去年12月，我們曾與ChatGPT做過一次對話。

從AI繪畫到ChatGPT，它們都屬于AI的一個分支——生成式AI（Generative AI），在國內(nèi)也被稱為AIGC（AI Generated Content）。

2022年9月，紅杉資本發(fā)布了一篇重磅文章——《生成式AI：一個創(chuàng)造性的新世界》（Generative AI: A Creative New World），首次提出生成式AI這一概念。

紅杉資本將生成式AI分為文本、代碼、圖片、語言、視頻、3D等數(shù)個應(yīng)用場景。紅杉資本認為，生成式AI至少可以提高10%的效率或創(chuàng)造力，有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。

憑借生成式AI的風(fēng)口，一些AI繪畫公司開始拿到巨額融資。2022年10月，Stable Diffusion模型背后的公司Stability AI宣布獲得1.01億美元種子輪，投后估值達10億美元；另一家AI內(nèi)容平臺Jasper亦宣布獲1.25億美元新融資，估值達17億美元。

據(jù)Leonis Capital統(tǒng)計，自2020年以來，VC對生成人工智能的投資增長了400%以上，2022年則達到驚人的21億美元。

在文章中，紅杉資本將AI分為“分析式AI”與“生成式AI”兩大類，分析式AI主要用在垃圾郵件檢測、預(yù)測發(fā)貨時間或者抖音視頻推薦中，也是過去幾年最常見、發(fā)展最快的AI類型。國內(nèi)的AI四小龍——商湯、曠視、云從、依圖皆屬于此類。

生成式AI則聚焦于知識工作與創(chuàng)造性工作，從社交媒體到游戲，從廣告到建筑，從編碼到平面設(shè)計，從產(chǎn)品設(shè)計到法律，從營銷到銷售。

在2015年之前，人工智能基本是小模型的天下。

過去的微軟小冰、蘋果Siri、智能音箱，以及各個平臺的客服機器人背后都是小模型，在其系統(tǒng)中包含若干Agent（知行主體，可以理解為執(zhí)行具體任務(wù)的程序），一個專門負責(zé)聊天對話、一個專門負責(zé)詩詞生成、一個專門負責(zé)代碼生成、一個專門負責(zé)營銷文案等等。

如果需要增加新功能，只需要訓(xùn)練一個新的Agent。如果用戶的問題超出了既有Agent的范圍，那么就會從人工智能變?yōu)槿斯ぶ钦稀?/p>

但是ChatGPT不再是這種模式，而是采用了“大模型+Prompting（提示詞）”。大模型可以理解為背后只有一個Agent來解決用戶所有的問題，因此更加接近AGI（通用人工智能）。

ChatGPT的出現(xiàn)不亞于在人工智能行業(yè)投下了一枚“核彈”。前微軟CEO比爾·蓋茨對ChatGPT評價為“不亞于互聯(lián)網(wǎng)誕生”，現(xiàn)微軟CEO薩提亞·納德拉將其盛贊為“堪比工業(yè)革命”。如今，有越來越多的公司開始將ChatGPT融入其產(chǎn)品中，或者推出類ChatGPT的產(chǎn)品。

對此，ChatGPT是如何做到的？

2.OpenAI纏斗谷歌

ChatGPT背后的公司為OpenAI，成立于2015年，由特斯拉CEO埃隆·馬斯克、PayPal聯(lián)合創(chuàng)始人彼得·蒂爾、Linkedin創(chuàng)始人里德·霍夫曼、創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼（Sam Altman）等人出資10億美元創(chuàng)立。

OpenAI的誕生旨在開發(fā)通用人工智能（AGI）并造福人類。

當(dāng)時，谷歌才是人工智能領(lǐng)域的最強公司。2016年打敗人類圍棋冠軍的阿爾法狗背后的AI創(chuàng)企DeepMind，就是由谷歌收購。

這一年5月，谷歌CEO桑德·皮查伊（Sundar Pichai）宣布將公司策略從“移動為先”轉(zhuǎn)變成“人工智能為先”（AI First），并計劃在公司的每一個產(chǎn)品上都應(yīng)用機器學(xué)習(xí)算法。

OpenAI誕生的初衷，部分原因就是為了避免谷歌在人工智能領(lǐng)域形成壟斷。OpenAI起初是一個非營利組織，但在2019年成立OpenAI LP子公司，目標(biāo)是盈利和商業(yè)化，并引入了微軟的10億美元投資。前YC孵化器總裁阿爾特曼就是此時加入OpenAI擔(dān)任CEO。

ChatGPT名字中的GPT（Generative Pre-trained Transformer ，生成式預(yù)訓(xùn)練變換器），是OpenAI推出的深度學(xué)習(xí)模型。ChatGPT就是基于GPT-3.5版本的聊天機器人。

GPT的名字中包含了大名鼎鼎的Transformer，這是由谷歌大腦團隊在2017年的論文《Attention is all you need》中首次提出的模型。現(xiàn)在來看，這是人工智能發(fā)展的里程碑事件，它完全取代了以往的RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）和CNN（卷積神經(jīng)網(wǎng)絡(luò)）結(jié)構(gòu)，先后在NLP（自然語言處理）、CV（計算機視覺）領(lǐng)域取得了驚人的效果。

最初的Transformer模型有6500個可調(diào)參數(shù)，是當(dāng)時最先進的大語言模型（Large Language Model, LLM）。谷歌公開了模型架構(gòu)，任何人都可以用其搭建類似架構(gòu)的模型，并結(jié)合自己手上的數(shù)據(jù)進行訓(xùn)練。

特斯拉自動駕駛，預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold2模型，以及本文的主角OpenAI的GPT，都是在Transformer的基礎(chǔ)上構(gòu)建的。正如它的中文名字一樣——變形金剛。

Transformer出現(xiàn)之后，很多公司基于Transformer做NLP模型研究，其中OpenAI與谷歌就是最重要的兩家。

2018年，OpenAI推出了1.17億參數(shù)的GPT-1，谷歌推出了3億參數(shù)的BERT，雙方展開了一場NLP的較量。

GPT與BERT采用了不同的技術(shù)路線。簡單理解，BERT是一個雙向模型，可以聯(lián)系上下文進行分析，更擅長“完形填空”；而GPT是一個單項模型，只能從左到右進行閱讀，更擅長“寫作文”。

兩者的表現(xiàn)如何呢？發(fā)布更早的GPT-1贏了初代Transformer，但輸給了晚4個月發(fā)布的BERT，而且是完敗。在當(dāng)時的競賽排行榜上，閱讀理解領(lǐng)域已經(jīng)被BERT屠榜了。此后，BERT也成為了NLP領(lǐng)域最常用的模型。

但是這場AI競爭才剛剛開始。OpenAI既沒有認輸，也非?！邦^鐵”。雖然GPT-1效果不如BERT，但OpenAI沒有改變策略，而是堅持走“大模型路線”。

在OpenAI眼中，未來的通用人工智能應(yīng)該長這個樣子：“有一個任務(wù)無關(guān)的超大型LLM，用來從海量數(shù)據(jù)中學(xué)習(xí)各種知識，這個LLM以生成一切的方式，來解決各種各樣的實際問題，而且它應(yīng)該能聽懂人類的命令，以便于人類使用。”

換句話說，就是大力出奇跡！

接下來的兩年（2019、2020年），在幾乎沒有改變模型架構(gòu)的基礎(chǔ)上，OpenAI陸續(xù)推出參數(shù)更大的迭代版本GPT-2、GPT-3，前者有15億參數(shù)，后者有1750億參數(shù)。

GPT-2在性能上已經(jīng)超過BERT，到GPT-3又更進一步，幾乎可以完成自然語言處理的絕大部分任務(wù) ，例如面向問題的搜索、閱讀理解、語義推斷、機器翻譯、文章生成和自動問答，甚至還可以依據(jù)任務(wù)描述自動生成代碼。

GPT-3大獲成功。OpenAI在早期測試結(jié)束后開始嘗試對GPT-3進行商業(yè)化，付費用戶可以通過API使用該模型完成所需語言任務(wù)，比如前文提到的AI繪畫獨角獸Jasper就是GPT-3的客戶。

值得一提的是，這個過程中谷歌也在不斷推出新的模型。但不同于OpenAI“從一而終”地堅持GPT路線，谷歌在BERT之后也推出了T5、Switch Transformer等模型，類似于賽馬機制。

此時距離ChatGPT的誕生還差一步。

3.意料之外的走紅

在GPT-3發(fā)布之后，OpenAI研究人員在思考如何對模型進行改進。

他們發(fā)現(xiàn)，要想讓GPT-3產(chǎn)出用戶想要的東西，必須引入“人類反饋強化學(xué)習(xí)機制”（RLHF），通過人工標(biāo)注對模型輸出結(jié)果打分建立獎勵模型，然后通過獎勵模型繼續(xù)循環(huán)迭代。

而聊天機器人就是引入強化學(xué)習(xí)的最佳方式，因為在聊天過程中，人類的對話就即時、持續(xù)地向模型反饋數(shù)據(jù)，從而讓模型根據(jù)反饋結(jié)果進行改進。因為加入了人工標(biāo)注環(huán)節(jié)，OpenAI為此雇傭了大約40位外包人員來與機器人對話。

通過這樣的訓(xùn)練，OpenAI獲得了更真實、更無害，并且更好地遵循用戶意圖的語言模型InstructGPT，在2022年3月發(fā)布，并同期開始構(gòu)建InstuctGPT的姊妹模型——ChatGPT。

根據(jù)《財富》雜志報道，當(dāng)ChatGPT準(zhǔn)備就緒后，OpenAI一開始并沒有想把它向公眾開放，而是先讓測試人員使用。

但根據(jù)OpenAI聯(lián)合創(chuàng)始人兼現(xiàn)任總裁Greg Brockman的說法，這些測試人員不清楚應(yīng)該與這個聊天機器人談?wù)撌裁?。后來，OpenAI試圖將ChatGPT轉(zhuǎn)向特定領(lǐng)域的專業(yè)人士，但缺乏專業(yè)領(lǐng)域的訓(xùn)練數(shù)據(jù)。

OpenAI最終不得不決定將ChatGPT向公眾開放?！拔页姓J，我不知道這是否會奏效?！?Brockman說。

在《紐約時報》的報道中，OpenAI發(fā)布ChatGPT還有另外一個理由：擔(dān)心對手公司可能會在GPT-4 前發(fā)布他們的人工智能聊天機器人，因此要搶先發(fā)布。

總之，在2022年11月30日這天，ChatGPT誕生了。

ChatGPT成為了史上躥紅最快的應(yīng)用。發(fā)布第五天，ChatGPT就積累了100萬用戶，這是Facebook花了10個月才達到的成績；發(fā)布兩個月，ChatGPT突破了1億用戶，對此TikTok用了大約九個月，Instagram用了兩年多。

ChatGPT的迅速傳播連OpenAI也猝不及防，OpenAI首席技術(shù)官Mira Murati說：“這絕對令人驚訝?！痹谂f金山VC活動上OpenAI CEO阿爾特曼說，他“本以為一切都會少一個數(shù)量級，少一個數(shù)量級的炒作”。

值得一提的是，OpenAI并非唯一的大模型聊天機器人。2021年5月，谷歌也發(fā)布了專注于生成對話的語言模型LaMDA，但直到現(xiàn)在谷歌仍未對外“交卷”。上周谷歌匆忙發(fā)布的用于對抗ChatGPT的聊天機器人Bard就由LaMDA支撐，但Bard的上線日期也未公布。

在這場OpenAI與谷歌持續(xù)數(shù)年的大模型競爭中，谷歌最終落了下風(fēng)。

4.代價是什么？

但ChatGPT的成功，也讓OpenAI付出了代價，“燒錢”的代價。

過去幾年，大模型儼然成為了一場AI的軍備競賽。在2015年至2020年期間，用于訓(xùn)練大模型的計算量增加了6個數(shù)量級，在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類性能基準(zhǔn)。

OpenAI的成功讓人們見識到了大模型的威力，但是大模型的成功可能難以復(fù)制，因為太燒錢了。

OpenAI很早就意識到，科學(xué)研究要想取得突破，所需要消耗的計算資源每3~4個月就要翻一倍，資金也需要通過指數(shù)級增長獲得匹配。而且，AI人才的薪水也不便宜，OpenAI首席科學(xué)家Ilya Sutskever在實驗室的頭幾年，年薪為190萬美元。

OpenAI CEO阿爾特曼在2019年對《連線》雜志表示：“我們要成功完成任務(wù)所需的資金比我最初想象的要多得多?！?/p>

這也是OpenAI從非營利性組織成立商業(yè)化公司的原因。2019年7月，重組后的OpenAI獲得了微軟的10億美元投資，可借助微軟的Azure云服務(wù)平臺解決商業(yè)化問題，緩解高昂的成本壓力。

解決了糧草問題的OpenAI，開始全力訓(xùn)練大模型。

大模型背后離不開大數(shù)據(jù)、大算力。GPT-2用于訓(xùn)練的數(shù)據(jù)取自于Reddit上高贊的文章，數(shù)據(jù)集共有約800萬篇文章，累計體積約40G；GPT-3模型的神經(jīng)網(wǎng)絡(luò)是在超過45TB的文本上進行訓(xùn)練的，數(shù)據(jù)相當(dāng)于整個維基百科英文版的160倍。

在算力方面，GPT-3.5在微軟Azure AI超算基礎(chǔ)設(shè)施（由V100GPU組成的高帶寬集群）上進行訓(xùn)練，總算力消耗約 3640PF-days（即每秒一千萬億次計算，運行3640天）。

可以說，大模型的訓(xùn)練就是靠燒錢燒出來的。據(jù)估算，OpenAI的模型訓(xùn)練成本高達1200萬美元，GPT-3的單次訓(xùn)練成本高達460萬美元。

根據(jù)《財富》雜志報道的數(shù)據(jù)，2022年OpenAI的收入為3000萬美元的收入，但凈虧損總額預(yù)計為5.445億美元。阿爾特曼在推特上回答馬斯克的問題時表示，在用戶與ChatGPT的每次交互中OpenAI花費的計算成本為“個位數(shù)美分”，隨著ChatGPT變得流行，每月的計算成本可能達到數(shù)百萬美元。

大模型高昂的訓(xùn)練成本讓普通創(chuàng)業(yè)公司難以為繼，因此參與者基本都是的科技巨頭。

在國內(nèi)科技公司中，阿里巴巴達摩院在2020年推出了M6大模型，百度在2021年推出了文心大模型，騰訊在2022年推出了混元AI大模型。

一個需要明確的事實是，雖然OpenAI的大模型取得了成功，但模型并非絕對意義上的越大越好，參數(shù)量也只是影響最終模型性能的因素之一。

GPT-3也不是參數(shù)最大的模型，比如，由英偉達和微軟開發(fā)的Megatron-Turing NLG模型，擁有超過5000億個參數(shù)，但在性能方面并不是最好的，因為模型未經(jīng)充分的訓(xùn)練。

實際上，在特定場景下，較小的模型可以達到更高的性能水平，而且成本更低。

一位AI從業(yè)者告訴「甲子光年」：“現(xiàn)實就是，NLP公司做to B只能做小模型。得私有化，工程性能好，計算消耗少。甲方還希望你能部署在CPU上呢。”

關(guān)于大模型與小模型的關(guān)系，我們會在后面的文章中繼續(xù)討論。

5.錢都流向了哪里？

以ChatGPT為代表的生成式AI正在引發(fā)新一輪AI軍備競賽，這個特別燒錢的新興市場，也讓背后的基礎(chǔ)設(shè)施廠商賺得盆滿缽滿。

著名風(fēng)投機構(gòu)A16Z將生成式AI市場分成了三層：

◆應(yīng)用層：將第三方API或自有模型集成到面向用戶的產(chǎn)品中，比如AI繪畫應(yīng)用Jasper、Midjourney；

◆模型層：為應(yīng)用層提供能力，比如閉源的GPT-3，或者開源的Stable diffusion；

◆基礎(chǔ)設(shè)施層：為生成人工智能模型運行培訓(xùn)和推斷工作負載的云平臺和硬件制造商。

生成式AI的大量資金最終都穩(wěn)定地流向了基礎(chǔ)設(shè)施層——以亞馬遜AWS、微軟Azure、谷歌GCP為主的云廠商，以及以英偉達為代表的GPU廠商。

據(jù)A16Z估計，應(yīng)用層廠商將大約20%~40%的收入用于推理和模型微調(diào)，這部分收入通常直接支付給云廠商或第三方模型提供商，第三方模型提供商也會將大約一半的收入用于云基礎(chǔ)設(shè)施。因此，總的來看生成式AI總收入的10%~20%都流向了云提供商。

微軟投資OpenAI就是一個很好的案例。

2019年微軟投資OpenAI 10億美元，其中大約一半以Azure云計算的代金券形式，成為OpenAI 技術(shù)商業(yè)化的“首選合作伙伴”，未來可獲得OpenAI 的技術(shù)成果的獨家授權(quán)。今年1月23日，微軟再次加碼，宣布向OpenAI追求數(shù)十億美元，來加速人工智能的突破。

根據(jù)《財富》雜志報道，在OpenAI的第一批投資者收回初始資本后，微軟將有權(quán)獲得OpenAI 75%的利潤直到收回投資成本；當(dāng)OpenAI賺取920億美元的利潤后，微軟的份額將降至49%。與此同時，其他風(fēng)險投資者和 OpenAI的員工也將有權(quán)獲得OpenAI 49%的利潤，直到他們賺取約1500億美元。如果達到這些上限，微軟和投資者的股份將歸還給OpenAI的非營利基金會。

本質(zhì)上，OpenAI是在把公司借給微軟，借多久取決于OpenAI賺錢的速度。微軟對OpenAI的投資更大的野心在于，希望在下一個人工智能的十年向谷歌以及其他科技巨頭發(fā)起挑戰(zhàn)。

在今年1月份的瑞士達沃斯論壇期間，微軟CEO納德拉表示，微軟將全線接入ChatGPT，計劃將ChatGPT、DALL-E等人工智能工具整合進微軟旗下的所有產(chǎn)品中，包括且不限于Bing搜索引擎、Office全家桶、Azure云服務(wù)、Teams聊天程序等等。

上周，新版Bing正式發(fā)布。納德拉霸氣表示：“比賽今天開始了，我們將繼續(xù)前進并快速行動，希望在搜索領(lǐng)域再次獲得更多創(chuàng)新的樂趣?！?/p>

除了微軟之外，英偉達則是生成式AI幕后最大的贏家。

云廠商每年總共花費超過1000億美元的資本支出，來確保他們能夠擁有最全面、最可靠和最具成本競爭力的平臺，比如獲得英偉達最先進、也是最稀缺的GPU——A100與H100。GPU成為了生成式AI發(fā)展上限“卡脖子”的一環(huán)。

英偉達過去一個月的股價漲幅甚至超過了微軟。

ChatGPT在科技圈引發(fā)的震動仍在持續(xù)。一個不可否認的事實是，國內(nèi)的AI公司多少處于一種置身之外的感受。人們驚嘆于技術(shù)的進步，也感慨于實力的差距。

對此，云知聲創(chuàng)始人黃偉如此評價：

接下來，國內(nèi)科技公司會如何接招呢？

關(guān)鍵詞：機器學(xué)習(xí) openai 埃隆_馬斯克人工智能技術(shù) deepmind

速遞！狂飆的ChatGPT，為什么是OpenAI最先做出來？

1.ChatGPT，生成式AI的王炸