機器之心專欄
(資料圖片)
機器之心編輯部
ChatGPT 的技術(shù)思路與自動駕駛能碰撞出什么樣的火花呢?
去年底,ChatGPT 橫空出世。真實自然的人機對話、比擬專家的回答以及一本正經(jīng)的胡說八道,使它迅速走紅,風(fēng)靡全世界。
不像之前那些換臉、捏臉、詩歌繪畫生成等紅極一時又很快熱度退散的 AIGC 應(yīng)用,ChatGPT 不僅保持了熱度,而且還有全面爆發(fā)的趨勢?,F(xiàn)如今,谷歌、百度的 AI 聊天機器人已經(jīng)在路上。
比爾蓋茨如此盛贊:「ChatGPT 的意義不亞于 PC 和互聯(lián)網(wǎng)誕生。」
為什么呢?
首先,人機對話實在是剛需。人工智能技術(shù)鼻祖的圖靈所設(shè)計的「圖靈測試」,就是試圖通過人機對話的方式來檢驗人工智能是否已經(jīng)騙過人類。能從人機問題中就能獲得準(zhǔn)確答案,這可比搜索引擎給到一大堆推薦網(wǎng)頁和答案更貼心了。要知道懶惰乃人類進步的原動力。
其次,ChatGPT 實在是太能打了。不僅在日常語言當(dāng)中,ChatGPT 能夠像人類一樣進行聊天對話,還能生成各種新聞、郵件、論文,甚至進行計算和編寫代碼,這簡直就像小朋友抓到一只「哆啦 A 夢」—— 有求必應(yīng)了。
除了看看熱鬧,我們也可以弱弱地問一句:ChatGPT 為啥這么能打呢?
ChatGPT:我手握大模型,還會「杠」人類
先看一個「不要你以為,我要我媳婦以為」的例子。
之前,人類在和 ChatGPT 對話的時候,可以搬出「我媳婦這么說的」,「我媳婦說的…… 不會錯」的時候,它就在稍微堅持之后就認(rèn)慫并修改自己的回答。
但是經(jīng)過了大量訓(xùn)練,ChatGPT 開始變得十分硬氣。無論你是否搬出自己媳婦,它都會堅持真理,2+2 就是等于 4 了,管你是不是個「妻管嚴(yán)」,它都不會妥協(xié)了。
原來是 ChatGPT 被回爐重造,進行了一番真實性和數(shù)學(xué)能力的專門訓(xùn)練。反過來說,ChatGPT 是可以被人類帶偏的。
那為啥呢?先來回答 ChatGPT 到底是個啥?它是個基于上千億超大語料參數(shù)組成的 GPT3.0 架構(gòu)訓(xùn)練出來的一個自然語言處理聊天工具。ChatGPT 的算法采用了 Transformer 神經(jīng)網(wǎng)絡(luò)架構(gòu),具有很好的時序數(shù)據(jù)處理能力,說大白話就是能很好處理上下文的語法關(guān)系。
Transformer 是一種結(jié)構(gòu)簡單的編解碼器,幾乎可以無限堆疊,從而形成一種大規(guī)模的預(yù)訓(xùn)練語言模型?;?Transformer 模型構(gòu)成的 GPT 架構(gòu)可以很好地完成多種語言處理任務(wù),填空、造句、分段、翻譯等等,隨著數(shù)據(jù)集和模型參數(shù)的大規(guī)模增長,等到 GPT3.0 的時候已經(jīng)有了千億規(guī)模,GPT 就表現(xiàn)出來了非常強的文本生成能力。
自然而然,一問一句的對話模式也就應(yīng)運而生了。但 GPT3.5 還不是 ChatGPT。
ChatGPT 還需要使用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)來實現(xiàn)。具體來說,ChatGPT 使用了一種叫「人類反饋強化學(xué)習(xí)(RLHF)」的訓(xùn)練方法,在訓(xùn)練中可以根據(jù)人類反饋,保證對無益、失真或偏見信息的最小化輸出。
簡單來說,GPT 只能保證有問就有答,不保證回答的正確,而 ChatGPT 既要保證有的聊,還要保證聊的對。就跟小孩子一樣,必須在大人一遍遍糾正發(fā)音、糾正語法和用詞的訓(xùn)練中,學(xué)會真正的有效對話。
ChatGPT 就是利用人類反饋進行強化學(xué)習(xí)的產(chǎn)物。
既然 ChatGPT 這么好用。我們不妨來問它一個問題:能不能把 ChatGPT 用在自動駕駛技術(shù)訓(xùn)練當(dāng)中?答案是:可以。
毫末顧維灝:把 ChatGPT 引入自動駕駛,毫末走了這三步
我估計 ChatGPT 還沒涉獵過這個問題,因為關(guān)于 ChatGPT 和自動駕駛關(guān)聯(lián)的內(nèi)容是缺少的。不過,如果 ChatGPT 最近在中文網(wǎng)絡(luò)中收錄過相關(guān)報道的話,那么,它就會知道中國的一家人工智能技術(shù)公司已經(jīng)開始思考這個問題了。
在 1 月的毫末智行的 AI DAY 上,毫末 CEO 顧維灝非常隆重地提到了 ChatGPT,并且直言,毫末已經(jīng)展開對于 ChatGPT 背后的技術(shù)的研究。
顧維灝說:「實現(xiàn) GPT3 到 ChatGPT 的龍門一躍最重要的是 ChatGPT 模型使用了『利用人類反饋強化學(xué)習(xí) RLHF』的訓(xùn)練方式,更好地利用了人類知識,讓模型自己判斷其答案的質(zhì)量,逐步提升自己給出高質(zhì)量答案的能力。」
那這對自動駕駛有什么啟發(fā)呢?毫末認(rèn)為,ChatGPT 的技術(shù)思路和自動駕駛認(rèn)知決策的思路是不謀而合。
毫末在認(rèn)知駕駛決策算法的進化上分成了以下三個階段:
第一個階段是引入了個別場景的端到端模仿學(xué)習(xí),直接擬合人駕行為。第二個階段是通過大模型,引入海量正常人駕數(shù)據(jù),通過 Prompt 的方式實現(xiàn)認(rèn)知決策的可控可解釋。第三個階段就是引入了真實接管數(shù)據(jù),在其中嘗試使用「人類反饋強化學(xué)習(xí)(RLHF)」。一般來說,人類司機的每一次接管,都是對自動駕駛策略的一次人為反饋;這個接管數(shù)據(jù)可以被簡單當(dāng)成一個負(fù)樣本來使用,就是自動駕駛決策被糾正的一次記錄。同時也可以被當(dāng)作改進認(rèn)知決策的正樣本來學(xué)習(xí)。為此,毫末構(gòu)建了一個< 舊策略、接管策略、人工 label 策略 >的 pairwise 排序模型。基于這個模型,毫末構(gòu)建了自動駕駛決策的獎勵模型(reward model),從而在各種情況下做出最優(yōu)的決策。
毫末將這一模型稱之為人駕自監(jiān)督認(rèn)知大模型。簡單來說,就是為了讓自動駕駛系統(tǒng)能夠?qū)W習(xí)到老司機的優(yōu)秀開車方法,讓毫末的認(rèn)知大模型要從人類反饋中學(xué)會選擇和辨別,并穩(wěn)定地輸出最優(yōu)解。通過這種方式,毫末在掉頭、環(huán)島等公認(rèn)的困難場景,通過率提升 30% 以上。
當(dāng)然,如果 ChatGPT 再繼續(xù)搜索和學(xué)習(xí)下去,它就會知道在 1 月初的 HAOMO AI DAY 上,毫末不僅發(fā)布了這個人駕自監(jiān)督大模型,還一口氣發(fā)布了另外四個大模型。這五個大模型可以幫助毫末實現(xiàn)車端感知架構(gòu)跨代升級,將過去分散的多個下游任務(wù)都集成到一起,形成一個更加端到端架構(gòu),包括紅綠燈、局部路網(wǎng)、預(yù)測等任務(wù),實現(xiàn)跨代升級。
總得來說,人工智能技術(shù)是當(dāng)前許多舊產(chǎn)業(yè)的改造器,也是新產(chǎn)業(yè)的助力器。正如當(dāng)年互聯(lián)網(wǎng)喊出的「所有行業(yè)都要被互聯(lián)網(wǎng)重塑一番」一樣,今天的一切行業(yè)都要被「AI+」改造一番。
而實際上,人工智能的這場變革并不是必然發(fā)生,它有賴于一個天才算法結(jié)構(gòu)的橫空出世,有賴于海量數(shù)據(jù)和算力的成本下降與容易獲得,也依賴于人工智能技術(shù)從業(yè)者的勇敢嘗試。ChatGPT 的出現(xiàn)是如此,自動駕駛的實現(xiàn)也是如此。
關(guān)鍵詞: 自動駕駛系統(tǒng) 自動駕駛技術(shù) 人工智能技術(shù) chatgpt