【世界熱聞】不出所料，自動(dòng)駕駛向ChatGPT下手了！

2023-02-10 17:48:52 來(lái)源：手機(jī)網(wǎng)易網(wǎng)

機(jī)器之心專(zhuān)欄

(資料圖片)

機(jī)器之心編輯部

ChatGPT 的技術(shù)思路與自動(dòng)駕駛能碰撞出什么樣的火花呢？

去年底，ChatGPT 橫空出世。真實(shí)自然的人機(jī)對(duì)話(huà)、比擬專(zhuān)家的回答以及一本正經(jīng)的胡說(shuō)八道，使它迅速走紅，風(fēng)靡全世界。

不像之前那些換臉、捏臉、詩(shī)歌繪畫(huà)生成等紅極一時(shí)又很快熱度退散的 AIGC 應(yīng)用，ChatGPT 不僅保持了熱度，而且還有全面爆發(fā)的趨勢(shì)?，F(xiàn)如今，谷歌、百度的 AI 聊天機(jī)器人已經(jīng)在路上。

比爾蓋茨如此盛贊：「ChatGPT 的意義不亞于 PC 和互聯(lián)網(wǎng)誕生。」

為什么呢？

首先，人機(jī)對(duì)話(huà)實(shí)在是剛需。人工智能技術(shù)鼻祖的圖靈所設(shè)計(jì)的「圖靈測(cè)試」，就是試圖通過(guò)人機(jī)對(duì)話(huà)的方式來(lái)檢驗(yàn)人工智能是否已經(jīng)騙過(guò)人類(lèi)。能從人機(jī)問(wèn)題中就能獲得準(zhǔn)確答案，這可比搜索引擎給到一大堆推薦網(wǎng)頁(yè)和答案更貼心了。要知道懶惰乃人類(lèi)進(jìn)步的原動(dòng)力。

其次，ChatGPT 實(shí)在是太能打了。不僅在日常語(yǔ)言當(dāng)中，ChatGPT 能夠像人類(lèi)一樣進(jìn)行聊天對(duì)話(huà)，還能生成各種新聞、郵件、論文，甚至進(jìn)行計(jì)算和編寫(xiě)代碼，這簡(jiǎn)直就像小朋友抓到一只「哆啦 A 夢(mèng)」—— 有求必應(yīng)了。

除了看看熱鬧，我們也可以弱弱地問(wèn)一句：ChatGPT 為啥這么能打呢？

ChatGPT：我手握大模型，還會(huì)「杠」人類(lèi)

先看一個(gè)「不要你以為，我要我媳婦以為」的例子。

之前，人類(lèi)在和 ChatGPT 對(duì)話(huà)的時(shí)候，可以搬出「我媳婦這么說(shuō)的」，「我媳婦說(shuō)的…… 不會(huì)錯(cuò)」的時(shí)候，它就在稍微堅(jiān)持之后就認(rèn)慫并修改自己的回答。

但是經(jīng)過(guò)了大量訓(xùn)練，ChatGPT 開(kāi)始變得十分硬氣。無(wú)論你是否搬出自己媳婦，它都會(huì)堅(jiān)持真理，2+2 就是等于 4 了，管你是不是個(gè)「妻管?chē)?yán)」，它都不會(huì)妥協(xié)了。

原來(lái)是 ChatGPT 被回爐重造，進(jìn)行了一番真實(shí)性和數(shù)學(xué)能力的專(zhuān)門(mén)訓(xùn)練。反過(guò)來(lái)說(shuō)，ChatGPT 是可以被人類(lèi)帶偏的。

那為啥呢？先來(lái)回答 ChatGPT 到底是個(gè)啥？它是個(gè)基于上千億超大語(yǔ)料參數(shù)組成的 GPT3.0 架構(gòu)訓(xùn)練出來(lái)的一個(gè)自然語(yǔ)言處理聊天工具。ChatGPT 的算法采用了 Transformer 神經(jīng)網(wǎng)絡(luò)架構(gòu)，具有很好的時(shí)序數(shù)據(jù)處理能力，說(shuō)大白話(huà)就是能很好處理上下文的語(yǔ)法關(guān)系。

Transformer 是一種結(jié)構(gòu)簡(jiǎn)單的編解碼器，幾乎可以無(wú)限堆疊，從而形成一種大規(guī)模的預(yù)訓(xùn)練語(yǔ)言模型。基于 Transformer 模型構(gòu)成的 GPT 架構(gòu)可以很好地完成多種語(yǔ)言處理任務(wù)，填空、造句、分段、翻譯等等，隨著數(shù)據(jù)集和模型參數(shù)的大規(guī)模增長(zhǎng)，等到 GPT3.0 的時(shí)候已經(jīng)有了千億規(guī)模，GPT 就表現(xiàn)出來(lái)了非常強(qiáng)的文本生成能力。

自然而然，一問(wèn)一句的對(duì)話(huà)模式也就應(yīng)運(yùn)而生了。但 GPT3.5 還不是 ChatGPT。

ChatGPT 還需要使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)。具體來(lái)說(shuō)，ChatGPT 使用了一種叫「人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）」的訓(xùn)練方法，在訓(xùn)練中可以根據(jù)人類(lèi)反饋，保證對(duì)無(wú)益、失真或偏見(jiàn)信息的最小化輸出。

簡(jiǎn)單來(lái)說(shuō)，GPT 只能保證有問(wèn)就有答，不保證回答的正確，而 ChatGPT 既要保證有的聊，還要保證聊的對(duì)。就跟小孩子一樣，必須在大人一遍遍糾正發(fā)音、糾正語(yǔ)法和用詞的訓(xùn)練中，學(xué)會(huì)真正的有效對(duì)話(huà)。

ChatGPT 就是利用人類(lèi)反饋進(jìn)行強(qiáng)化學(xué)習(xí)的產(chǎn)物。

既然 ChatGPT 這么好用。我們不妨來(lái)問(wèn)它一個(gè)問(wèn)題：能不能把 ChatGPT 用在自動(dòng)駕駛技術(shù)訓(xùn)練當(dāng)中？答案是：可以。

毫末顧維灝：把 ChatGPT 引入自動(dòng)駕駛，毫末走了這三步

我估計(jì) ChatGPT 還沒(méi)涉獵過(guò)這個(gè)問(wèn)題，因?yàn)殛P(guān)于 ChatGPT 和自動(dòng)駕駛關(guān)聯(lián)的內(nèi)容是缺少的。不過(guò)，如果 ChatGPT 最近在中文網(wǎng)絡(luò)中收錄過(guò)相關(guān)報(bào)道的話(huà)，那么，它就會(huì)知道中國(guó)的一家人工智能技術(shù)公司已經(jīng)開(kāi)始思考這個(gè)問(wèn)題了。

在 1 月的毫末智行的 AI DAY 上，毫末 CEO 顧維灝非常隆重地提到了 ChatGPT，并且直言，毫末已經(jīng)展開(kāi)對(duì)于 ChatGPT 背后的技術(shù)的研究。

顧維灝說(shuō)：「實(shí)現(xiàn) GPT3 到 ChatGPT 的龍門(mén)一躍最重要的是 ChatGPT 模型使用了『利用人類(lèi)反饋強(qiáng)化學(xué)習(xí) RLHF』的訓(xùn)練方式，更好地利用了人類(lèi)知識(shí)，讓模型自己判斷其答案的質(zhì)量，逐步提升自己給出高質(zhì)量答案的能力?！?/p>

那這對(duì)自動(dòng)駕駛有什么啟發(fā)呢？毫末認(rèn)為，ChatGPT 的技術(shù)思路和自動(dòng)駕駛認(rèn)知決策的思路是不謀而合。

毫末在認(rèn)知駕駛決策算法的進(jìn)化上分成了以下三個(gè)階段：

第一個(gè)階段是引入了個(gè)別場(chǎng)景的端到端模仿學(xué)習(xí)，直接擬合人駕行為。第二個(gè)階段是通過(guò)大模型，引入海量正常人駕數(shù)據(jù)，通過(guò) Prompt 的方式實(shí)現(xiàn)認(rèn)知決策的可控可解釋。第三個(gè)階段就是引入了真實(shí)接管數(shù)據(jù)，在其中嘗試使用「人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）」。一般來(lái)說(shuō)，人類(lèi)司機(jī)的每一次接管，都是對(duì)自動(dòng)駕駛策略的一次人為反饋；這個(gè)接管數(shù)據(jù)可以被簡(jiǎn)單當(dāng)成一個(gè)負(fù)樣本來(lái)使用，就是自動(dòng)駕駛決策被糾正的一次記錄。同時(shí)也可以被當(dāng)作改進(jìn)認(rèn)知決策的正樣本來(lái)學(xué)習(xí)。

為此，毫末構(gòu)建了一個(gè)< 舊策略、接管策略、人工 label 策略 >的 pairwise 排序模型?；谶@個(gè)模型，毫末構(gòu)建了自動(dòng)駕駛決策的獎(jiǎng)勵(lì)模型（reward model），從而在各種情況下做出最優(yōu)的決策。

毫末將這一模型稱(chēng)之為人駕自監(jiān)督認(rèn)知大模型。簡(jiǎn)單來(lái)說(shuō)，就是為了讓自動(dòng)駕駛系統(tǒng)能夠?qū)W習(xí)到老司機(jī)的優(yōu)秀開(kāi)車(chē)方法，讓毫末的認(rèn)知大模型要從人類(lèi)反饋中學(xué)會(huì)選擇和辨別，并穩(wěn)定地輸出最優(yōu)解。通過(guò)這種方式，毫末在掉頭、環(huán)島等公認(rèn)的困難場(chǎng)景，通過(guò)率提升 30% 以上。

當(dāng)然，如果 ChatGPT 再繼續(xù)搜索和學(xué)習(xí)下去，它就會(huì)知道在 1 月初的 HAOMO AI DAY 上，毫末不僅發(fā)布了這個(gè)人駕自監(jiān)督大模型，還一口氣發(fā)布了另外四個(gè)大模型。這五個(gè)大模型可以幫助毫末實(shí)現(xiàn)車(chē)端感知架構(gòu)跨代升級(jí)，將過(guò)去分散的多個(gè)下游任務(wù)都集成到一起，形成一個(gè)更加端到端架構(gòu)，包括紅綠燈、局部路網(wǎng)、預(yù)測(cè)等任務(wù)，實(shí)現(xiàn)跨代升級(jí)。

總得來(lái)說(shuō)，人工智能技術(shù)是當(dāng)前許多舊產(chǎn)業(yè)的改造器，也是新產(chǎn)業(yè)的助力器。正如當(dāng)年互聯(lián)網(wǎng)喊出的「所有行業(yè)都要被互聯(lián)網(wǎng)重塑一番」一樣，今天的一切行業(yè)都要被「AI+」改造一番。

而實(shí)際上，人工智能的這場(chǎng)變革并不是必然發(fā)生，它有賴(lài)于一個(gè)天才算法結(jié)構(gòu)的橫空出世，有賴(lài)于海量數(shù)據(jù)和算力的成本下降與容易獲得，也依賴(lài)于人工智能技術(shù)從業(yè)者的勇敢嘗試。ChatGPT 的出現(xiàn)是如此，自動(dòng)駕駛的實(shí)現(xiàn)也是如此。

關(guān)鍵詞：自動(dòng)駕駛系統(tǒng) 自動(dòng)駕駛技術(shù) 人工智能技術(shù) chatgpt

【世界熱聞】不出所料，自動(dòng)駕駛向ChatGPT下手了！

【世界熱聞】不出所料，自動(dòng)駕駛向ChatGPT下手了！