最近,OpenAI發(fā)布了免費機器人對話模型ChatGPT,一時間火爆全球,成為科技圈第一大熱潮,短短一周吸粉便超過百萬。ChatGPT也稱為科技圈的必聊話題。
【資料圖】
如此智能的機器人對話模型,仿佛與我們記憶中略顯“笨拙”的機械式AI對話已經(jīng)完全不同。在這些年里,人工智能創(chuàng)作內(nèi)容(AIGC)已經(jīng)飛速成長,甚至在很多領(lǐng)域大大超越了專家學(xué)者的精準性和博識水準。
圖:與ChatGPT對話
同樣在2022年,AIGC已經(jīng)出圈過一次。
AI繪畫憑借其獨特的創(chuàng)意與便捷的創(chuàng)作工具迅速走紅,甚至出現(xiàn)使用AI作畫參賽獲獎的新聞;同時,許多AIGC方面的公司正在飛速的成長,獲取一筆筆的融資,成為獨角獸公司。
但是,在如火如荼的AIGC技術(shù)發(fā)展中,有一個問題卻始終沒有得到明確的解答,那就是AIGC雖然這么新穎、好玩,但是它的商業(yè)化價值到底如何,又能應(yīng)用于哪些具體的場景呢?
本文就AIGC相關(guān)信息、落地應(yīng)用與目前行業(yè)面臨的問題進行解讀,為那些對AIGC感興趣的讀者與投資人展現(xiàn)目前人工智能生成內(nèi)容的發(fā)展圖景。
2022: AIGC元年
2022年,深度學(xué)習(xí)模型Diffusion擴散化模型的出現(xiàn),直接推動了AIGC技術(shù)的突破性發(fā)展,許多基于StableDiffusion模型的應(yīng)用紛紛入局。也正因如此,2022年被稱為AIGC元年。
但在各類使用AIGC技術(shù)的應(yīng)用大規(guī)模“井噴”之前,AIGC也曾經(jīng)歷了幾十年的發(fā)展。
1950年,圖靈提出了著名的“圖靈測試”,給出了判定機器是否具有“智能”的方法,即機器是否能夠模仿人類的思維方式來“生成”內(nèi)容繼而與人交互。
經(jīng)過半個多世紀的發(fā)展,今天的人工智能不僅能夠與人類進行互動,還可以進行寫作、編曲、繪畫、視頻制作等創(chuàng)意工作。隨著人工智能越來越多地被應(yīng)用于內(nèi)容創(chuàng)作,人工智能生成內(nèi)容悄然興起。
目前,對于AIGC這一概念的界定,尚無統(tǒng)一規(guī)范的定義。而國內(nèi)產(chǎn)學(xué)研各界對于AIGC的理解是“繼專業(yè)生成內(nèi)容和用戶生成內(nèi)容之后,利用人工智能技術(shù)自動生成內(nèi)容的新型生產(chǎn)方式”。
而結(jié)合人工智能的演進沿革,AIGC的發(fā)展歷程大致可以分為三個階段:
早期萌芽階段(1950s-1990s),受限于當(dāng)時的科技水平,AIGC僅限于小范圍實驗。1957 年,萊杰倫·希勒和倫納德·艾薩克森完成歷史第一支由計算機創(chuàng)作的弦樂四重奏《伊利亞克組曲》。1966年,約瑟夫·魏岑鮑姆和肯尼斯·科爾比開發(fā)了世界第一款可人機對話的機器人Eliza。80年代中期,IBM創(chuàng)造了語音控制打字機Tangora。
沉淀積累階段(1990s-2010s),AIGC從實驗性向?qū)嵱眯灾饾u轉(zhuǎn)變。2006年,深度學(xué)習(xí)算法、圖形處理器、張量處理器等都取得了重大突破。2007年,世界第一部完全由人工智能創(chuàng)作的小說《1 The Road》問世。2012年,微軟公開展示了一個全自動同聲傳譯系統(tǒng),可以自動將英文演講者的內(nèi)容通過語音識別、語言翻譯、語音合成等技術(shù)生成中文語音。
快速發(fā)展階段(2010s至今),深度學(xué)習(xí)模型不斷迭代,AIGC突破性發(fā)展。2014年,對抗生產(chǎn)網(wǎng)絡(luò)GAN出現(xiàn)。2021年,CLIP模型出現(xiàn);OpenAI推出DALL-E,主要應(yīng)用于文本與圖像交互生成內(nèi)容。2022年,深度學(xué)習(xí)模型Diffusion擴散化模型的出現(xiàn)。
新模型下的AIGC所向披靡
過去,互聯(lián)網(wǎng)的內(nèi)容都是由用戶生成、上傳,AI只能協(xié)助人類完成一部分最簡單、最基礎(chǔ)的工作,無法獨立生成內(nèi)容,更不用提優(yōu)質(zhì)內(nèi)容了。
但這一狀況也因Diffusion擴散化模型的開源應(yīng)用而被打破,AIGC成為了繼UGC之后的又一大內(nèi)容生成方式。
相較于UGC,AIGC的最大不同是新技術(shù)驅(qū)動了機器智能創(chuàng)作內(nèi)容,這使得AIGC具有獨特的技術(shù)特征,包括數(shù)據(jù)據(jù)量化、內(nèi)容創(chuàng)造力、跨模態(tài)融合、認知交互力等,也正是這些獨有的技術(shù)能力,讓AIGC成為“不可替代”的新一代內(nèi)容生成方式。
(1)數(shù)據(jù)巨量化:
AIGC豐富的“想象力”和驚為天人的“創(chuàng)作能力”,是在海量數(shù)據(jù)的基礎(chǔ)上由計算機學(xué)習(xí)和模擬生成的,每一幅AI畫作的背后都是無數(shù)的標(biāo)注數(shù)據(jù)與訓(xùn)練。卷積神經(jīng)網(wǎng)絡(luò)和Transformer大模型的流行成功使深度學(xué)習(xí)模型參數(shù)量躍升至億級,由此帶來的數(shù)據(jù)巨量化推動了AIGC發(fā)展的進程。
如知名的計算機視覺項目ImageNet在眾包任務(wù)中有超過25000人參與,標(biāo)準圖片超過1400萬張;而OpenAI更是收集了4億個文本圖像配對數(shù)據(jù)進行預(yù)訓(xùn)練。在零樣本學(xué)習(xí)成熟之前,AIGC通過巨量數(shù)據(jù)實現(xiàn)內(nèi)容創(chuàng)作的發(fā)展路線仍難以撼動。
(2)內(nèi)容創(chuàng)造力:
正是有了海量數(shù)據(jù)的加成,AIGC在創(chuàng)作方面有著無限的“靈感”,也成為了AIGC最吸引用戶的特色。借助海量的語料庫,AI工具仿佛超級畫手或作曲家一樣生成指定風(fēng)格的圖像、音樂或視頻。
同時,例如神經(jīng)風(fēng)格遷移算法利用卷積神經(jīng)網(wǎng)絡(luò)識別圖像內(nèi)容表征和風(fēng)格表征并在特定神經(jīng)網(wǎng)絡(luò)層對圖像進行重構(gòu),也使得AI畫作能夠模仿特定風(fēng)格的藝術(shù)作品。
與人類創(chuàng)作過程相比,AI創(chuàng)作擁有時間短、規(guī)模大、風(fēng)格多等特點,在藝術(shù)創(chuàng)作、插畫、影視編輯等領(lǐng)域正在產(chǎn)生變革效應(yīng),人們甚至開始擔(dān)心AIGC會不會沖擊傳統(tǒng)藝術(shù)創(chuàng)作者的工作崗位。
(3)跨模態(tài)融合:
跨模態(tài)融合是AIGC區(qū)別于傳統(tǒng)UGC和PGC的顯著特征。AI能夠分別提取文本特征和圖片特征進行相似度對比,通過特征相似度計算文本與圖像的匹配關(guān)系,從而實現(xiàn)跨模態(tài)的相互理解。
2022年9月,百度發(fā)布“2022十大科技前沿發(fā)明”,位列第一的就是“跨模態(tài)通用可控AIGC”,跨模態(tài)生成的本質(zhì)是文本、視覺、聽覺乃至腦電等不同模態(tài)的知識融合,覆蓋圖文、視頻、數(shù)字人、機器人等更多場景。
在未來,隨著國內(nèi)外多家科技公司發(fā)布多模態(tài)AI大模型,AIGC的跨模態(tài)融合趨勢將進一步加強。
(4)認知交互力:
擁有一定程度的認知和交互能力,是AIGC發(fā)展的重要趨勢。
對于開發(fā)者而言,代碼的輸入輸出是人與計算機交互的底層邏輯;對于用戶而言,人們使用智能終端和網(wǎng)絡(luò)平臺實現(xiàn)人機交互和互聯(lián)通信。在人工智能場景中,通常利用自動問答、視覺識別、姿態(tài)識別等實現(xiàn)人機交互,而AIGC的出現(xiàn)則為人與機器的溝通帶來了更多可能,擁有人與人類溝通的媒介,在感知和交互上具備其獨有的特色。
AIGC既是畫家又是主播還是翻譯
在不知不覺中,AIGC已經(jīng)滲入了我們的生活中的每個角落,從導(dǎo)航軟件中的“人聲”指路,到直播賣貨中的“虛擬主播”,都隱藏著它的身影。目前,AIGC技術(shù)已經(jīng)率先在傳媒、電商、娛樂等領(lǐng)域?qū)崿F(xiàn)大規(guī)模落地。
在最簡單直接的落地領(lǐng)域里,傳媒行業(yè)首當(dāng)其沖。人機協(xié)同,能大幅提高傳媒行業(yè)一些基礎(chǔ)工作效率。
AIGC作為當(dāng)前最新的內(nèi)容生產(chǎn)方式,與傳媒工作者協(xié)作,為媒體內(nèi)容生產(chǎn)全面賦能。寫稿機器人、采訪助手、字幕生成、語音播報等相關(guān)應(yīng)用不斷涌現(xiàn),深刻地改變了媒體生產(chǎn)內(nèi)容的方式,大大提升了行業(yè)生產(chǎn)效率。
在采編環(huán)節(jié)中,語音轉(zhuǎn)寫技術(shù)大大提升了傳媒人的工作效率。借助語音識別技術(shù),可以將一段采訪稿快速以文字的形式進行輸出,同時兼顧了準確性與時效性。2022年冬奧會期間,科大訊飛的智能錄音筆便可完成跨語種的語音轉(zhuǎn)寫,助力記者快速出稿。
科大訊飛智能錄音筆
智能視頻的剪輯,提升了視頻內(nèi)容的價值。通過使用視頻字幕生成、視頻錦集等視頻智能化剪輯工具,可高效節(jié)省人力時間成本,最大化版權(quán)價值。2022年冬奧會期間,央視視頻通過使用AI智能內(nèi)容生產(chǎn)剪輯系統(tǒng),高效生產(chǎn)與發(fā)布冬奧冰雪項目的視頻集錦內(nèi)容,為深度開發(fā)體育媒體版權(quán)內(nèi)容價值,創(chuàng)造了更多的可能性。
在傳播環(huán)節(jié),AIGC技術(shù)為社區(qū)生態(tài)注入了新的活力。以百度為例,“創(chuàng)作者AI助理團”已在百家號平臺上線,作為百度移動生態(tài)AIGC應(yīng)用的“先遣部隊”,除AI作畫、圖文轉(zhuǎn)視頻技術(shù)外,還推出了數(shù)字主持人,為創(chuàng)作者實現(xiàn)更多場景的應(yīng)用體驗,給予用戶全新的瀏覽體驗。
中國青年報和中國青年網(wǎng)官方短視頻品牌“青蜂俠”,就依托百家號平臺推出了數(shù)字主持人“青小霞”,率先實現(xiàn)了“數(shù)字主持人自由”?!扒嘈∠肌蹦芨叨葟?fù)刻真人主播的聲音及表情動作,實現(xiàn)高質(zhì)多量的內(nèi)容生產(chǎn)和播報,降低媒體運作和內(nèi)容生產(chǎn)成本,為內(nèi)容傳播形式注入科技創(chuàng)新力。
在當(dāng)前,AIGC已經(jīng)在電商行業(yè)中成熟落地,尤其是虛擬主播等應(yīng)用產(chǎn)品,已經(jīng)為不少消費者提供實時服務(wù)。
隨著數(shù)字技術(shù)的不斷發(fā)展與消費的升級,良好的購物體驗成為消費者越來越看重的地方。而利用AIGC技術(shù),可通過快速、準確響應(yīng)消費者需求與構(gòu)建沉浸式購物場景的方式來提升消費者的購物體驗。
在構(gòu)建沉浸式購物場景中,打造虛擬主播是必不可少的環(huán)節(jié)。這里的虛擬主播并非是過去我們認為的“皮套人”,而是可以為觀眾提供24小時不間斷貨品推薦介紹的“數(shù)字人”。虛擬主播有著以下三大優(yōu)勢:
一是可以代替真人直播,為用戶提供更靈活的觀看時間和更方便的購物體驗,也在為合作商家節(jié)省成本的同時創(chuàng)造更大的流量。如歐萊雅、飛利浦等品牌的虛擬主播會在0點到9點之間進行直播,與真人主播相互配合,提供24小時無縫對接的直播服務(wù)。
二是虛擬主播可塑造店鋪形象,拉近與年輕消費者的距離。如彩妝品牌“卡姿蘭”推出自己的品牌虛擬形象,并將其引入直播間作為其天貓旗艦店日常的虛擬主播導(dǎo)購。
三是虛擬主播穩(wěn)定可控,不會出現(xiàn)“人設(shè)崩塌”的情況。虛擬主播人設(shè)、言行舉止等均可由品牌方掌握,對于真人帶貨安全性、可控性更強。品牌方無需擔(dān)心虛擬形象人設(shè)崩塌,為品牌帶來負面新聞。
目前,由AI驅(qū)動的虛擬主播擁有多變的形象、媲美真人的聲音和多種直播場景。以京東云言犀為例,通過自研的3DNeuralRender神經(jīng)渲染器,可以高保真地合成主播面部細節(jié),在互動中,2D及超寫實、高精度3D數(shù)字員工驅(qū)動方案,實現(xiàn)了音唇精準同步。目前言犀擁有100+的數(shù)字人形象,在2022年雙11期間,在近200百家付費品牌店鋪中開播,累計帶來數(shù)百萬GMV的轉(zhuǎn)化。
京東數(shù)字人:靈小播
對話式AI技術(shù)主導(dǎo)的智能服務(wù),助力品牌快速響應(yīng)消費者需求。每年購物節(jié)期間,店鋪中的客服數(shù)量在面對消費者的海量問題時總會顯得“捉襟見肘”,而任務(wù)型對話AI則可以扮演客服的角色。
對話式AI產(chǎn)品可替代人類對話完成重復(fù)性、規(guī)則性對話任務(wù),優(yōu)化重構(gòu)對話服務(wù)的工作流與職能重點,還可為對話服務(wù)提供智能調(diào)度、坐席助手、對話洞察等輔助功能,與人工坐席并肩作戰(zhàn),構(gòu)建輔助培訓(xùn)、運營管理、指導(dǎo)洞察的良性循環(huán)。
在京東言犀平臺,依靠領(lǐng)域性大模型K-PLUG,實現(xiàn)了短文本和長文本的自動生成。目前已經(jīng)覆蓋了京東的3000多個三級品類,累計生成文案30億字,應(yīng)用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI直播帶貨等,累計帶來超過3億元GMV。
在今年雙11期間,智能客服累計接待了超4.5億次的咨詢服務(wù),迎接了年終最大的流量洪峰,并完成任務(wù)。
此外,AIGC也已經(jīng)娛樂行業(yè)落地開花,拓展了娛樂邊界。
在數(shù)字時代,娛樂不僅僅再是游戲,更是與樂趣的尋找與現(xiàn)代人對歸屬感的渴望。借助AIGC技術(shù),通過趣味性圖像、音視頻、虛擬偶像等方式,娛樂行業(yè)快速擴展邊界,以另一種面貌獲得全新的發(fā)展動能。
趣味性圖像、音視頻生成,激發(fā)用戶使用熱情。在圖像生成方面,AI換臉、一鍵構(gòu)圖等應(yīng)用極大地滿足了用戶獵奇地需求。在國外,F(xiàn)aceAPP一經(jīng)推出,就立刻病毒式在網(wǎng)絡(luò)上引發(fā)熱潮,登上App Store下載榜首。而在國內(nèi),百度文心一格也一度帶起了AI作畫的熱潮,以使用便捷、畫作精美、善于東方元素等多個特點,受到了用戶的一致好評。
文心一格作圖——圣墟
在音視頻生成方面,語音模仿、變聲器等功能,增加了互動娛樂性。騰訊旗下多款游戲均已集成變聲、語音模仿、自動生產(chǎn)短視頻等功能,讓溝通本身也成為了一種樂此不疲的游戲。
打造虛擬偶像,釋放IP價值。在娛樂賽道中最經(jīng)典的虛擬偶像群體非初音、洛天依為代表的“虛擬歌姬”莫屬,而其都是基于VOCALOID 語音合成引擎軟件為基礎(chǔ)創(chuàng)造出來的虛擬人物,由真人提供聲源,再由軟件合成人聲。
自2012年7月12日洛天依出道,在十年的時間內(nèi),音樂人以及粉絲已為洛天依創(chuàng)作了超過一萬首作品,洛天依在為用戶提供更多想象和創(chuàng)作空間的同時,也與粉絲建立了更深刻聯(lián)系。
除與粉絲共同創(chuàng)作外,AI合成視頻、音頻,也幫助虛擬偶像快速出圈,實現(xiàn)變現(xiàn)場景的多元化,目前可通過演唱會、音樂專輯、廣告代言、直播、周邊衍生產(chǎn)品等方式進行變現(xiàn)。
同時隨著虛擬偶像商業(yè)價值被不斷發(fā)掘,品牌方與虛擬 IP 的聯(lián)動意愿隨之提升。如由魔琺科技與次世文化共同打造的網(wǎng)紅翎Ling于2020年5月出道至現(xiàn)在已先后與VOGUE、特斯拉、GUCCI 等品牌展開合作。
除傳媒、電商、娛樂行業(yè)外,金融、工業(yè)、醫(yī)療等各行各業(yè)的AIGC技術(shù)也都在蓬勃發(fā)展、加速落地。從整體來看,AIGC技術(shù)已經(jīng)開始深入融合到我們生活中的每個角落,其相關(guān)應(yīng)用正加速滲透到經(jīng)濟社會的方方面面。
AI無所不能了嗎?
在相關(guān)應(yīng)用大量落地,AIGC技術(shù)快速發(fā)展的當(dāng)下,仿佛未來一切都很美好。但我們需要認清的是,目前AIGC還處在發(fā)展的初期。關(guān)鍵技術(shù)、企業(yè)核心能力和相關(guān)法律法規(guī)都尚未完善,圍繞著公平、安全、責(zé)任的爭議日益增多,也引發(fā)了一系列亟待解決的問題。
當(dāng)前,AIGC關(guān)鍵技術(shù)不夠成熟,大規(guī)模落地仍存在痛點。
隨著AIGC 技術(shù)不斷升級,進一步釋放內(nèi)容生產(chǎn)力,但其在人工智能關(guān)鍵技術(shù)方面尚存在局限,掣肘產(chǎn)業(yè)發(fā)展進程。
具體來看,一是人工智能算法方面仍有缺陷,在透明度、魯棒性、偏見與歧視方面仍存在尚未克服的及數(shù)據(jù)線,導(dǎo)致算法應(yīng)用問題重重。二是AIGC內(nèi)容編輯與創(chuàng)作技術(shù)不夠完善,人工智能技術(shù)加持的內(nèi)容編輯與創(chuàng)作技術(shù)仍然受短板制約,導(dǎo)致產(chǎn)業(yè)發(fā)展存在技術(shù)門檻。
大量AIGC 企業(yè)噴涌而出,但是核心能力參差不齊,威脅網(wǎng)絡(luò)內(nèi)容生態(tài)健康安全發(fā)展。
隨著數(shù)字技術(shù)的開源開放,AIGC 技術(shù)研發(fā)門檻、制作成本等不斷降低,致使市場上的平臺企業(yè)泥沙俱下,企業(yè)核心能力不足對良好網(wǎng)絡(luò)生態(tài)構(gòu)建造成嚴重障礙。
具體來看,一是內(nèi)容審核能力有待提升,目前基本審核方式為“機審+人審”,機審誤報率偏高,而人審也沒有形成統(tǒng)一標(biāo)準。審核能力的缺失導(dǎo)致了包含虛假、不良信息的違法違規(guī)內(nèi)容流出,影響產(chǎn)業(yè)甚至整個網(wǎng)絡(luò)生態(tài)環(huán)境。
二是是企業(yè)技術(shù)管理能力建設(shè)不足。由于AIGC技術(shù)復(fù)雜,且具有高動態(tài)性等特點,便要求企業(yè)具備相應(yīng)的技術(shù)管理能力。但企業(yè)具有商業(yè)屬性,決定了在資源有限的情況下其往往傾向于自身利益,而對技術(shù)安全和制度保障投入不足。
三是是企業(yè)風(fēng)險治理能力尚未完善。當(dāng)前AIGC技術(shù)仍處于發(fā)展初期,其風(fēng)險具有未知性和復(fù)雜性等特點,很多企業(yè)對于對風(fēng)險的預(yù)測、防范和應(yīng)急處置能力均尚未完善,風(fēng)險治理理念也未落實到工程技術(shù)實踐中。
當(dāng)前,有關(guān)AIGC相關(guān)規(guī)范指引尚需完善,發(fā)展與治理之間存在匹配問題。
近年來,人工智能產(chǎn)業(yè)規(guī)范指引不斷推出,治理體系初顯格局,但隨著科技進步加快,制度建設(shè)亦步亦趨也未必嚴絲合縫,這又引發(fā)了技術(shù)創(chuàng)新發(fā)展與政策支持、法律規(guī)制的匹配問題。
具體來看,一是產(chǎn)業(yè)發(fā)展需落實支持政策。未來,各地、各部門政策的支持力度、推進落實和動態(tài)調(diào)整情況將決定著技術(shù)與社會的相互建構(gòu)程度,將對AIGC技術(shù)在社會情境中的落地與發(fā)展起到重要作用。
二是AIGC可版權(quán)性有待厘清。法律概念的模糊引發(fā)司法裁判的不確定,導(dǎo)致 AIGC作品存在著著作權(quán)歸屬不清的現(xiàn)實困境。這一問題阻礙人工智能技術(shù)發(fā)揮其創(chuàng)作價值,還有可能稀釋作品權(quán)利人的獨創(chuàng)性,威脅他人的合法權(quán)益。
三是新技術(shù)增加監(jiān)管難度。是由于互聯(lián)網(wǎng)相關(guān)技術(shù)的發(fā)展,造假內(nèi)容具有分散性、流動性、大規(guī)模性和隱蔽性的特點,導(dǎo)致追蹤難度和復(fù)雜性與日俱增,再加上規(guī)范指引的模糊和滯后,對內(nèi)容監(jiān)管行動造成了嚴重阻礙。
AIGC作為UGC后新一類創(chuàng)作方式,是數(shù)智時代的典型應(yīng)用創(chuàng)新,它的快速發(fā)展不僅正在革新數(shù)字文化創(chuàng)作的生產(chǎn)范式,也在改變用戶與人工智能的交互模式。目前,已經(jīng)滲透到了傳媒、電商、娛樂等各個行業(yè)之中。
但在展望AIGC如此美好的未來之前,我們需要明確,現(xiàn)在其仍處于發(fā)展的初期,還是存在許多尚未觸達、解決的難題。面對生活中越來越多的人工智能生成內(nèi)容,如何安全、健康地使用,也將為人類帶來新的難題。
但無論如何,AIGC作為新一代創(chuàng)作方式,在技術(shù)進步的推動下,正處于萬億賽道的新起點。在未來通用人工智能時代中,AIGC也將拓展出更多應(yīng)用方式,更好地服務(wù)人們的生活。
如ChatGPT一樣的AIGC產(chǎn)品,終將越來越頻繁地出現(xiàn)在我們的社會場景之中,成為常態(tài)。
推薦閱讀