環(huán)球視點！2022 VDC人工智能專場：AI打造1001個便利，科技照亮美好未來

2022-11-10 15:49:06 來源：新浪網(wǎng)

11月8日，以“MORE，近你所想”為主題的2022 vivo開發(fā)者大會正式開幕，在次日舉辦的人工智能專場上，vivo AI團隊通過計算攝影、文檔圖像處理、語音技術(shù)、語義技術(shù)、機器翻譯、計算加速平臺、開放平臺AI專區(qū)等多方面具體案例，介紹了vivo近兩年來在人工智能領(lǐng)域所做的探索和實踐。

(資料圖片)

在人工智能領(lǐng)域，vivo從用戶需求出發(fā)，不斷創(chuàng)新，致力于實現(xiàn)“1001個便利”。生活中，當你沉醉于一首動聽的音樂卻苦于不知道歌曲名稱時，AI可以幫你聽歌識曲;當你看英文視頻卻發(fā)現(xiàn)聽不懂時，AI可以給你提供字幕翻譯;當你想拍出好的照片卻看不懂相機的一堆參數(shù)時，AI計算攝影可以自動幫你把場景色彩還原的更準確，把食物的色澤拍得更鮮艷;工作中，當你需要掃描文件并進行修改發(fā)送時，AI可以幫你去除燈光下的手指陰影和屏幕上的摩爾紋，并可以將拍下來的圖片轉(zhuǎn)化成可編輯的電子文檔，讓你信息處理更高效;我們希望持續(xù)通過AI能力為用戶帶來無處不在的驚喜和激動人心的體驗。

vivo AI算法中心高級總監(jiān) 陳曉昕演講-1001個便利

此外在人文關(guān)懷方面，經(jīng)過不懈的研發(fā)創(chuàng)新，實現(xiàn)了手語到文本再到語音的流暢互譯，推出了手機行業(yè)首個具備手語識別能力的虛擬人。目前的算法已經(jīng)可以識別1200個手語詞匯，準確率在80%以上，已經(jīng)達到漢語四級的理解水平，同時在手語表達方面，目前覆蓋了國家手語通用詞典超過8000個詞匯。AI手語虛擬人既能流利的通過手語進行表達，還能快速識別手語看懂手語，幫助聽障人士更便捷地獲取信息，更高效地與人溝通。

AI計算攝影，為用戶帶來自然色彩極致還原的驚喜

在2020年底，vivo就與蔡司開啟了全球影像戰(zhàn)略合作。今年，vivo聯(lián)合蔡司團隊進一步探討和制定忠于人眼所見的自然色彩理念。在今年發(fā)布的X80系列上，vivo推出了全新升級的蔡司自然色彩2.0，可以更準確的還原真實自然色彩，提升大面積深色和淺色等困難場景下曝光和白平衡準確率。蔡司自然色彩2.0底層使用了最新的兩項AI計算攝影技術(shù)突破：智能白加黑減和智能白平衡技術(shù)。

vivo AI視覺應用組總監(jiān) 冉龍金演講——AI計算攝影

通過智能白加黑減技術(shù)，vivo在行業(yè)內(nèi)首次解決了大面積深色和淺色場景下曝光不準確的問題。在拍服飾、寵物、雪景等困難場景下，曝光準確率相對于原有方法，提升了16%。

而智能白平衡技術(shù)則主要解決拍美食、拍花、拍寵物等場景下偏色的問題。vivo根據(jù)亞洲人色彩恒常性的視覺特點，以及拍攝場景的特點構(gòu)建了豐富的色彩數(shù)據(jù)集。再通過人工智能模型實際學習人眼看到的色彩，從而獲得更準確的白平衡參數(shù)。相對于原有方法，在拍美食、拍花、拍寵物等場景下，色彩精準度提升13%。

AI文檔圖像處理與識別，讓辦公學習更加高效

為了幫助用戶更清晰的記錄好文檔，同時更快捷的提取文檔內(nèi)容，vivo基于AI文檔圖像處理與識別技術(shù)，打造了包括文檔掃描、證件掃描、文字提取、表格識別、口算批改、去手寫等一些列解決方案，并將陸續(xù)在相機、相冊、智慧視覺、琥珀掃描等產(chǎn)品中進行落地，為用戶在辦公和學習等相關(guān)場景提供一個個小便利。

vivo AI視覺理解組總監(jiān) 文亞飛演講——琥珀掃描

來自vivo AI 團隊的文亞飛在演講中表示：“vivo的AI文檔圖像處理與識別解決方案源自兩個核心算法引擎——文檔圖像處理引擎和OCR文字識別引擎?！逼渲形臋n圖像處理引擎可以對文檔主體進行精準的自動裁剪和矯正，同時通過超清修復算法對文檔的陰影、折痕、摩爾紋等進行自動去除，一鍵將紙質(zhì)文檔還原成高清文檔圖片。而最新的OCR文字識別引擎則在視覺模型的基礎(chǔ)上疊加語言模型融合識別，同時通過一系列模型壓縮和計算加速手段，不僅讓文字識別更快更準，同時實現(xiàn)算法運行在本地，更好的保障了用戶的數(shù)據(jù)隱私安全。

AI語音技術(shù)，架起情感交流的橋梁

除了在視覺方面為用戶打造的便利，vivo還通過AI語音技術(shù)，進一步幫助用戶解放雙手和雙眼。

vivo的AI語音技術(shù)體現(xiàn)在兩方面，首先是語音合成技術(shù)?；谧匝械膫€性化語音合成系統(tǒng)，vivo持續(xù)地研發(fā)出了豐富多元的合成聲音，不但提供了清新、甜美、穩(wěn)重等多種不同的音色，同時還支持對話、新聞、小說等不同場景下的朗讀風格，實現(xiàn)了音色、風格以及情感三種元素的自由組合。經(jīng)歷多年技術(shù)的沉淀，vivo發(fā)表了頂會論文8篇，獲取兩項國際賽事第一名，同時Jovi語音助手和屏幕朗讀的語音合成技術(shù)還獲得了通信院和泰爾實驗室認證。

vivo AI語音中心總監(jiān) 陳彬彬演講——AI語音技術(shù)

其次是語音識別技術(shù)，經(jīng)過多年的發(fā)展和迭代，vivo語音識別技術(shù)目前效果得到了比較大的進步。來自vivo AI語音中心的陳彬彬說：“vivo通過端到端建模、AI降噪以及場景化語言模型等方式，克服了口音、噪音和專業(yè)領(lǐng)域等導致的識別錯誤，極大提升了語音識別的準確性?！?/p>

機器翻譯，讓溝通沒有障礙

面對日益豐富的國際交流和文化碰撞，vivo通過科技創(chuàng)新助力用戶突破語言障礙，讓用戶生活更加高效便利。AI雙語字幕讓愛看電影愛追劇的朋友隨心所欲地看生肉，還支持中外雙語字幕對照展示，學生群體上網(wǎng)課也不用愁。另外，vivo手機內(nèi)置的系統(tǒng)級應用翻譯機支持二十多個主流語種的流暢互譯，同時vivo還推出了Jovi輸入法快捷翻譯、識屏翻譯、拍照翻譯等多項功能，幫助用戶克服語言溝通的障礙。

vivo 針對翻譯的重點人群、高頻場景、便捷入口均設(shè)計了產(chǎn)品方案，助力高效解決翻譯需求?！?來自vivo機器翻譯團隊的李方圓在演講中闡述。

vivo AI機器翻譯組高級經(jīng)理李方圓演講

vivo在針對文本、圖片、聲音三種內(nèi)容形態(tài)均研發(fā)了算法能力。在圖片翻譯技術(shù)上，攻克落合并和圖片文字涂抹兩大技術(shù)難點，提升了圖片翻譯的質(zhì)量和排版的美觀度。在語音翻譯技術(shù)方面，vivo聚焦優(yōu)化流式場景下的語音翻譯效果，持續(xù)優(yōu)化模型對ASR噪音的魯棒性，在翻譯質(zhì)量、穩(wěn)定性、翻譯延時三者之間取得平衡。

經(jīng)歷2年多的沉淀，vivo的機器翻譯團隊在今年的全國機器翻譯大賽上斬獲漢英翻譯、中日英多語言翻譯2項冠軍，并且還在英漢、藏漢、中泰、泰中4個賽道上獲得亞軍。

Jovi輸入法Pro，最大限度保護用戶隱私

面對由輸入法引發(fā)的用戶隱私泄露問題，vivo首次推出了完全自研的Jovi輸入法Pro，以實際行動筑牢數(shù)據(jù)安全、隱私保護與守法合規(guī)的企業(yè)紅線。

vivo AI算法中心高級總監(jiān) 陳曉昕演講——Jovi輸入法Pro

Jovi輸入法Pro提供了本地模式，輸入法可以實現(xiàn)完全本地運行，無需用戶進行聯(lián)網(wǎng)授權(quán)，保證了用戶的個人信息和數(shù)據(jù)只保存在本地。為了實現(xiàn)Jovi輸入法的本地模式，vivo對拼音、語音、手寫三大輸入法內(nèi)核進行了全面優(yōu)化升級，通過知識蒸餾、模型壓縮、計算加速等手段實現(xiàn)了算法在多個維度的均衡，提供安全、高效的輸入體驗。

Jovi語音助手，化身便捷、溫暖的“貼心小管家”

作為vivo手機的智能生活助理，Jovi語音助手受到了越來越多的用戶喜愛。經(jīng)過四年多的優(yōu)化提升，Jovi語音助手在工信部組織的第一期人工智能產(chǎn)業(yè)創(chuàng)新重點任務(wù)揭榜工作中，在“智能語音交互系統(tǒng)”領(lǐng)域拔得頭籌，榮譽揭榜?！霸谑謾C端日活已經(jīng)超過1000萬，每個月小v會和用戶產(chǎn)生18億次對話，回答2億個問題?！?杜乃喬在演講中說。

vivo AI應用中心高級總監(jiān) 杜乃喬演講——Jovi語音助手

自推出以來，vivo一直圍繞著便利的技能、豐富的知識、貼心的閑聊三個方向來提升Jovi語音助手。據(jù)悉，目前Jovi語音助手已經(jīng)支持超過100個場景垂類，超過600種用戶請求意圖，很好地滿足用戶在快捷操作、信息獲取、情感陪伴方面的需求。

VCAP異構(gòu)計算加速，打造極致AI應用體驗

基于應用場景，算法，硬件的發(fā)展，AI業(yè)務(wù)端側(cè)化面臨多元化的挑戰(zhàn)，為了應對AI業(yè)務(wù)多元化挑戰(zhàn)，vivo建設(shè)了VCAP異構(gòu)計算加速平臺，為開發(fā)者提供全鏈路AI算法端側(cè)化解決方案。VCAP持續(xù)追求全能力、跨平臺、高性能的目標，全面支持視覺、語音、自然語言處理、推薦各領(lǐng)域業(yè)務(wù)落地。目前，VCAP異構(gòu)計算加速平臺沉淀7種XPU器件加速能力，支持超過60種算法、80種算子?；赩CAP平臺能力，vivo支持典型影像、視頻、語音場景業(yè)務(wù)落地，為用戶打造更為極致的AI應用體驗。

“我們希望借助于VCAP開放能力，能攜手更多行業(yè)開發(fā)者為用戶打造更多的AI應用產(chǎn)品!” 來自vivo AI團隊的魯晶說道。

vivo AI系統(tǒng)平臺組高級經(jīng)理魯晶演講

攜手開發(fā)者，為用戶打造1001個便利

今年vivo開發(fā)平臺 AI專區(qū)在算法、數(shù)據(jù)、算力強大的技術(shù)底座上，開放了云端兩個方向的能力，包含Jovi服務(wù)平臺、AI算法平臺、內(nèi)容理解平臺、Jovikit、VCAP計算加速平臺。

以Jovi服務(wù)平臺為例，vivo通過AI賦能、服務(wù)找人的形式進行智能精準的投放，投放后，會有億級流量場景進行分發(fā)。對開發(fā)者來說，用更低的流量成本就可以獲得更高的曝光機會和更優(yōu)的轉(zhuǎn)化質(zhì)量。在用戶層面，用戶獲取服務(wù)成本低，免安裝，有更多入口直達多樣服務(wù)。

vivo AI平臺產(chǎn)品組高級經(jīng)理劉詩韻演講

進入開發(fā)者平臺-AI專區(qū)https://developers.vivo.com/AI 。注冊成為開發(fā)者后，只需簡單幾個步驟就能完成接入。通過這些開放的能力，攜手開發(fā)者，為用戶在多種場景方方面面打造1001便利。

關(guān)注特殊用戶群體，手機行業(yè)首發(fā)手語識別虛擬人，AI讓科技更有溫度

人文之悅一直是 vivo的品牌主張，在關(guān)注普通用戶的同時，vivo對于特殊用戶群體的關(guān)懷也未曾缺位。據(jù)介紹，在今年召開的第四屆科技無障礙發(fā)展大會上，vivo榮獲了“2022可及信息無障礙優(yōu)秀案例”，成為唯一的獲獎手機品牌。

vivo AI算法中心高級總監(jiān) 陳曉昕演講——關(guān)注特殊用戶群體

通過聲音識別、vivo聽說、無障礙通話等一系列AI無障礙功能創(chuàng)新以及無障礙設(shè)備捐贈等方式，vivo力求為聽障人群搭建起無障礙溝通的橋梁。同時，vivo整合領(lǐng)先的AI技術(shù)能力，實現(xiàn)手語到文本再到語音的流暢互譯，推出了手機行業(yè)首個具備手語識別能力的虛擬人。而面對視障人士，vivo也將上線vivo看見和vivo讀譜兩大視覺輔助功能，幫助視障用戶更好地融入社會。

2017年，vivo開始組建AI全球研究院，旨在幫助所有消費者享受科技帶來的美好生活。截至目前，在vivo手機的100多個系統(tǒng)模塊中，目前已經(jīng)有超過60%的模塊中搭載了AI能力，在用戶看得見和看不見的地方發(fā)揮著作用，提供便利，創(chuàng)造驚喜。

vivo希望依托OriginOS能力，以用戶使用手機的重要場景為載體，通過AI技術(shù)與場景的深度結(jié)合，致力于打造1001個便利，為用戶提供無處不在的驚喜與方便。

關(guān)鍵詞：機器翻譯人工智能圖像處理

環(huán)球視點！2022 VDC人工智能專場：AI打造1001個便利，科技照亮美好未來

環(huán)球視點！2022 VDC人工智能專場：AI打造1001個便利，科技照亮美好未來