OPPO首個自研芯片背後:DSA的勝利

半導體行業觀察 發布於:2021-12-15

2019 年 2 月,圖靈獎獲得者John Hennessy 和 David Patterson發布了一篇名爲《A new golden age for computer architecture》的文章。在文章中他們指出,伴隨着摩爾定律和登納德縮放定律的終結,要想獲得像 20 世紀八九十年代那樣的的性能改進,就需要新的架構方法,以更高效地利用集成電路,而DSA就是他們想要的答案。

據他們在文章中介紹,所謂DSA(domain specific architecture,特定領域架構)是一種針對特定領域定制的可編程處理器,能夠用於加速某些應用程序,實現更好的性能。如現在因爲AI大行其道的GPU就是一個基於DSA思路設計的產品。包括谷歌、Tesla和Cerebras在內的廠商也針對其特定應用推行他們的DSA芯片

日前,本土手機廠商OPPO也帶來其影像專用NPU——馬裏亞納 MariSilicon X,揭开了公司造芯的神祕面紗。透過這個芯片,我們不但看到了這個手機巨頭在提升用戶體驗方面的“芯”思考,也看到了屬於DSA的又一場勝利。

DSA在影像NPU上的實踐

自蘋果在2007年推出第一代iPhone以來,智能手機在接下來十年經歷了夢幻般的开局。不但芯片性能獲得了大幅度的增長,屏幕的體驗也獲得了跨躍性的提升。但進入最近幾年,手機創新缺乏,這讓手機廠商將目標瞄向了改善拍攝體驗,隨之也給手機芯片的影像處理提出了新的要求。

作爲一個需要處理多類型任務的芯片,手機主控芯片廠商在設計產品的時候只能在各項設計能力上做平衡。那就意味着在這些通用芯片上的ISP和NPU,在處理圖像或視頻的時候顯得捉襟見肘。

近年來,Google在其Pixel手機上使用Pixel Visual Core/Pixel Neural Core 系列硬件加速器證明了AI算法可以提供遠超傳統算法的拍照體驗之後,業界就开始探索NPU在降噪、HDR+和demosaic領域的應用優勢。而OPPO正是通過自定義的芯片來應對這方面的挑战。

OPPO芯片產品高級總監姜波也指出,通用芯片要想達成終極體驗目標,面臨一些挑战:

一方面,智能手機在定制傳感器後,有時候需要SoC做相應的配合,但SoC研發周期非常長,傳感器需要的時間又非常短,這裏面的平衡是非常難把控的;

另一方面,如果要針對目前市面上現有的傳感器在SoC上做pipeline(鏈路)處理優化增強,也意味着需要研發要做很大的調整,成本增加不少;

此外,當算法和芯片不能做到相互完全开放和緊密耦合,更是無法發揮出它的最大效益。

基於這樣的思考,OPPO發布了首款影像專用NPU——馬裏亞納 MariSilicon X,這正是DSA在影像應用上的一個教科書般的實踐。據姜波所說,這個芯片由一個自研的影像處理單元MariLumi、一個自研的AI計算單元MariNeuro以及片上內存子系統等核心部分組成。得益於這樣的設計,其擁有四個不得不提的特性,分別是極致能耗比、行業領先的HDR、影像的AI的處理(包括影像算法的處理)都放在RAW上完成以及對定制sensor性能的最大化利用。

首先看極致能耗比方面。據介紹,MariSilicon X擁有18TOPS的算力,這正是DSA獨特具備的優勢。11.6TOPS/W的能耗效率更是讓它在擁有強悍的處理能力的同時,功耗表現也不落下風。“按現在實際的算力情況,我們的芯片可以在800毫瓦功耗約束的範圍內跑到40fps”,姜波舉例說。

其次,OPPO的MariSilicon X支持20 bit RAW,領先於高通最新一代旗艦驍龍8平台的18bit和聯發科的天璣9000,其120db的HDR讓搭配MariSilicon X的手機在拍攝圖片的時候,獲得四倍於當前旗艦的動態範圍。

第三,在影像的AI處理方面,馬裏亞納X通過將AI降噪及HDR融合等復雜計算前置到數據更加純淨無損的RAW域,在影像信噪比和畫質上遠超傳統YUV域處理方案;

據OPPO測試顯示,在搭配了他們自研的馬裏亞納 MariSilicon X的方案中,可以獲得至少8dB的信噪比增強,相當於2.6倍的提升。在4k場景下,更是可以分別在圖像亮部和暗部獲得8dB和12dB增益。換而言之,自研芯片可以讓圖像暗部的信噪比做到4倍的有效提升。

最後,來到傳感器的定制;

OPPO定制的RGBW傳感器通過融入對光线更敏感的white像素,在保證色彩還原準確的同時提升了傳感器進光量。但在通用型SoC的賦能下,如果想要發揮這一定制傳感器的優勢,第一步要做的就是在傳感器端將RGBW remosaic成傳統的RGGB信息,再傳送給SoC處理。但在這個處理過程中,會丟失一些有用的信息。而爲了與通用的SoC配合,又必須要做一些妥協和損耗才可以用上RGBW。

有見及此,OPPO選擇了自研影像專用NPU與定制傳感器配合的方法,讓其產生的原始RAW數據與自研芯片有最緊密的耦合和最大限度優化。

具體而言,在設計圖像處理pipeline的時候,馬裏亞納X在提供RGGB鏈路的同時還具備white處理鏈路既能夠獲取良好的顏色信息,又能夠提升信噪比。與傳統RAW相比,帶來的提升是非常顯著的,這也正是DSA的意義。而按OPPO所說,借助兩路pipeline的處理,可以得到7.9倍的信噪比的提升;在紋理細節上,通過2路的超採樣,也可以獲得1.7倍的解析力的增強。

“我們通過自研芯片和定制化傳感器相互的化學反應和相互耦合,真正充分發揮出傳感器在最初設計時候的最大能力。”姜波強調。

從上述的介紹我們可以看到,OPPO基於DSA的設計能夠將以影像的體驗發揮得淋漓盡致。而在這背後,其在芯片的定義、IP的設計和工藝的選擇等多個方面的決定都功不可沒。

自研IP引領的全面提升

熟悉芯片設計的讀者應該知道,在做好了芯片的功能定義和架構規劃之後,接下來的一個重要環節就是選擇IP。常用的方案有第三方IP和自研兩種。出於謹慎考慮,很多新入局芯片設計的廠商都選擇前者。但OPPO卻走了一條相對較難的路。

在問到爲何作出這個決定時,姜波回應道,在決定研發馬裏亞納 MariSilicon X之後,公司也考慮過一些第三方IP,市場上也有很多IP廠商可以提供NPU。但他們在評估之後發現,並沒有一個現有NPU可以在其自身的場景和算法下,達到他們認爲的最優能耗效率。因此他們從頭开始自研做了NPU,這就是MariNeuro IP面世背後的原因,這也讓OPPO首個自研芯片MariSilicon X擁有了強悍的性能。

除了MariNeuro之外,OPPO還自研了MariLumi IP,正是這個IP,讓OPPO的馬裏亞納 MariSilicon X在圖片的HDR處理方面擁有其他手機芯片旗艦所不具備的實力。

爲了讓設備更好地處理這些龐大數據,OPPO還給這個芯片配備了片上的內存子系統,避免數據頻繁讀寫產生的時延和功耗提升。這個Tb級的子系統讓該芯片在處理海量數據時依舊遊刃有余。這也是OPPO能夠把之前應用於圖像的AI算法應用於實時視頻處理的一個重要原因。

又因爲OPPO還專門爲這個芯片集成了8.5GB/s的獨立DDR帶寬,因此當MariSilicon X跟一個主芯片搭載在一起使用時,整個系統的DDR吞吐率又增加了17%。

對於一個芯片來說,架構、處理能力和I/O是決定其性能的關鍵要素。但正如摩爾定律的含義所體現的,芯片的制造工藝才是決定一顆芯片性能的根本。同時,作爲一個商用產品,該芯片同時還需要在成本上做權衡。基於上述考慮,OPPO團隊在公司的首顆芯片上選擇了6nm。

據姜波介紹,公司在开始芯片設計的時候評估了各種工藝制程。他坦言,選擇更落後的工藝,在芯片的設計、實現、周期和成本都極具優勢,但之所以選擇6nm,主要是基於他們經過仿真之後得出結論——即便有自研的MariNeuro和MariLumi IP,但如果選擇落後的工藝(如12nm),做出來的芯片很難達到終端應用所需的極致功耗性能要求。因此他們別無選擇。

“從工藝制程來講,6nm應該是台積電第一個主流的採用EUV的制程。因爲有了這個制程,我們非常好地支撐了同級最好的能效比,包括在RAW上的復雜算法處理。”姜波補充。他進一步指出,OPPO的這個6nm芯片上,實現了一次點亮,這足以證明OPPO芯片團隊的實力。這也讓他們成爲了國內爲數不多可以實現6nm設計的企業。

除此以外,筆者還認爲,OPPO的6nm芯片背後其實還有更深層次的含義:

一方面,進入到10nm以後,傳統的DUV光刻機已經不再能夠滿足芯片繼續微縮的需求,EUV光刻機便應運而生。從目前的情況看來,如果想繼續打造更高性能的芯片,懂得設計使用EUV光刻機生產的芯片是一個必備技能,而OPPO團隊在馬裏亞納 MariSilicon X芯片的實踐上展現了他們在這個方面的實力,讓他們擁有底氣去探索更多的芯片可能。

另一方面,6nm芯片的流片成本較之過往的芯片工藝成本有了大幅度的提升,每流片一次的成本可以以“億”爲單位。但OPPO依然能這樣高舉高打,足以體現他們造芯的決心。

姜波也強調,和其他芯片廠商做芯片只是追求終端廠商成本和需求的平衡不一樣,OPPO造芯的目的相對純粹很多,那就是用“加法”思維去“堆料”,以提高用戶體驗爲最終目的。他進一步舉例說,當這顆芯片與高通或聯發科主芯片一起在手機內工作時,並不是爲了取代後者的部分功能,而是希望通過增加芯片,增加算力,與它們一起把事情做得更好。

寫在最後

在文章开頭談到的John Hennessy 和 David Patterson的文章中說到,登納德縮放定律和摩爾定律的終結,把高級、特定領域的語言和架構將架構師從專有指令集的鏈條中釋放出來,這將爲計算機架構師帶來一個新的黃金時代。他們同時還指出,未來十年,將會有一場新計算機架構的寒武紀爆炸,這對業界和學界的架構師們來說將是激動人心的時刻。

對於OPPO來說,這也是他們的一個機會。

正如姜波所說,MariSilicon X只是OPPO在計算影像上探索的第一步。因爲OPPO離消費者比較近,會對用戶痛點以及產品的價值主張比較清晰,所以OPPO在做一些方向選擇的時候,也更容易做決策。而這正是DSA的精髓所在。

從日前的一些媒體報道中我們看到,OPPO現在擁有了一個超過2000人的芯片團隊。通過OPPO對MariSilicon X的解讀,筆者有理由相信這家國產手機芯片“新貴”迎來的,不僅僅是黃金十年。讓我們靜候一個更好體驗的時代到來。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》爲您分享的第2889內容,歡迎關注。

推薦閱讀

MLCC擴產“賭局”:過剩還是機遇

韓國半導體低調突圍

激光雷達進入大爆發前夜

半導體行業觀察

半導體第一垂直媒體

實時 專業 原創 深度

識別二維碼,回復下方關鍵詞,閱讀更多

晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝

回復 投稿,看《如何成爲“半導體行業觀察”的一員 》

回復 搜索,還能輕松找到其他你感興趣的文章!

2024/05/09 - 外匯經紀商評分