提高AI模型數(shù)據(jù)吞吐量芯動(dòng)力發(fā)明神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)方案

喜歡

來(lái)源：互聯(lián)網(wǎng)
|
2021-11-02
|
0 條評(píng)論
|
我要分享
|
T小字　 T大字

【嘉勤點(diǎn)評(píng)】芯動(dòng)力發(fā)明的神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)及讀取方案，在系統(tǒng)初始化時(shí)就將神經(jīng)網(wǎng)絡(luò)首層的權(quán)值固化在靜態(tài)隨機(jī)存取存儲(chǔ)器的靜態(tài)內(nèi)存中，有利于解決循環(huán)緩存上溢和下溢的問(wèn)題，從而使芯片達(dá)到較優(yōu)的吞吐量，也可以降低芯片的功耗和成本。

隨著AI芯片的計(jì)算能力越來(lái)越強(qiáng)，以及神經(jīng)網(wǎng)絡(luò)模型越來(lái)越深，AI處理器在進(jìn)行訓(xùn)練或推理時(shí)，需要讀取大量的權(quán)值數(shù)據(jù)用于計(jì)算，而大量的數(shù)據(jù)吞吐，無(wú)疑會(huì)降低AI芯片的運(yùn)算能力。

為了降低芯片的功耗和成本，相關(guān)人員在神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)方面做了深度研究，目前主流的存儲(chǔ)方案有高速DDR(雙倍速率同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器)結(jié)合Cache緩存或者采用超大容量的SRAM(靜態(tài)隨機(jī)存取存儲(chǔ)器)，進(jìn)一步還有采用乒乓緩存的方案。

然而，上述方案仍然存在種種弊端，比如傳輸帶寬大、存儲(chǔ)占用空間大或者難以使芯片的吞吐量達(dá)到較優(yōu)狀態(tài)，導(dǎo)致芯片的功耗和成本居高不下。

為此，芯動(dòng)力在2021年5月7日申請(qǐng)了一項(xiàng)名為“神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)方法、讀取方法及相關(guān)設(shè)備”的發(fā)明專利（申請(qǐng)?zhí)枺?02110498031.4），申請(qǐng)人為珠海市芯動(dòng)力科技有限公司。

根據(jù)該專利目前公開(kāi)的相關(guān)資料，讓我們一起來(lái)看看這項(xiàng)技術(shù)方案吧。

首先，讓我們來(lái)看看目前現(xiàn)有技術(shù)中的神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)和讀取方案是怎么樣的，如上圖所示，在神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)方面，現(xiàn)有技術(shù)提出了高速DDR存儲(chǔ)結(jié)合L2Cache(二級(jí)緩存)的方案。神經(jīng)網(wǎng)絡(luò)各層的權(quán)值存儲(chǔ)在DDR中，處理器在計(jì)算時(shí)，通過(guò)高速DDR接口把待處理的權(quán)值加載到Cache中，但是，在處理器計(jì)算能力越強(qiáng)的情況下，該方案所需的DDR傳輸帶寬也就越大，不利于降低芯片的功耗和成本。

為此，上圖為該專利中發(fā)明的神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)和讀取架構(gòu)的示意圖，該架構(gòu)包括：處理器、小容量的SRAM、DDR和DMA控制器。其中，SRAM被劃分靜態(tài)內(nèi)存和循環(huán)緩存兩塊存儲(chǔ)區(qū)，靜態(tài)內(nèi)存用于固化神經(jīng)網(wǎng)絡(luò)中的出現(xiàn)下溢的層，循環(huán)緩存用于預(yù)取和存儲(chǔ)神經(jīng)網(wǎng)絡(luò)中未出現(xiàn)下溢的層。

DMA控制器用于從DDR中讀取神經(jīng)網(wǎng)絡(luò)權(quán)值并向循環(huán)緩存中寫(xiě)入讀取的權(quán)值，處理器用于從靜態(tài)內(nèi)存或循環(huán)緩存中讀取權(quán)值以進(jìn)行計(jì)算，比如GEMM(通用矩陣乘)運(yùn)算等。

在該結(jié)構(gòu)中，會(huì)把出現(xiàn)緩存下溢的神經(jīng)網(wǎng)絡(luò)層的取值固化到靜態(tài)內(nèi)存中，有利于解決循環(huán)緩存下溢的問(wèn)題，當(dāng)神經(jīng)網(wǎng)絡(luò)各層中不存在出現(xiàn)下溢的層時(shí)，將獲取到的對(duì)應(yīng)權(quán)值累積長(zhǎng)度的最大值設(shè)定為循環(huán)緩存的最大存儲(chǔ)空間，從而有利于解決循環(huán)緩存上溢的問(wèn)題。并能夠以較小的SRAM空間和較低的DDR傳輸帶寬達(dá)到芯片較優(yōu)的吞吐量，以降低芯片的功耗和成本。

最后，上圖為這種神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)方法的流程示意圖，DMA控制器在系統(tǒng)初始化時(shí)將神經(jīng)網(wǎng)絡(luò)首層的權(quán)值固化在靜態(tài)隨機(jī)存取存儲(chǔ)器的靜態(tài)內(nèi)存中，并獲取靜態(tài)隨機(jī)存取存儲(chǔ)器的循環(huán)緩存中神經(jīng)網(wǎng)絡(luò)各層的權(quán)值累積長(zhǎng)度，將根據(jù)權(quán)值累計(jì)長(zhǎng)度將各層中的目標(biāo)層的權(quán)值固化在靜態(tài)內(nèi)存中。

DMA控制器執(zhí)行下一次獲取權(quán)值累積長(zhǎng)度的操作，重復(fù)執(zhí)行多次獲取權(quán)值累積長(zhǎng)度的操作，直至各層中不存在目標(biāo)層。此時(shí)，DMA控制器會(huì)根據(jù)各層中不存在目標(biāo)層時(shí)對(duì)應(yīng)的權(quán)值累積長(zhǎng)度設(shè)定循環(huán)緩存的大小。

以上就是芯動(dòng)力發(fā)明的神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)及讀取方法，該方案在系統(tǒng)初始化時(shí)就將神經(jīng)網(wǎng)絡(luò)首層的權(quán)值固化在靜態(tài)隨機(jī)存取存儲(chǔ)器的靜態(tài)內(nèi)存中，有利于解決循環(huán)緩存上溢和下溢的問(wèn)題，從而使芯片達(dá)到較優(yōu)的吞吐量，也可以降低芯片的功耗和成本。

（holly）

,齊翔騰達(dá)股票,廣州豐胸伊麗莎白典范,泰達(dá)足球 http://www.cityruyi.com/lm-2/lm-3/1469.html

免責(zé)聲明：本站所有信息均搜集自互聯(lián)網(wǎng)，并不代表本站觀點(diǎn)，本站不對(duì)其真實(shí)合法性負(fù)責(zé)。如有信息侵犯了您的權(quán)益，請(qǐng)告知，本站將立刻處理。聯(lián)系QQ：1640731186