本公開總體上涉及一種用于從晶片上系統(tǒng)(sow)收集遙測數(shù)據(jù)并且處理所收集的遙測數(shù)據(jù)的裝置。
背景技術(shù):
1、某些計(jì)算系統(tǒng)可以被用于和/或具體地被配置用于高性能計(jì)算和/或計(jì)算密集型應(yīng)用,諸如神經(jīng)網(wǎng)絡(luò)訓(xùn)練、神經(jīng)網(wǎng)絡(luò)推理、機(jī)器學(xué)習(xí)、人工智能、復(fù)雜模擬等。在一些應(yīng)用中,計(jì)算系統(tǒng)可以被用于執(zhí)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。例如,這類神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以為車輛(例如,汽車)的自動(dòng)駕駛系統(tǒng)、其他自動(dòng)駕駛車輛功能或高級(jí)駕駛輔助系統(tǒng)(adas)功能生成數(shù)據(jù)。
2、在高性能計(jì)算系統(tǒng)中,可以有高密度的處理管芯。可以期望獲得與處理管芯相關(guān)聯(lián)的遙測數(shù)據(jù)。在具有大量處理管芯的計(jì)算系統(tǒng)中,存在與處理遙測數(shù)據(jù)相關(guān)聯(lián)的技術(shù)挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、權(quán)利要求中描述的創(chuàng)新各自具有若干個(gè)方面,其中沒有一個(gè)單獨(dú)負(fù)責(zé)其期望的屬性。在不限制權(quán)利要求的范圍的情況下,現(xiàn)在將簡要描述本公開的一些突出特征。
2、本公開的一個(gè)方面是一種計(jì)算系統(tǒng),該計(jì)算系統(tǒng)包括:管芯的陣列,該管芯的陣列被包括在晶片上系統(tǒng)(sow)上;微控制器,該微控制器被配置為接收與管芯的陣列的至少一個(gè)管芯相關(guān)聯(lián)的遙測數(shù)據(jù);以及控制器,該控制器被配置為從微控制器獲得包括遙測數(shù)據(jù)的數(shù)據(jù),通過處理所獲得的數(shù)據(jù)來確定管芯的陣列的特定管芯的性能度量,并且響應(yīng)于確定性能度量滿足閾值而應(yīng)用校正措施。陣列的管芯被配置為輸出遙測數(shù)據(jù)。
3、在計(jì)算系統(tǒng)中,校正措施可以包括停用特定管芯。
4、在計(jì)算系統(tǒng)中,校正措施可以包括對(duì)特定管芯進(jìn)行的節(jié)流。
5、在計(jì)算系統(tǒng)中,控制器可以被配置為標(biāo)識(shí)生成遙測數(shù)據(jù)的特定管芯。
6、在計(jì)算系統(tǒng)中,微控制器可以被配置為以第一模式中的第一分辨率和第二模式中的第二分辨率向控制器提供遙測數(shù)據(jù)。
7、在計(jì)算系統(tǒng)中,微控制器可以被配置為與管芯的陣列中的兩個(gè)管芯通信。
8、在計(jì)算系統(tǒng)中,控制器可以被配置為從多個(gè)sow接收數(shù)據(jù)。
9、在計(jì)算系統(tǒng)中,遙測數(shù)據(jù)可以包括與至少一個(gè)管芯的操作溫度、電壓和電流相關(guān)聯(lián)的數(shù)據(jù)。
10、在計(jì)算系統(tǒng)中,控制器還可以被配置為生成所處理的數(shù)據(jù)的圖形表示。
11、在計(jì)算系統(tǒng)中,控制器還可以被配置為匯總遙測數(shù)據(jù),以對(duì)匯總的數(shù)據(jù)進(jìn)行后處理。
12、在計(jì)算系統(tǒng)中,控制器可以被配置為對(duì)sow的管芯進(jìn)行劃分以執(zhí)行并行任務(wù)。
13、本公開的另一個(gè)方面是一種監(jiān)測計(jì)算系統(tǒng)的方法。該方法包括從計(jì)算系統(tǒng)獲得遙測數(shù)據(jù),并且通過處理所獲得的遙測數(shù)據(jù)來確定多個(gè)sow中的至少一個(gè)sow的個(gè)體管芯的性能度量。該計(jì)算系統(tǒng)包括多個(gè)晶片上系統(tǒng)(sow)。此外,多個(gè)sow中的每個(gè)sow包括管芯的陣列。
14、在該方法中,該方法還可以包括響應(yīng)于確定特定管芯的性能度量滿足閾值而應(yīng)用校正措施。校正措施可以包括停用特定管芯。此外,校正措施可以包括對(duì)特定管芯進(jìn)行的節(jié)流。
15、在該方法中,該方法還可以包括將微控制器的模式從第一模式切換到第二模式,使得微控制器在第二模式中以與第一模式中不同的分辨率提供與多個(gè)sow中的sow的特定管芯相關(guān)聯(lián)的遙測數(shù)據(jù)。
16、在該方法中,遙測數(shù)據(jù)可以包括個(gè)體管芯的操作溫度、電壓、電流和功耗中的至少一者。
17、在該方法中,該方法還可以包括生成個(gè)體管芯的性能度量的圖形表示。
18、本公開的另一個(gè)方面是一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該存儲(chǔ)介質(zhì)包括指令,這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí),使執(zhí)行監(jiān)測計(jì)算系統(tǒng)的方法。該方法包括從計(jì)算系統(tǒng)獲得遙測數(shù)據(jù),并且通過處理所獲得的遙測數(shù)據(jù)來確定多個(gè)sow中的至少一個(gè)sow的個(gè)體管芯的性能度量。該計(jì)算系統(tǒng)包括多個(gè)晶片上系統(tǒng)(sow)。此外,多個(gè)sow中的每個(gè)sow包括管芯的陣列。
19、本公開的另一個(gè)方面是一種提供晶片上系統(tǒng)(sow)的管芯的性能度量的可視化的方法。該方法包括從sow的管芯獲得遙測數(shù)據(jù),其中該sow包括管芯的陣列,基于處理該遙測數(shù)據(jù)來確定該sow的管芯中的每個(gè)管芯的性能度量,以及基于該確定提供該sow的管芯中的每個(gè)管芯的性能度量的圖形表示。
20、本公開的另一個(gè)方面是一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該存儲(chǔ)介質(zhì)包括指令,這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí),使執(zhí)行以下方法:從sow的管芯獲得遙測數(shù)據(jù),基于對(duì)遙測數(shù)據(jù)的處理來確定sow的管芯中的每個(gè)管芯的性能度量,以及基于該確定來提供sow的管芯中的每個(gè)管芯的性能度量的圖形表示。sow包括管芯的陣列。
21、本公開的另一個(gè)方面是一種系統(tǒng),該系統(tǒng)包括晶片上系統(tǒng)(sow)上的管芯的陣列,陣列的每個(gè)管芯被配置為輸出遙測數(shù)據(jù),以及微控制器,該微控制器被配置為從管芯的陣列的至少兩個(gè)管芯接收遙測數(shù)據(jù)。微控制器可在至少第一模式和第二模式中操作,使得微控制器在第一模式和第二模式中以不同的分辨率輸出遙測數(shù)據(jù)。
22、在該系統(tǒng)中,該微控制器可以被配置為將遙測數(shù)據(jù)與信息一起輸出,該信息標(biāo)識(shí)與遙測數(shù)據(jù)的各部分相關(guān)聯(lián)的管芯的陣列的相應(yīng)管芯。
23、為了總結(jié)本公開,本文描述了創(chuàng)新的某些方面、優(yōu)勢和新穎特征。應(yīng)當(dāng)理解,根據(jù)任何特定實(shí)施例,不一定可以實(shí)現(xiàn)所有這些優(yōu)勢。因此,創(chuàng)新可以按實(shí)現(xiàn)或優(yōu)化本文教導(dǎo)的一個(gè)優(yōu)勢或優(yōu)勢群組的方式體現(xiàn)或?qū)嵤?,而不必?shí)現(xiàn)本文教導(dǎo)或建議的其他優(yōu)勢。
1.一種計(jì)算系統(tǒng),所述計(jì)算系統(tǒng)包括:
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述校正措施包括停用所述特定管芯。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述校正措施包括對(duì)所述特定管芯進(jìn)行的節(jié)流。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述控制器被配置為標(biāo)識(shí)生成所述遙測數(shù)據(jù)的所述特定管芯。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述微控制器被配置為以第一模式中的第一分辨率和第二模式中的第二分辨率向所述控制器提供所述遙測數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述微控制器被配置為與所述管芯的陣列中的兩個(gè)管芯通信。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述控制器被配置為從多個(gè)sow接收數(shù)據(jù)。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述遙測數(shù)據(jù)包括與所述至少一個(gè)管芯的操作溫度、電壓和電流相關(guān)聯(lián)的數(shù)據(jù)。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述控制器還被配置為生成所處理的數(shù)據(jù)的圖形表示。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述控制器還被配置為匯總所述遙測數(shù)據(jù),用于對(duì)所匯總的數(shù)據(jù)進(jìn)行后處理。
11.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述控制器被配置為對(duì)所述sow的所述管芯進(jìn)行劃分以執(zhí)行并行任務(wù)。
12.一種監(jiān)測計(jì)算系統(tǒng)的方法,所述方法包括:
13.根據(jù)權(quán)利要求12所述的方法,所述方法還包括響應(yīng)于確定特定管芯的所述性能度量滿足閾值而應(yīng)用校正措施。
14.根據(jù)權(quán)利要求13所述的方法,其中所述校正措施包括停用所述特定管芯。
15.根據(jù)權(quán)利要求13所述的方法,其中所述校正措施包括對(duì)所述特定管芯進(jìn)行的節(jié)流。
16.根據(jù)權(quán)利要求12所述的方法,所述方法還包括將微控制器的模式從第一模式切換到第二模式,使得所述微控制器在所述第二模式中以與所述第一模式中不同的分辨率提供與所述多個(gè)sow中的sow的特定管芯相關(guān)聯(lián)的遙測數(shù)據(jù)。
17.根據(jù)權(quán)利要求12所述的方法,其中所述遙測數(shù)據(jù)包括所述個(gè)體管芯的操作溫度、電壓、電流和功耗中的至少一者。
18.根據(jù)權(quán)利要求12所述的方法,所述方法還包括生成所述個(gè)體管芯的所述性能度量的圖形表示。
19.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括指令,所述指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí),使根據(jù)權(quán)利要求12所述的方法被執(zhí)行。
20.一種提供晶片上系統(tǒng)(sow)的管芯的性能度量的可視化的方法,所述方法包括:
21.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括指令,所述指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí),使根據(jù)權(quán)利要求20所述的方法被執(zhí)行。
22.一種系統(tǒng),所述系統(tǒng)包括:
23.根據(jù)權(quán)利要求22所述的系統(tǒng),其中所述微控制器被配置為將所述遙測數(shù)據(jù)與信息一起輸出,所述信息標(biāo)識(shí)與所述遙測數(shù)據(jù)的部分相關(guān)聯(lián)的所述管芯的陣列的相應(yīng)管芯。