背景技術(shù):
1、通常,當(dāng)確定策略違反時(shí),用戶(hù)手動(dòng)審查每個(gè)數(shù)字組件以確定數(shù)字組件是否違反給定發(fā)布者的策略。自動(dòng)分類(lèi)系統(tǒng)可以旗標(biāo)標(biāo)記(flag)數(shù)字組件以供進(jìn)一步審查,但是在數(shù)字組件正待用戶(hù)審查時(shí)仍將提供數(shù)字組件以供發(fā)布者輸出。這可能導(dǎo)致違反策略的數(shù)字組件被提供用于輸出。每個(gè)數(shù)字組件的用戶(hù)審查是耗時(shí)并且密集的。此外,嘗試用審查所有數(shù)字組件的自動(dòng)分類(lèi)系統(tǒng)替換用戶(hù)審查者在計(jì)算上是昂貴的,需要大量的處理能力、存儲(chǔ)器和網(wǎng)絡(luò)開(kāi)銷(xiāo)。
技術(shù)實(shí)現(xiàn)思路
1、該技術(shù)總體上涉及確定候選數(shù)字組件是否違反策略并使用該確定來(lái)傳播策略標(biāo)簽。候選數(shù)字組件可以被過(guò)濾,使得僅候選數(shù)字組件子集被提供給機(jī)器學(xué)習(xí)模型。機(jī)器學(xué)習(xí)模型可以是用于進(jìn)一步策略審查的大語(yǔ)言模型(“l(fā)lm”)??梢曰趦?nèi)容和/或內(nèi)容提供者與先前審查的數(shù)字組件的相似性、候選數(shù)字組件是否已經(jīng)包括策略違反標(biāo)簽等來(lái)過(guò)濾候選數(shù)字組件。過(guò)濾后剩余的候選數(shù)字組件的子集可以作為輸入提供給llm。llm可以提供與策略違反預(yù)測(cè)相關(guān)聯(lián)的置信度得分。策略違反預(yù)測(cè)可以是“違反策略”或“不違反策略”。基于策略違反預(yù)測(cè),與該預(yù)測(cè)相對(duì)應(yīng)的標(biāo)簽可以與數(shù)字組件相關(guān)聯(lián)。根據(jù)一些示例,當(dāng)確定是否使用策略違反預(yù)測(cè)來(lái)將標(biāo)簽傳播到其他數(shù)字組件時(shí),可以使用置信度得分。例如,當(dāng)置信度得分高于閾值時(shí),llm標(biāo)記的數(shù)字組件可以用于將策略標(biāo)簽傳播到其他類(lèi)似的數(shù)字組件??梢允褂没诜N子的執(zhí)行系統(tǒng)或基于鄰域的傳播系統(tǒng)來(lái)傳播標(biāo)簽?;诜N子的傳播系統(tǒng)可以基于內(nèi)容和/或內(nèi)容提供者的相似性來(lái)傳播標(biāo)簽?;卩徲虻膫鞑ハ到y(tǒng)可以使用機(jī)器學(xué)習(xí)(“ml”)模型來(lái)預(yù)測(cè)置信度得分,該置信度得分然后用于將標(biāo)簽傳播到相鄰數(shù)字組件。
2、本公開(kāi)的一個(gè)方面涉及一種方法,包括:由一個(gè)或多個(gè)處理器確定與多個(gè)候選數(shù)字組件和先前審查的數(shù)字組件相關(guān)聯(lián)的嵌入;由一個(gè)或多個(gè)處理器基于所確定的嵌入來(lái)確定候選數(shù)字組件和先前審查的數(shù)字組件之間的相似性,相似性包括內(nèi)容相似性或內(nèi)容提供者相似性中的至少一個(gè);由一個(gè)或多個(gè)處理器從多個(gè)候選數(shù)字組件中識(shí)別數(shù)字組件子集,其中,數(shù)字組件子集包括具有低于閾值相似性的相似性的一個(gè)或多個(gè)數(shù)字組件;由一個(gè)或多個(gè)處理器將所識(shí)別的數(shù)字組件子集作為輸入提供給機(jī)器學(xué)習(xí)模型;通過(guò)一個(gè)或多個(gè)處理器執(zhí)行機(jī)器學(xué)習(xí)模型來(lái)確定數(shù)字組件子集中的數(shù)字組件違反策略;由一個(gè)或多個(gè)處理器基于所確定的違反策略來(lái)標(biāo)記數(shù)字組件子集;以及由一個(gè)或多個(gè)處理器將標(biāo)簽傳播到其他數(shù)字組件,其中,其他數(shù)字組件在數(shù)字組件子集之外。
3、該方法可以進(jìn)一步包括由一個(gè)或多個(gè)處理器從多個(gè)候選數(shù)字組件中移除來(lái)自多個(gè)候選數(shù)字組件的第二數(shù)字組件子集,其中,第二數(shù)字組件子集包括具有高于閾值相似性的相似性的一個(gè)或多個(gè)數(shù)字組件。該方法可以進(jìn)一步包括由一個(gè)或多個(gè)處理器識(shí)別與數(shù)字組件的第二主體具有較大相似性的先前審查的數(shù)字組件,并且用具有較大相似性的先前審查的數(shù)字組件的策略違反標(biāo)簽來(lái)標(biāo)記第二數(shù)字組件子集。
4、先前審查的數(shù)字組件可以包括先前審查的標(biāo)記數(shù)字組件或先前審查的未標(biāo)記數(shù)字組件中的至少一個(gè)。當(dāng)識(shí)別一個(gè)或多個(gè)數(shù)字組件時(shí),該方法可以進(jìn)一步包括從多個(gè)候選數(shù)字組件中移除先前審查的標(biāo)記數(shù)字組件。
5、該方法可以進(jìn)一步包括由一個(gè)或多個(gè)處理器確定機(jī)器學(xué)習(xí)模型是否已經(jīng)針對(duì)候選數(shù)字組件確定過(guò)策略違反;以及對(duì)多個(gè)候選數(shù)字組件進(jìn)行去重,以移除具有先前確定的策略違反的候選數(shù)字組件。
6、當(dāng)確定一個(gè)或多個(gè)數(shù)字組件違反策略時(shí),該方法可以進(jìn)一步包括通過(guò)一個(gè)或多個(gè)處理器執(zhí)行機(jī)器學(xué)習(xí)模型確定對(duì)至少一個(gè)提示的二元響應(yīng)。二元響應(yīng)可以是是或否??梢曰诓呗陨芍辽僖粋€(gè)提示。
7、當(dāng)將標(biāo)簽傳播到其他數(shù)字組件時(shí),該方法可以進(jìn)一步包括:由一個(gè)或多個(gè)處理器基于所確定的嵌入來(lái)識(shí)別相鄰數(shù)字組件;以及由一個(gè)或多個(gè)處理器用與數(shù)字組件子集的策略標(biāo)簽相對(duì)應(yīng)的策略標(biāo)簽來(lái)標(biāo)記相鄰數(shù)字組件。相鄰數(shù)字組件可以包括在數(shù)字組件子集中的一個(gè)或多個(gè)數(shù)字組件的閾值嵌入距離內(nèi)的未標(biāo)記數(shù)字組件。
8、其他數(shù)字組件可以包括先前審查的標(biāo)記數(shù)字組件、先前審查的未標(biāo)記數(shù)字組件或未標(biāo)記數(shù)字組件中的至少一個(gè)。
9、機(jī)器學(xué)習(xí)模型可以是大語(yǔ)言模型(“l(fā)lm”)。
10、本公開(kāi)的另一方面涉及一種包括一個(gè)或多個(gè)處理器的系統(tǒng)。一個(gè)或多個(gè)處理器可以被配置為確定與多個(gè)候選數(shù)字組件和先前審查的數(shù)字組件相關(guān)聯(lián)的嵌入,基于所確定的嵌入來(lái)確定候選數(shù)字組件與先前審查的數(shù)字組件之間的相似性,相似性包括內(nèi)容相似性或內(nèi)容提供者相似性中的至少一個(gè),從多個(gè)候選數(shù)字組件中識(shí)別數(shù)字組件子集,其中,數(shù)字組件子集包括具有低于閾值相似性的相似性的一個(gè)或多個(gè)數(shù)字組件,將數(shù)字組件子集作為輸入提供給機(jī)器學(xué)習(xí)模型,通過(guò)執(zhí)行機(jī)器學(xué)習(xí)模型來(lái)確定組件子集中的數(shù)字組件違反策略,基于所確定的策略違反來(lái)標(biāo)記數(shù)字組件子集,并且將標(biāo)簽傳播到其他數(shù)字組件,其中,其他數(shù)字組件在數(shù)字組件子集之外。
11、本公開(kāi)的又一方面涉及存儲(chǔ)指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),所述指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使所述一個(gè)或多個(gè)處理器:確定與多個(gè)候選數(shù)字組件和先前審查的數(shù)字組件相關(guān)聯(lián)的嵌入;基于所確定的嵌入來(lái)確定所述候選數(shù)字組件與先前審查的數(shù)字組件之間的相似性,所述相似性包括內(nèi)容相似性或內(nèi)容提供者相似性中的至少一個(gè);從所述多個(gè)候選數(shù)字組件中識(shí)別數(shù)字組件子集,其中,所述數(shù)字組件子集包括具有低于閾值相似性的相似性的一個(gè)或多個(gè)數(shù)字組件;將所述數(shù)字組件子集作為輸入提供給機(jī)器學(xué)習(xí)模型;通過(guò)執(zhí)行所述機(jī)器學(xué)習(xí)模型來(lái)確定所述組件子集中的數(shù)字組件違反策略;基于所確定的策略違反來(lái)標(biāo)記所述數(shù)字組件子集;以及將標(biāo)簽傳播到其他數(shù)字組件,其中,所述其他數(shù)字組件在所述數(shù)字組件子集之外。
1.一種方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括:由所述一個(gè)或多個(gè)處理器從所述多個(gè)候選數(shù)字組件中移除所述多個(gè)候選數(shù)字組件中的第二數(shù)字組件子集,其中,所述第二數(shù)字組件子集包括具有高于所述閾值相似性的相似性的一個(gè)或多個(gè)數(shù)字組件。
3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括:
4.根據(jù)任一前述權(quán)利要求所述的方法,其中:
5.根據(jù)前述權(quán)利要求所述的方法,進(jìn)一步包括:
6.根據(jù)前述權(quán)利要求所述的方法,其中,當(dāng)確定所述一個(gè)或多個(gè)數(shù)字組件違反所述策略時(shí),所述方法進(jìn)一步包括通過(guò)所述一個(gè)或多個(gè)處理器執(zhí)行所述機(jī)器學(xué)習(xí)模型來(lái)確定對(duì)至少一個(gè)提示的二元響應(yīng)。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述二元響應(yīng)為是或否。
8.根據(jù)權(quán)利要求6所述的方法,其中,所述至少一個(gè)提示是基于所述策略來(lái)生成的。
9.根據(jù)前述權(quán)利要求所述的方法,其中,當(dāng)將所述標(biāo)簽傳播到所述其他數(shù)字組件時(shí),所述方法進(jìn)一步包括:
10.根據(jù)權(quán)利要求9所述的方法,其中,所述相鄰數(shù)字組件包括在所述數(shù)字組件子集中的一個(gè)或多個(gè)數(shù)字組件的閾值嵌入距離內(nèi)的未標(biāo)記數(shù)字組件。
11.根據(jù)前述權(quán)利要求所述的方法,其中,所述其他數(shù)字組件包括以下中的至少一個(gè):先前審查的標(biāo)記數(shù)字組件、先前審查的未標(biāo)記數(shù)字組件或未標(biāo)記數(shù)字組件。
12.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述機(jī)器學(xué)習(xí)模型是大語(yǔ)言模型(“l(fā)lm”)。
13.一種系統(tǒng),包括:
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為從所述多個(gè)候選數(shù)字組件中移除第二數(shù)字組件子集,其中所述第二數(shù)字組件子集包括具有高于所述閾值相似性的相似性的一個(gè)或多個(gè)數(shù)字組件。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為:
16.根據(jù)權(quán)利要求13至15中任一項(xiàng)所述的系統(tǒng),其中:
17.根據(jù)權(quán)利要求13至16中任一項(xiàng)所述的系統(tǒng),其中,所述一個(gè)或多個(gè)處理器還被配置為:
18.根據(jù)權(quán)利要求13至17中任一項(xiàng)所述的系統(tǒng),其中,當(dāng)確定所述一個(gè)或多個(gè)數(shù)字組件違反所述策略時(shí),所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為通過(guò)執(zhí)行所述機(jī)器學(xué)習(xí)模型來(lái)確定對(duì)至少一個(gè)提示的二元響應(yīng)。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中,所述二元響應(yīng)為是或否。
20.根據(jù)權(quán)利要求18所述的系統(tǒng),其中,所述至少一個(gè)提示是基于所述策略來(lái)生成的。
21.根據(jù)權(quán)利要求13至20中任一項(xiàng)所述的系統(tǒng),其中,當(dāng)將所述標(biāo)簽傳播到所述其他數(shù)字組件時(shí),所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為:
22.根據(jù)權(quán)利要求21所述的系統(tǒng),其中,所述相鄰數(shù)字組件包括在所述數(shù)字組件子集中的一個(gè)或多個(gè)數(shù)字組件的閾值嵌入距離內(nèi)的未標(biāo)記數(shù)字組件。
23.根據(jù)權(quán)利要求13至22中任一項(xiàng)所述的系統(tǒng),其中,所述其他數(shù)字組件包括以下中的至少一個(gè):先前審查的標(biāo)記數(shù)字組件、先前審查的未標(biāo)記數(shù)字組件或未標(biāo)記數(shù)字組件。
24.根據(jù)權(quán)利要求13至23中任一項(xiàng)所述的系統(tǒng),其中,所述機(jī)器學(xué)習(xí)模型是大語(yǔ)言模型(“l(fā)lm”)。
25.存儲(chǔ)指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),所述指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使得所述一個(gè)或多個(gè)處理器:
26.根據(jù)權(quán)利要求25所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),其中,所述一個(gè)或多個(gè)處理器被進(jìn)一步配置成從所述多個(gè)候選數(shù)字組件中移除第二數(shù)字組件子集,其中,所述第二數(shù)字組件子集包括具有高于所述閾值相似性的相似性的一個(gè)或多個(gè)數(shù)字組件。
27.根據(jù)權(quán)利要求26所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為:
28.根據(jù)權(quán)利要求25至27中任一項(xiàng)所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中:
29.根據(jù)權(quán)利要求25至28中任一項(xiàng)所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為:
30.根據(jù)權(quán)利要求25至29中任一項(xiàng)所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,當(dāng)確定所述一個(gè)或多個(gè)數(shù)字組件違反所述策略時(shí),所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為通過(guò)執(zhí)行所述llm來(lái)確定對(duì)至少一個(gè)提示的二元響應(yīng)。
31.根據(jù)權(quán)利要求30所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,所述二元響應(yīng)為是或否。
32.根據(jù)權(quán)利要求30所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,所述至少一個(gè)提示是基于所述策略來(lái)生成的。
33.根據(jù)權(quán)利要求25至32中任一項(xiàng)所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,當(dāng)將所述標(biāo)簽傳播到所述其他數(shù)字組件時(shí),所述一個(gè)或多個(gè)處理器進(jìn)一步被配置為:
34.根據(jù)權(quán)利要求33所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,所述相鄰數(shù)字組件包括在所述數(shù)字組件子集中的一個(gè)或多個(gè)數(shù)字組件的閾值嵌入距離內(nèi)的未標(biāo)記數(shù)字組件。
35.根據(jù)權(quán)利要求25至34中任一項(xiàng)所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,所述其他數(shù)字組件包括以下中的至少一個(gè):先前審查的標(biāo)記數(shù)字組件、先前審查的未標(biāo)記數(shù)字組件或未標(biāo)記數(shù)字組件。
36.根據(jù)權(quán)利要求25至35中任一項(xiàng)所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀,其中,所述機(jī)器學(xué)習(xí)模型是大語(yǔ)言模型(“l(fā)lm”)。