本發(fā)明涉及產(chǎn)品標(biāo)簽提取,具體地說,涉及基于互聯(lián)網(wǎng)大數(shù)據(jù)和ai大語言模型的產(chǎn)品標(biāo)簽提取方法。
背景技術(shù):
1、傳統(tǒng)標(biāo)簽提取方法的關(guān)鍵詞匹配和基于規(guī)則的算法依賴預(yù)定義詞庫和語言規(guī)則,雖然簡單直接,但在面對(duì)語言多樣性和復(fù)雜語義時(shí)往往表現(xiàn)不足;其次,傳統(tǒng)機(jī)器學(xué)習(xí)模型對(duì)特征的表達(dá)能力有限,難以捕捉上下文之間的深層語義關(guān)系,導(dǎo)致提取效果難以滿足實(shí)際需求。此外,互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模龐大、形式多樣(如結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本)、語義表達(dá)差異顯著,同時(shí)熱點(diǎn)和用戶需求變化迅速,傳統(tǒng)方法顯得效率低下、適應(yīng)性不足。因此,提供基于互聯(lián)網(wǎng)大數(shù)據(jù)和ai大語言模型的產(chǎn)品標(biāo)簽提取方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供基于互聯(lián)網(wǎng)大數(shù)據(jù)和ai大語言模型的產(chǎn)品標(biāo)簽提取方法,以解決上述背景技術(shù)中提出的傳統(tǒng)產(chǎn)品標(biāo)簽提取過程中的局限性的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明目的在于提供了基于互聯(lián)網(wǎng)大數(shù)據(jù)和ai大語言模型的產(chǎn)品標(biāo)簽提取方法,包括以下步驟:
3、s1、使用爬蟲技術(shù)抓取互聯(lián)網(wǎng)上產(chǎn)品的文本數(shù)據(jù);
4、s2、采用tf-idf算法確定文本數(shù)據(jù)中的重要詞匯,并結(jié)合skip-gram模型來捕捉詞匯間的語義關(guān)聯(lián),在捕捉詞匯間語義關(guān)聯(lián)的過程中引入反映用戶瀏覽頻率的權(quán)重和用戶的行為特征向量來優(yōu)化捕捉過程;
5、s3、基于提取的重要詞匯和詞匯間的語義關(guān)聯(lián)信息,利用大規(guī)模預(yù)訓(xùn)練的語言模型生成產(chǎn)品標(biāo)簽;
6、s4、結(jié)合序列標(biāo)注模型bert和條件隨機(jī)場crf定位和分類產(chǎn)品標(biāo)簽,輸出最終提取的產(chǎn)品標(biāo)簽。
7、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,采用tf-idf算法確定文本信息中的重要詞匯,包括以下步驟:
8、s2.1、對(duì)產(chǎn)品的文本數(shù)據(jù)進(jìn)行預(yù)處理,并將抓取到的文本數(shù)據(jù)整理成語料庫d,其中d包含n個(gè)文檔d,d={d1,d2,d3,…,dn};
9、s2.2、計(jì)算每個(gè)詞t在文檔d中的詞頻tf(t,d):
10、
11、其中,cou(t,d)表示詞t在文檔d中的出現(xiàn)次數(shù),∑w∈d(w,d)表示文檔d中所有詞的總出現(xiàn)次數(shù);w表示文檔d中的每一個(gè)詞;
12、s2.3、計(jì)算詞t在整個(gè)語料庫中的逆文檔頻率idf(t,d):
13、
14、其中,n表示語料庫中的文檔總數(shù),|{d∈d:t∈d}|表示包含詞t的文檔數(shù);
15、s2.4、將詞頻和逆文檔頻率結(jié)合,得到詞t在文檔d中的重要性權(quán)重tf-idf(t,d,d):
16、tf-idf(t,d,d)=tf(t,d)·idf(t,d)。
17、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,結(jié)合skip-gram模型來捕捉詞匯間的語義關(guān)聯(lián),包括以下步驟:
18、s2.5、基于預(yù)處理后的文本數(shù)據(jù)構(gòu)建詞匯表,記錄所有出現(xiàn)在文本中的獨(dú)特詞匯及其頻率;
19、s2.6、設(shè)定一個(gè)固定的窗口大小c,對(duì)于每個(gè)中心詞,在中心詞左右各取c個(gè)詞作為上下文詞,形成訓(xùn)練對(duì);
20、s2.7、為詞匯表中的每個(gè)詞隨機(jī)初始化低維向量,并設(shè)置超參;
21、s2.8、設(shè)定目標(biāo)函數(shù)訓(xùn)練skip-gram模型,賦予產(chǎn)品詞向量反映瀏覽頻率的權(quán)重,將用戶行為特征向量ui和uo引入到目標(biāo)函數(shù)中進(jìn)行優(yōu)化,并將相關(guān)聯(lián)的產(chǎn)品作為額外的正例引入到目標(biāo)函數(shù)進(jìn)一步優(yōu)化;
22、s2.9、訓(xùn)練后的skip-gram模型將每個(gè)詞映射到高維向量空間中,得到每個(gè)詞的詞向量vt;
23、s2.10、結(jié)合詞頻、逆文檔頻率和詞向量vt,形成新的產(chǎn)品詞向量vd:
24、
25、s2.11、計(jì)算詞向量的余弦相似度來度量詞匯間的語義相似性,針對(duì)具有相似上下文的詞匯,在詞向量的余弦相似度的計(jì)算過程中引入聚類方法,通過聚類將語義上相似的詞匯分到同一類中。
26、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2.8中,目標(biāo)函數(shù)為:
27、
28、其中,lneg表示優(yōu)化的目標(biāo)函數(shù);σ(*)表示sigmoid函數(shù);vo表示上下文詞的向量表示;vi表示中心詞的向量表示;k表示負(fù)樣本的數(shù)量;vj表示負(fù)樣本詞的向量表示;wj表示負(fù)樣本詞;表示詞匯表中按照某個(gè)詞匯分布p(w)隨機(jī)抽取的期望值;p(w)表示詞匯分布;t表示向量的轉(zhuǎn)置;i表示中心詞的索引;o表示上下文詞的索引;j表示負(fù)樣本詞的索引;
29、當(dāng)一個(gè)產(chǎn)品頻繁出現(xiàn)在用戶的瀏覽路徑中時(shí),賦予產(chǎn)品詞向量反映瀏覽頻率的權(quán)重,建立用戶行為矩陣,從用戶行為矩陣中提取出兩個(gè)用戶行為特征向量ui和uo,并將用戶行為特征向量ui和uo引入到目標(biāo)函數(shù)中進(jìn)行優(yōu)化:
30、
31、
32、其中,lneg,uesr表示針對(duì)用戶的瀏覽路徑進(jìn)行優(yōu)化后目標(biāo)函數(shù);ui表示目標(biāo)詞對(duì)應(yīng)的用戶行為特征向量;uo表示上下文詞對(duì)應(yīng)的用戶行為特征向量;bpu,r表示用戶u對(duì)中心產(chǎn)品r的瀏覽頻率;bpu,r1表示用戶u對(duì)負(fù)樣本產(chǎn)品r1的瀏覽頻率;
33、若多個(gè)產(chǎn)品經(jīng)常出現(xiàn)在同一個(gè)用戶的瀏覽路徑中,那么產(chǎn)品被認(rèn)為是相關(guān)聯(lián)的,對(duì)于每個(gè)中心詞vi,根據(jù)用戶的瀏覽歷史找到經(jīng)常被同一用戶群體一起查看的產(chǎn)品,并將相關(guān)聯(lián)的產(chǎn)品作為額外的正例引入到目標(biāo)函數(shù)進(jìn)一步優(yōu)化:
34、
35、其中,lneg,be表示進(jìn)一步優(yōu)化后目標(biāo)函數(shù);b表示基于用戶瀏覽路徑選擇的一組額外正例;vb表示額外正例對(duì)應(yīng)的詞向量;ub表示額外正例對(duì)應(yīng)的用戶行為特征向量;α表示控制用戶行為正例貢獻(xiàn)度的超參數(shù);b表示額外正例的索引。
36、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2.11中,計(jì)算詞向量的余弦相似度來度量詞匯間的語義相似性為:
37、
38、其中,sim(vc,ve)表示詞向量的余弦相似度;vc表示詞c的詞向量表示;ve表示詞e的詞向量表示;
39、針對(duì)具有相似上下文的詞匯,在詞向量的余弦相似度的計(jì)算過程中引入聚類方法,通過聚類將語義上相似的詞匯分到同一類中:
40、
41、其中,sim1(vc,ve)表示優(yōu)化后詞向量的余弦相似度;cl(vc,ve)表示基于詞匯聚類信息計(jì)算的相似度;γ表示聚類信息的加權(quán)系數(shù)。
42、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s3中,基于提取的重要詞匯和詞匯間的語義關(guān)聯(lián)信息,利用大規(guī)模預(yù)訓(xùn)練的語言模型生成產(chǎn)品標(biāo)簽,包括以下步驟:
43、s3.1、基于提取的重要詞匯和詞匯間的語義關(guān)聯(lián)信息構(gòu)建一個(gè)輸入序列x=(x1,x2,…,xn),并將輸入序列輸入到預(yù)訓(xùn)練的語言模型;
44、s3.2、預(yù)訓(xùn)練的語言模型通過自回歸的方式預(yù)測每個(gè)位置的下一個(gè)單詞,生成完整的文本:
45、
46、其中,表示生成的產(chǎn)品標(biāo)簽;yn+1表示生成的下一個(gè)詞匯;p(yn+1|x)表示模型通過自回歸方式計(jì)算下一個(gè)詞匯yn+1的條件概率分布;
47、s3.3、根據(jù)輸入序列和已經(jīng)訓(xùn)練的模型參數(shù)θ生成產(chǎn)品標(biāo)簽的概率分布;
48、s3.4、采用溫度采樣策略從條件概率分布中抽取標(biāo)簽候選。
49、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s3.3中,產(chǎn)品標(biāo)簽的概率分布為:
50、
51、其中,表示生成的產(chǎn)品標(biāo)簽的條件概率分布;n表示輸入序列的長度;t表示產(chǎn)品標(biāo)簽生成過程中的位置索引。
52、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4中,結(jié)合序列標(biāo)注模型bert和條件隨機(jī)場crf定位和分類產(chǎn)品標(biāo)簽,包括以下步驟:
53、s4.1、將通過預(yù)訓(xùn)練語言模型生成的產(chǎn)品標(biāo)簽候選進(jìn)行整理;
54、s4.2、為每個(gè)產(chǎn)品標(biāo)簽候選創(chuàng)建相應(yīng)的特征向量t'h={t'h,1,t'h,2,…,t'h,m},其中,t'h表示初步篩選后的產(chǎn)品標(biāo)簽集,t'h,m表示第m個(gè)產(chǎn)品標(biāo)簽候選;
55、s4.3、將產(chǎn)品標(biāo)簽候選序列t'h輸入到bert模型中,bert模型根據(jù)上下文對(duì)每個(gè)產(chǎn)品標(biāo)簽候選進(jìn)行編碼,捕捉產(chǎn)品標(biāo)簽候選語義特征:
56、
57、其中,rm表示產(chǎn)品標(biāo)簽候選t'h,m的bert編碼結(jié)果,表示bert模型的參數(shù);
58、s4.4、定義產(chǎn)品標(biāo)簽空間l={l1,l2,…,lk},其中,k表示產(chǎn)品標(biāo)簽類別的索引;
59、s4.5、應(yīng)用條件隨機(jī)場層計(jì)算標(biāo)簽間的轉(zhuǎn)移概率矩陣a,轉(zhuǎn)移概率矩陣表示從一個(gè)產(chǎn)品標(biāo)簽轉(zhuǎn)移到另一個(gè)產(chǎn)品標(biāo)簽的概率:
60、a=[ahm];
61、
62、其中,[ahm]表示產(chǎn)品標(biāo)簽空間lg轉(zhuǎn)移到產(chǎn)品標(biāo)簽空間lk的轉(zhuǎn)移概率,表示條件隨機(jī)場層的參數(shù);g表示產(chǎn)品標(biāo)簽類別的索引;
63、s4.6、將bert編碼的結(jié)果rm和條件隨機(jī)場層的轉(zhuǎn)移概率結(jié)合起來,決定最佳的標(biāo)簽序列:
64、
65、其中,t”h表示最終確定的產(chǎn)品標(biāo)簽集;t”h,m表示第m個(gè)最終產(chǎn)品標(biāo)簽;m1表示產(chǎn)品標(biāo)簽序列的總長度;
66、s4.7、使用viterbi算法找到概率最大的產(chǎn)品標(biāo)簽序列。
67、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4.7中,使用viterbi算法找到概率最大的產(chǎn)品標(biāo)簽序列,包括以下步驟:
68、s4.71、對(duì)于第一個(gè)產(chǎn)品標(biāo)簽候選,計(jì)算每個(gè)可能產(chǎn)品標(biāo)簽的初始概率:
69、
70、其中,l表示產(chǎn)品標(biāo)簽類別之一;δ1(l)表示在給定第一個(gè)產(chǎn)品標(biāo)簽候選t”h,1的條件下,產(chǎn)品標(biāo)簽l的初始概率;
71、s4.72、為每個(gè)產(chǎn)品標(biāo)簽初始化回溯指針
72、
73、s4.73、對(duì)于序列中第e1個(gè)產(chǎn)品標(biāo)簽候選,計(jì)算每個(gè)可能產(chǎn)品標(biāo)簽的最大累積概率,并更新回溯指針;
74、s4.74、在序列結(jié)束時(shí),選擇具有最高累積概率的產(chǎn)品標(biāo)簽作為最后一個(gè)產(chǎn)品標(biāo)簽zm:
75、zm=argmaxlδm(l);
76、s4.75、從最后一個(gè)產(chǎn)品標(biāo)簽開始,根據(jù)回溯指針逐步向前回溯,重建整個(gè)最優(yōu)產(chǎn)品標(biāo)簽序列:
77、s4.76、重建完成后得到最優(yōu)產(chǎn)品標(biāo)簽序列t”h,即最終提取的產(chǎn)品標(biāo)簽:
78、t”h=(z1,z2,…,zm)。
79、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4.73中,計(jì)算每個(gè)可能產(chǎn)品標(biāo)簽的最大累積概率為:
80、
81、其中,δe1(l)表示在給定第e1個(gè)位置的觀測條件下,到達(dá)第e1個(gè)位置且產(chǎn)品標(biāo)簽為l的最佳路徑的概率;δe1-1(l')表示在給定第e1-1個(gè)位置的觀測條件下,到達(dá)第e1-1個(gè)位置且產(chǎn)品標(biāo)簽為l'的最佳路徑的概率;表示在給定第e1個(gè)產(chǎn)品標(biāo)簽候選t”h,e1的條件下,產(chǎn)品標(biāo)簽l的最大累積概率;表示指向之前最優(yōu)產(chǎn)品標(biāo)簽的指針;al',l表示從產(chǎn)品標(biāo)簽l'轉(zhuǎn)移到產(chǎn)品標(biāo)簽l的轉(zhuǎn)移概率;t'h,e1表示第e1個(gè)位置的產(chǎn)品標(biāo)簽候選;t”h,e1表示最終確定的第e1個(gè)位置的產(chǎn)品標(biāo)簽。
82、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
83、1、該基于互聯(lián)網(wǎng)大數(shù)據(jù)和ai大語言模型的產(chǎn)品標(biāo)簽提取方法中,通過結(jié)合tf-idf算法、skip-gram模型以及大規(guī)模預(yù)訓(xùn)練的語言模型(如gpt系列),該方法能夠從大量的文本數(shù)據(jù)中識(shí)別并提取出重要詞匯,并且捕捉到這些詞匯間的語義關(guān)聯(lián)。這種方法不僅考慮了詞匯出現(xiàn)的頻率,還重視詞匯在不同文檔中的分布情況和上下文環(huán)境,從而更精準(zhǔn)地反映產(chǎn)品的特征和用戶的關(guān)注點(diǎn)。此外,引入用戶行為數(shù)據(jù)作為額外正例來優(yōu)化目標(biāo)函數(shù),進(jìn)一步增強(qiáng)了模型對(duì)產(chǎn)品之間潛在關(guān)系的理解,使得生成的產(chǎn)品標(biāo)簽更加貼合實(shí)際需求,提高了標(biāo)簽的準(zhǔn)確性和語義豐富性。
84、2、該基于互聯(lián)網(wǎng)大數(shù)據(jù)和ai大語言模型的產(chǎn)品標(biāo)簽提取方法中,利用bert模型和條件隨機(jī)場(crf)層相結(jié)合的方式,可以有效地對(duì)產(chǎn)品標(biāo)簽進(jìn)行定位和分類。bert模型能夠根據(jù)上下文為每個(gè)標(biāo)簽候選提供一個(gè)上下文敏感的表示,而crf層則能夠計(jì)算標(biāo)簽之間的轉(zhuǎn)移概率,確保最終輸出的標(biāo)簽序列不僅符合單個(gè)標(biāo)簽的定義,而且在整個(gè)序列上也具有邏輯一致性和連貫性。viterbi算法的應(yīng)用保證了選出的概率最大的標(biāo)簽序列,這有助于提升標(biāo)簽分類的智能化水平,同時(shí)確保了標(biāo)簽體系的一致性和專業(yè)性,便于后續(xù)的數(shù)據(jù)分析和商業(yè)決策。