背景技術(shù):
1、如今的意圖檢測(cè)機(jī)制依賴于基于規(guī)則的正則表達(dá)式或依賴于具有類(lèi)似命名實(shí)體識(shí)別(ner)的大量特征工程的監(jiān)督機(jī)器學(xué)習(xí)(ml)技術(shù)。這樣的機(jī)制需要頭腦風(fēng)暴式復(fù)雜的正則表達(dá)式或挑選包含映射到系統(tǒng)的每個(gè)“意圖”的可能話語(yǔ)的窮盡集合(即,用戶可以說(shuō)些什么來(lái)觸發(fā)命令的方式)的大量、被標(biāo)記過(guò)的數(shù)據(jù)集。連同該話語(yǔ)列表一起而來(lái)的是更大列表的“槽”值示例。
2、監(jiān)督槽提取需要以內(nèi)部-外部-開(kāi)始(iob)格式手動(dòng)標(biāo)記槽。結(jié)果,針對(duì)插槽命令的意圖檢測(cè)的這個(gè)過(guò)程是非常乏味的、耗時(shí)的和不可縮放的。因此,需要的是一種改進(jìn)的技術(shù),其不同于傳統(tǒng)的“預(yù)訓(xùn)練然后微調(diào)”范例并且采用新的范例。此外,需要用于生成短語(yǔ)的變體的技術(shù)以增加使用新范例解釋話語(yǔ)的靈活性。還需要促進(jìn)特定域的基于語(yǔ)音的轉(zhuǎn)錄的改進(jìn)技術(shù)。希望這些各種技術(shù)向用戶提供改進(jìn)的結(jié)果并且提高計(jì)算系統(tǒng)的操作效率。
3、本文要求保護(hù)的主題不限于解決任何缺點(diǎn)或僅在諸如在那些上述環(huán)境中操作的實(shí)施例。相反,提供此背景僅用于說(shuō)明可以實(shí)踐本文描述的一些實(shí)施例的一個(gè)示例性技術(shù)領(lǐng)域。
技術(shù)實(shí)現(xiàn)思路
1、本文公開(kāi)的實(shí)施例涉及用于使大語(yǔ)言模型(llm)針對(duì)包括在種子數(shù)據(jù)中的短語(yǔ)生成語(yǔ)義相關(guān)的短語(yǔ)變體的系統(tǒng)、設(shè)備和方法,該種子數(shù)據(jù)被提供給llm以生成語(yǔ)義相關(guān)的短語(yǔ)變體。
2、一些實(shí)施例訪問(wèn)通常在語(yǔ)言訓(xùn)練數(shù)據(jù)的任意語(yǔ)料庫(kù)上預(yù)訓(xùn)練的llm。實(shí)施例饋送包括多個(gè)短語(yǔ)的種子數(shù)據(jù)作為輸入,多個(gè)短語(yǔ)彼此語(yǔ)義相關(guān)并且描述特定命令。當(dāng)接收到短語(yǔ)中的任何一個(gè)短語(yǔ)作為話語(yǔ)輸入時(shí),話語(yǔ)輸入觸發(fā)命令的執(zhí)行。這些實(shí)施例使llm基于短語(yǔ)生成多個(gè)短語(yǔ)變體,其中每個(gè)短語(yǔ)變體與其他短語(yǔ)語(yǔ)義相關(guān)。當(dāng)接收到短語(yǔ)變體中的任何一個(gè)短語(yǔ)變體作為新的話語(yǔ)輸入時(shí),新話語(yǔ)輸入也觸發(fā)命令的執(zhí)行。實(shí)施例將短語(yǔ)和短語(yǔ)變體作為短語(yǔ)列表存儲(chǔ)在數(shù)據(jù)存儲(chǔ)中。列表中的短語(yǔ)/變體被標(biāo)識(shí)為彼此語(yǔ)義相關(guān),并且被標(biāo)識(shí)為用于執(zhí)行命令的觸發(fā)器。
3、提供本
技術(shù)實(shí)現(xiàn)要素:
以便以簡(jiǎn)化形式介紹將在以下具體實(shí)施方式中進(jìn)一步描述的一些概念。本發(fā)明內(nèi)容不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。
4、附加特征和優(yōu)點(diǎn)將在下面的描述中闡述,并且部分可以從描述中明顯看出,或者可以通過(guò)實(shí)踐本文的教學(xué)而習(xí)得。本發(fā)明的特征和優(yōu)點(diǎn)可以通過(guò)所附權(quán)利要求中特別指出的手段和組合來(lái)實(shí)現(xiàn)和獲得。本發(fā)明的特征將從以下描述和所附權(quán)利要求中變得更完全顯而易見(jiàn),或者可以通過(guò)如下所述的本發(fā)明的實(shí)踐習(xí)得。
1.一種用于使大語(yǔ)言模型(llm)針對(duì)被包括在種子數(shù)據(jù)中的短語(yǔ)生成語(yǔ)義相關(guān)的短語(yǔ)變體的方法,所述種子數(shù)據(jù)被提供給所述llm以生成所述語(yǔ)義相關(guān)的短語(yǔ)變體,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中所述短語(yǔ)列表作為新的種子數(shù)據(jù)被提供給所述llm。
3.根據(jù)權(quán)利要求2所述的方法,其中所述llm遞歸地生成附加短語(yǔ)變體直到達(dá)到停止標(biāo)準(zhǔn)。
4.根據(jù)權(quán)利要求1所述的方法,其中所述種子數(shù)據(jù)表示針對(duì)所述特定命令的基線描述符。
5.根據(jù)權(quán)利要求1所述的方法,其中所述多個(gè)短語(yǔ)變體表示能夠由用戶潛在表述所述特定命令的不同方式。
6.根據(jù)權(quán)利要求1所述的方法,其中使所述llm生成所述多個(gè)短語(yǔ)變體包括使所述llm生成選定數(shù)量的短語(yǔ)變體。
7.根據(jù)權(quán)利要求1所述的方法,其中使所述llm生成所述多個(gè)短語(yǔ)變體包括使所述llm持續(xù)地生成短語(yǔ)變體直到指定的時(shí)間段到期。
8.根據(jù)權(quán)利要求1所述的方法,其中所述多個(gè)短語(yǔ)變體被提交以供用戶審閱。
9.根據(jù)權(quán)利要求1所述的方法,其中所述短語(yǔ)列表被存儲(chǔ)在作為種子數(shù)據(jù)和變體的可縮放記錄來(lái)操作的提示中。
10.根據(jù)權(quán)利要求1所述的方法,其中所述方法還包括,在存儲(chǔ)所述短語(yǔ)列表之后,在接收到后續(xù)話語(yǔ)時(shí)抑制所述llm的進(jìn)一步使用。
11.根據(jù)權(quán)利要求1所述的方法,其中所述短語(yǔ)列表包括超過(guò)10個(gè)短語(yǔ)或短語(yǔ)變體。
12.根據(jù)權(quán)利要求11所述的方法,其中過(guò)濾操作在所述短語(yǔ)列表上被執(zhí)行以移除重復(fù)短語(yǔ)。
13.根據(jù)權(quán)利要求1所述的方法,其中被包括在所述多個(gè)短語(yǔ)中的短語(yǔ)的數(shù)量少于預(yù)選閾值數(shù)量。
14.根據(jù)權(quán)利要求1所述的方法,其中所述短語(yǔ)列表表示針對(duì)所述特定命令的散列映射,其中所述散列映射反映可用于觸發(fā)所述特定命令的執(zhí)行的不同話語(yǔ)輸入。
15.根據(jù)權(quán)利要求1所述的方法,其中所述方法還包括:使用所述短語(yǔ)列表來(lái)訓(xùn)練以生成附加短語(yǔ)變體為任務(wù)的機(jī)器學(xué)習(xí)模型。
16.一種使大語(yǔ)言模型(llm)針對(duì)被包括在種子數(shù)據(jù)中的短語(yǔ)生成語(yǔ)義相關(guān)的短語(yǔ)變體的計(jì)算機(jī)系統(tǒng),所述種子數(shù)據(jù)被提供給所述llm以生成所述語(yǔ)義相關(guān)的短語(yǔ)變體,所述計(jì)算機(jī)系統(tǒng)包括:
17.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)系統(tǒng),其中所述短語(yǔ)列表作為針對(duì)機(jī)器學(xué)習(xí)模型的輸入-輸出關(guān)系集來(lái)操作,以操作生成附加的短語(yǔ)變體。
18.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)系統(tǒng),其中模糊檢查在所述短語(yǔ)列表上被執(zhí)行以移除重復(fù)短語(yǔ)。
19.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)系統(tǒng),其中過(guò)濾操作在所述短語(yǔ)列表上被執(zhí)行以移除重復(fù)短語(yǔ)。
20.一種使大語(yǔ)言模型(llm)針對(duì)被包括在種子數(shù)據(jù)中的短語(yǔ)生成語(yǔ)義相關(guān)的短語(yǔ)變體的計(jì)算機(jī)系統(tǒng),所述種子數(shù)據(jù)被提供給所述llm以生成所述語(yǔ)義相關(guān)的短語(yǔ)變體,所述計(jì)算機(jī)系統(tǒng)包括: