最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種面向中文場(chǎng)景的Text2SQL提示工程優(yōu)化方法

文檔序號(hào):41950989發(fā)布日期:2025-05-16 14:11閱讀:3來(lái)源:國(guó)知局
一種面向中文場(chǎng)景的Text2SQL提示工程優(yōu)化方法

本發(fā)明屬于自然語(yǔ)言處理-語(yǔ)義分析領(lǐng)域,涉及一種面向中文場(chǎng)景的text2sql(text-to-sql,文本轉(zhuǎn)化為sql語(yǔ)句)提示工程(prompts)優(yōu)化方法。


背景技術(shù):

1、在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)成為各行業(yè)核心業(yè)務(wù)的支撐平臺(tái),廣泛應(yīng)用于金融、醫(yī)療、教育、零售等領(lǐng)域。隨著數(shù)據(jù)量的不斷增加,如何高效、便捷地從數(shù)據(jù)庫(kù)中獲取所需信息成為了一項(xiàng)重要挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)通常依賴(lài)于sql(structuredquery?language,結(jié)構(gòu)化查詢(xún)語(yǔ)言),然而,對(duì)于非專(zhuān)業(yè)人員來(lái)說(shuō),學(xué)習(xí)和使用sql是一項(xiàng)巨大的難題。用戶(hù)需要具備一定的數(shù)據(jù)庫(kù)和編程基礎(chǔ),才能有效地編寫(xiě)查詢(xún)語(yǔ)句。

2、為了解決這一問(wèn)題,text2sql技術(shù)應(yīng)運(yùn)而生。text2sql是指將自然語(yǔ)言查詢(xún)轉(zhuǎn)化為sql查詢(xún)語(yǔ)句的技術(shù),旨在使非編程專(zhuān)業(yè)用戶(hù)能夠通過(guò)自然語(yǔ)言與數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行交互,而無(wú)需了解復(fù)雜的sql語(yǔ)法。通過(guò)該技術(shù),用戶(hù)只需輸入簡(jiǎn)單的中文查詢(xún)問(wèn)題,系統(tǒng)便能自動(dòng)生成相應(yīng)的sql查詢(xún)語(yǔ)句,并從數(shù)據(jù)庫(kù)中提取出相應(yīng)的結(jié)果。

3、近年來(lái),隨著大語(yǔ)言模型(large?language?model,llm)的迅猛發(fā)展,text2sql技術(shù)取得了顯著進(jìn)步。傳統(tǒng)的text2sql方法依賴(lài)規(guī)則或模板匹配,對(duì)復(fù)雜語(yǔ)句和多表聯(lián)結(jié)支持有限。而大模型的引入(如gpt系列),使得text2sql方法能夠處理更加復(fù)雜的查詢(xún)?nèi)蝿?wù)。

4、然而,現(xiàn)有的text2sql技術(shù)仍面臨諸多挑戰(zhàn),包括語(yǔ)義理解的準(zhǔn)確性不足、對(duì)復(fù)雜查詢(xún)的支持能力一般、部署和推理成本高等。尤其在中文text2sql領(lǐng)域還存在許多問(wèn)題,包括:由于現(xiàn)存大語(yǔ)言模型對(duì)中文自然語(yǔ)言處理能力不及英文,導(dǎo)致基于大語(yǔ)言模型的text2sql對(duì)于長(zhǎng)問(wèn)句和多表多列查詢(xún)的執(zhí)行準(zhǔn)確度降低;由于中文的語(yǔ)義模糊性和語(yǔ)序多樣性導(dǎo)致大語(yǔ)言模型易理解偏差或丟失關(guān)鍵信息;由于現(xiàn)有的基于大語(yǔ)言模型的text2sql對(duì)于中文問(wèn)題的處理方法多為先翻譯后處理的方式導(dǎo)致問(wèn)題和結(jié)果翻譯不對(duì)應(yīng)。因此,提升中文text2sql的生成質(zhì)量和效率,成為當(dāng)前研究的一個(gè)亟待解決的問(wèn)題。

5、text2sql的提示工程(prompts)是一種優(yōu)化大語(yǔ)言模型生成sql查詢(xún)的技術(shù),通過(guò)設(shè)計(jì)高質(zhì)量提示引導(dǎo)模型準(zhǔn)確理解自然語(yǔ)言查詢(xún),提高生成sql的精度和效率。在中文text2sql領(lǐng)域,構(gòu)建針對(duì)性的提示工程有利于提升大語(yǔ)言模型在中文text2sql的生成質(zhì)量和效率。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對(duì)提升中文text2sql的生成質(zhì)量和效率,提供了一種面向中文場(chǎng)景的text2sql提示工程優(yōu)化方法,解決了中文text2sql領(lǐng)域常見(jiàn)的錯(cuò)誤類(lèi)型,提高了中文text2sql領(lǐng)域的執(zhí)行準(zhǔn)確率,提升了執(zhí)行的效率,且該方法針不同數(shù)據(jù)集具有良好的適應(yīng)性。本發(fā)明所述方法步驟如圖1所示,包括以下主要步驟:

2、s1.預(yù)處理。收集預(yù)處理所需要的數(shù)據(jù)庫(kù)和自然語(yǔ)言問(wèn)題的信息,并對(duì)數(shù)據(jù)庫(kù)信息的格式進(jìn)行處理,并添加訓(xùn)練樣本;

3、s2.模式鏈接(schema?linking,數(shù)據(jù)與模式的語(yǔ)義匹配)。識(shí)別并篩選出數(shù)據(jù)庫(kù)中與給定查詢(xún)中的短語(yǔ)相對(duì)應(yīng)的表和列,篩選掉無(wú)關(guān)的干擾信息;

4、s3.關(guān)鍵信息補(bǔ)充整合。對(duì)輸入內(nèi)容和生成結(jié)果進(jìn)行整合,并向大語(yǔ)言模型提供關(guān)鍵知識(shí),當(dāng)作對(duì)當(dāng)前任務(wù)描述的校準(zhǔn);

5、s4.多輪自我修正。通過(guò)規(guī)則檢查與動(dòng)態(tài)調(diào)整生成策略采取迭代的方式進(jìn)行sql生成。下面對(duì)該方法做出詳細(xì)說(shuō)明:

6、1.預(yù)處理

7、預(yù)處理通過(guò)合理設(shè)計(jì)數(shù)據(jù)庫(kù)格式并提供高質(zhì)量的訓(xùn)練樣本,為提示工程中的模式鏈接階段奠定基礎(chǔ)。預(yù)處理的具體實(shí)現(xiàn)步驟如下:

8、1.1.提示工程的基礎(chǔ)輸入。收集自然語(yǔ)言問(wèn)題及其對(duì)應(yīng)的數(shù)據(jù)庫(kù)信息,構(gòu)建提示工程的輸入基礎(chǔ)。確保中文問(wèn)題語(yǔ)義清晰且與數(shù)據(jù)庫(kù)結(jié)構(gòu)具有較高的一致性,以便在后續(xù)處理環(huán)節(jié)中更準(zhǔn)確地生成sql查詢(xún)語(yǔ)句。

9、1.2.數(shù)據(jù)庫(kù)格式轉(zhuǎn)換。將數(shù)據(jù)庫(kù)結(jié)構(gòu)以文本形式呈現(xiàn),使其適配提示工程的輸入需求。使用結(jié)構(gòu)化的表述方式“表(列1,列2,...,列n)”直觀(guān)地描述數(shù)據(jù)庫(kù)表及其字段結(jié)構(gòu)。

10、1.3.選擇訓(xùn)練樣本。為了為模型提供有效的參考樣本,從訓(xùn)練集中選擇與目標(biāo)問(wèn)題最相似的自然語(yǔ)言問(wèn)題及其對(duì)應(yīng)的sql查詢(xún)。具體步驟如下:

11、(1)樣本檢索。將自然語(yǔ)言問(wèn)題通過(guò)word2vec(word-to-vector,文本轉(zhuǎn)化為向量)方法轉(zhuǎn)換為向量,計(jì)算每個(gè)問(wèn)題向量的平均值。

12、(2)基于相似度計(jì)算的樣本篩選。通過(guò)歐幾里得距離衡量訓(xùn)練集中問(wèn)題與目標(biāo)問(wèn)題的相似度,并按照距離從小到大的順序排序,取相似度最高的前k對(duì)問(wèn)題和sql查詢(xún),作為訓(xùn)練樣本。

13、2.模式鏈接

14、模式鏈接是text2sql任務(wù)中至關(guān)重要的一步,其核心目的是通過(guò)識(shí)別和關(guān)聯(lián)自然語(yǔ)言中的查詢(xún)模式(如條件過(guò)濾、聚合、排序等),使模型能夠準(zhǔn)確找到生成sql查詢(xún)所需的表和列。在中文場(chǎng)景下,由于中文自然語(yǔ)言處理相較英文更具挑戰(zhàn)性,傳統(tǒng)方法(如簡(jiǎn)單相似度匹配或單次模式鏈接)往往無(wú)法覆蓋關(guān)鍵表和列,導(dǎo)致生成的sql查詢(xún)質(zhì)量下降。為了提升模式鏈接的效果,本文提出一種基于大語(yǔ)言模型的模式鏈接方法,通過(guò)兩次獨(dú)立的模式鏈接并取其并集,顯著增強(qiáng)了模型對(duì)復(fù)雜查詢(xún)的處理能力。具體流程如下:

15、2.1.構(gòu)造模式鏈接提示樣本。從中文text2sql數(shù)據(jù)集cspider訓(xùn)練集中選擇j個(gè)經(jīng)典樣本,構(gòu)造成用于引導(dǎo)模式鏈接的提示模板。樣本采用思維鏈(chain-of-thought,cot)格式設(shè)計(jì),具體內(nèi)容包括:

16、(1)自然語(yǔ)言問(wèn)題中關(guān)鍵詞與數(shù)據(jù)庫(kù)表名、列名的對(duì)應(yīng)關(guān)系;

17、(2)對(duì)中文問(wèn)題中特殊表述方式的語(yǔ)義解釋。

18、2.2.基于直接輸入的初步模式鏈接。在第一次模式鏈接中,不依賴(lài)提示樣本,直接利用大語(yǔ)言模型(llm)進(jìn)行模式鏈接。輸入內(nèi)容包括自然語(yǔ)言問(wèn)題、數(shù)據(jù)庫(kù)表及列信息。大語(yǔ)言模型根據(jù)輸入生成一組與問(wèn)題相關(guān)的表和列。得到一組表和列,例如:

19、[表1.列1,表1.列2,表2.列1]

20、2.3.基于樣本的深度模式鏈接。第二次模式鏈接在第一輪基礎(chǔ)上,加入提示樣本以增強(qiáng)模型對(duì)語(yǔ)言結(jié)構(gòu)和語(yǔ)義關(guān)系的理解。輸入內(nèi)容包括:

21、(1)自然語(yǔ)言問(wèn)題、數(shù)據(jù)庫(kù)表及列信息;

22、(2)模式鏈接提示樣本;

23、(3)值樣本:從每個(gè)數(shù)據(jù)庫(kù)表中隨機(jī)選取若干行值,輔助模型建立自然語(yǔ)言與數(shù)據(jù)庫(kù)內(nèi)容的關(guān)聯(lián)。

24、得到一組表和列,例如:

25、[表1.列1,表1.列3,表2.列1]

26、2.4.合并鏈接結(jié)果。合并兩次模式鏈接得到的表和列,并取其并集作為模式鏈接輸出結(jié)果,如:

27、[表1.列1,表1.列2,表1.列3,表2.列1]

28、3.關(guān)鍵信息補(bǔ)充整合

29、在完成預(yù)處理和模式鏈接后,生成的輸入內(nèi)容和輸出結(jié)果通常包含大量冗余信息,同時(shí),中文text2sql任務(wù)因其語(yǔ)義模糊性和多樣性,容易出現(xiàn)sql生成中的語(yǔ)義誤解和翻譯錯(cuò)誤。因此,需要對(duì)相關(guān)信息進(jìn)行簡(jiǎn)化、優(yōu)化和補(bǔ)充,以提高模型的生成質(zhì)量和任務(wù)效率。具體優(yōu)化措施如下:

30、3.1.信息整合與簡(jiǎn)化。為減少信息冗余并確保模式鏈接結(jié)果的準(zhǔn)確性,對(duì)相關(guān)內(nèi)容進(jìn)行整合和精簡(jiǎn),具體步驟包括:

31、(1)簡(jiǎn)化數(shù)據(jù)庫(kù)結(jié)構(gòu)?;谀J芥溄咏Y(jié)果,篩選出與生成目標(biāo)相關(guān)的表、列和數(shù)據(jù)值,僅保留這些必要部分,從而降低輸入信息的復(fù)雜性;

32、(2)更新值樣本。將原始值樣本與模式鏈接生成的表和列取交集,僅保留兩者共同涉及的內(nèi)容,以確保輸入數(shù)據(jù)的相關(guān)性。

33、3.2.數(shù)據(jù)庫(kù)中文翻譯映射。在中文text2sql任務(wù)中,由于語(yǔ)言表達(dá)與數(shù)據(jù)庫(kù)列名或數(shù)據(jù)值之間的不匹配,常會(huì)導(dǎo)致映射錯(cuò)誤。例如:?jiǎn)栴}語(yǔ)句“select?weight?frompetswhere?pettype='狗'order?bypet_ageasc?limit?1”數(shù)據(jù)庫(kù)列名:“dog”。因此為每個(gè)表名和列名和名詞性質(zhì)的值后增加對(duì)應(yīng)的中文翻譯,并在數(shù)據(jù)庫(kù)結(jié)構(gòu)中呈現(xiàn)。

34、4.多輪自我修正

35、在text2sql任務(wù)中,生成的sql語(yǔ)句可能因語(yǔ)義理解不足或規(guī)則適配不當(dāng)而出現(xiàn)錯(cuò)誤。為提高sql生成的準(zhǔn)確性和魯棒性,本文采用多輪自我修正機(jī)制,通過(guò)結(jié)合大語(yǔ)言模型與提示工程,對(duì)生成結(jié)果進(jìn)行迭代優(yōu)化。該過(guò)程通過(guò)規(guī)則檢查與動(dòng)態(tài)調(diào)整生成策略,確保sql查詢(xún)滿(mǎn)足需求或在達(dá)到最大修正次數(shù)n前盡可能優(yōu)化。多輪自我修正方法如圖2所示,具體步驟如下:

36、4.1.中文名詞替換。對(duì)于生成的sql語(yǔ)句,如果其中包含中文名詞,需參考數(shù)據(jù)庫(kù)信息將其映射為對(duì)應(yīng)的英文名稱(chēng),以確保語(yǔ)法和執(zhí)行的一致性。

37、4.2.多輪修正生成。生成的sql可能因語(yǔ)法問(wèn)題或不完整的查詢(xún)邏輯導(dǎo)致空結(jié)果或執(zhí)行錯(cuò)誤。針對(duì)這些問(wèn)題,采用多輪修正策略:利用大語(yǔ)言模型重構(gòu)語(yǔ)句,引入規(guī)則提示,通過(guò)動(dòng)態(tài)生成策略進(jìn)行優(yōu)化。修正過(guò)程持續(xù)迭代,直至生成可執(zhí)行且符合需求的sql或達(dá)到最大修正次數(shù)n。

38、4.3.動(dòng)態(tài)生成策略??紤]到模式鏈接可能遺漏關(guān)鍵表或列,或破壞數(shù)據(jù)庫(kù)的原始結(jié)構(gòu)關(guān)系,采用以下動(dòng)態(tài)策略以增強(qiáng)修正效果:

39、(1)切換模式鏈接方案。如果上一輪執(zhí)行失敗且使用了模式鏈接,則在新一輪中改為使用完整的數(shù)據(jù)庫(kù)結(jié)構(gòu),反之則切換為模式鏈接方式。

40、(2)隨機(jī)選取訓(xùn)練樣本。每輪修正時(shí),動(dòng)態(tài)選擇不同的訓(xùn)練樣本用于優(yōu)化提示工程,減少單一訓(xùn)練樣本可能導(dǎo)致的偏差。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1