最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng)

文檔序號(hào):41955218發(fā)布日期:2025-05-16 14:21閱讀:4來源:國(guó)知局
一種基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng)

本發(fā)明涉及語言處理,具體為一種基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng)。


背景技術(shù):

1、在當(dāng)今全球化的學(xué)術(shù)交流環(huán)境下,多學(xué)科學(xué)術(shù)論文的語言翻譯需求日益增長(zhǎng),傳統(tǒng)的學(xué)術(shù)論文翻譯方法主要依賴人工翻譯,這種方式雖然在準(zhǔn)確性上有一定保障,但存在諸多局限性,一方面,人工翻譯效率較低,面對(duì)大量的學(xué)術(shù)文獻(xiàn),翻譯速度難以滿足科研人員快速獲取信息的需求,另一方面,人工翻譯的質(zhì)量受限于翻譯人員的專業(yè)知識(shí)背景和語言能力,對(duì)于一些高度專業(yè)化的多學(xué)科論文,要求翻譯人員同時(shí)精通多個(gè)學(xué)科的專業(yè)知識(shí)和多種語言是極為困難的,而隨著人工智能技術(shù)的發(fā)展,基于大型語言模型的翻譯系統(tǒng)逐漸興起,然而,現(xiàn)有的基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng)仍存在明顯不足,在語料庫方面,許多系統(tǒng)的語料收集不夠全面和專業(yè),缺乏對(duì)多學(xué)科領(lǐng)域?qū)W術(shù)論文的廣泛覆蓋,尤其是對(duì)于一些小眾學(xué)科或新興學(xué)科的論文數(shù)據(jù)較少,這使得模型在翻譯這些領(lǐng)域的論文時(shí),無法準(zhǔn)確理解和翻譯專業(yè)術(shù)語和特定語境下的表達(dá),并且在模型訓(xùn)練和優(yōu)化方面,部分系統(tǒng)沒有充分利用學(xué)術(shù)論文的元數(shù)據(jù),不能有效指導(dǎo)模型考慮學(xué)科特定的術(shù)語和語境,導(dǎo)致翻譯結(jié)果在專業(yè)性和準(zhǔn)確性上大打折扣。


技術(shù)實(shí)現(xiàn)思路

1、為解決上述技術(shù)問題,本發(fā)明通過以下技術(shù)方案予以實(shí)現(xiàn):一種基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng),該系統(tǒng)包括:

2、預(yù)處理模塊,用于對(duì)輸入的學(xué)術(shù)論文進(jìn)行文本清洗和格式標(biāo)準(zhǔn)化處理;

3、語料庫,存儲(chǔ)多學(xué)科學(xué)術(shù)論文的雙語對(duì)照數(shù)據(jù);

4、大型語言模型,連接所述語料庫,基于所述雙語對(duì)照數(shù)據(jù)訓(xùn)練和優(yōu)化翻譯參數(shù);

5、翻譯模塊,用于將預(yù)處理后的學(xué)術(shù)論文輸入至所述大型語言模型,以生成目標(biāo)語言的翻譯輸出;

6、用戶界面,允許用戶上傳學(xué)術(shù)論文,選擇源語言和目標(biāo)語言,并顯示翻譯結(jié)果;

7、質(zhì)量評(píng)估模塊,用于評(píng)估翻譯結(jié)果的質(zhì)量,并提供反饋給大型語言模型以優(yōu)化未來的翻譯;質(zhì)量評(píng)估模塊包括機(jī)器評(píng)估子模塊和人工評(píng)估子模塊,其中,機(jī)器評(píng)估子模塊用于自動(dòng)評(píng)估翻譯的準(zhǔn)確性和流暢性,人工評(píng)估子模塊用于收集用戶反饋和專家評(píng)估,方便后續(xù)優(yōu)化翻譯質(zhì)量。

8、優(yōu)選的,所述預(yù)處理模塊包括:

9、分詞器,用于將學(xué)術(shù)論文文本分割成單詞或短語;

10、詞性標(biāo)注器,用于對(duì)分詞后的單詞或短語進(jìn)行詞性標(biāo)注,用于識(shí)別和標(biāo)注每個(gè)單元的詞性;

11、實(shí)體識(shí)別器,用于識(shí)別學(xué)術(shù)論文中的專有名詞和術(shù)語。

12、優(yōu)選的,所述分詞器將學(xué)術(shù)論文文本分割成單詞或短語的過程包括:運(yùn)用詞語邊界規(guī)則將規(guī)范文本中的連續(xù)的文本序列分割成單詞或短語,首先收集自然語言中的詞語邊界規(guī)則,詞語邊界規(guī)則基于語言的語法、詞匯以及標(biāo)點(diǎn)符號(hào)形成,得到通用詞語邊界規(guī)則,針對(duì)多學(xué)科學(xué)術(shù)論文涉及的不同專業(yè)領(lǐng)域,梳理領(lǐng)域內(nèi)對(duì)應(yīng)的詞語邊界相關(guān)規(guī)則,得到用法規(guī)則,同時(shí),參考專業(yè)領(lǐng)域的詞匯表、術(shù)語詞典,將其中體現(xiàn)的詞語構(gòu)成和邊界信息提取出來,補(bǔ)充到規(guī)則體系中,以便更精準(zhǔn)地對(duì)學(xué)術(shù)論文文本進(jìn)行分詞處理,基于用法規(guī)則、詞語構(gòu)成和邊界信息共同構(gòu)成專業(yè)領(lǐng)域特定規(guī)則,其中,詞語邊界規(guī)則包括通用詞語邊界規(guī)則和專業(yè)領(lǐng)域特定規(guī)則,將通用詞語邊界規(guī)則以及專業(yè)領(lǐng)域特定規(guī)則整合,構(gòu)建規(guī)則庫,并將規(guī)則庫以文本文件、數(shù)據(jù)庫表的形式存儲(chǔ),方便后續(xù)在分詞過程中進(jìn)行規(guī)則匹配和查詢,對(duì)輸入的規(guī)范文本進(jìn)行格式統(tǒng)一處理,去除文本中可能存在的多余空白符,將換行符、制表符,按照統(tǒng)一的格式要求進(jìn)行轉(zhuǎn)換或規(guī)范,確保文本的格式整齊,便于后續(xù)依據(jù)規(guī)則準(zhǔn)確判斷詞語邊界,得到標(biāo)準(zhǔn)文本格式,基于標(biāo)準(zhǔn)文本格式,識(shí)別文本中的特殊字符,對(duì)于一些不參與詞語構(gòu)成但可能影響詞語邊界判斷的特殊字符,特殊字符包含非英文字母、數(shù)字、漢字的特殊符號(hào),進(jìn)行處理,得到特殊字符處理后的預(yù)處理文本,處理過程包括:如果是作為詞語一部分的特殊字符,則保留并標(biāo)記其特殊屬性,如果是單純起分隔或裝飾作用的特殊字符,根據(jù)具體需求選擇暫時(shí)去除或者轉(zhuǎn)換為空格不影響詞語邊界判斷的形式,基于預(yù)處理文本,從文本的開頭開始,按照順序逐個(gè)字符地進(jìn)行掃描,每次讀取一個(gè)字符,同時(shí)記錄當(dāng)前字符位置以及已經(jīng)掃描過的字符序列,根據(jù)當(dāng)前字符位置以及已掃描的字符序列,與規(guī)則庫中的通用詞語邊界規(guī)則進(jìn)行匹配,如果遇到符合通用詞語邊界規(guī)則的空格、標(biāo)點(diǎn)符號(hào),則將前面掃描到的字符序列判定為一個(gè)單詞或短語單元,進(jìn)行提取并記錄;

13、對(duì)于符合專業(yè)領(lǐng)域特定規(guī)則的字符序列,則查看字符序列與專業(yè)領(lǐng)域特定規(guī)則是否匹配,若匹配則確認(rèn)為一個(gè)完整的專業(yè)術(shù)語,將字符序列作為一個(gè)詞語單元提取出來,其中,當(dāng)掃描到的字符序列不符合通用詞語邊界規(guī)則,即暫時(shí)無法確定詞語邊界時(shí),繼續(xù)往后掃描字符,不斷擴(kuò)大字符序列范圍,再次嘗試與規(guī)則進(jìn)行匹配,直到找到匹配的邊界規(guī)則來確定詞語單元為止,在掃描完整個(gè)文本后,將按照詞語邊界規(guī)則提取出來的單詞或短語單元依次記錄下來,形成單詞或短語列表,這個(gè)列表就是對(duì)原始連續(xù)文本序列進(jìn)行分詞處理后的結(jié)果,從分詞后的單詞或短語列表中隨機(jī)抽取樣本,通過人工方式進(jìn)行檢查,查看是否存在不符合語言習(xí)慣或?qū)I(yè)領(lǐng)域要求的錯(cuò)誤分詞情況;

14、如果在人工抽檢中發(fā)現(xiàn)了錯(cuò)誤,記錄下來錯(cuò)誤出現(xiàn)的位置以及情況內(nèi)容,并對(duì)錯(cuò)誤部分對(duì)應(yīng)的字符序列進(jìn)行重新分割,得到糾錯(cuò)序列,并重新由人工對(duì)該字符序列進(jìn)行重新檢查,直至該字符序列無誤。

15、優(yōu)選的,所述語料庫,存儲(chǔ)多學(xué)科學(xué)術(shù)論文的雙語對(duì)照數(shù)據(jù)的過程包括:首先從學(xué)術(shù)數(shù)據(jù)庫、學(xué)術(shù)期刊網(wǎng)站、專業(yè)書籍?dāng)?shù)字化資源以及高校學(xué)術(shù)資源庫,收集涵蓋醫(yī)學(xué)、物理學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)、文學(xué)領(lǐng)域的學(xué)術(shù)論文原文及其對(duì)應(yīng)的高質(zhì)量譯文,這些論文應(yīng)具有代表性,包括經(jīng)典文獻(xiàn)、前沿研究報(bào)告類型和層次的學(xué)術(shù)著作,確保語料的豐富性和多樣性,同時(shí),收集學(xué)術(shù)論文的元數(shù)據(jù),包括學(xué)科分類信息、作者信息、發(fā)表期刊信息、關(guān)鍵詞、摘要,這些元數(shù)據(jù)將在后續(xù)的翻譯過程中為大型語言模型提供重要的語境和學(xué)科特定信息參考,對(duì)于收集到的原文和譯文文本,進(jìn)行格式統(tǒng)一化處理,去除不必要的特殊字符、亂碼、多余的空白符,確保文本的規(guī)范性和一致性,以便后續(xù)的文本處理和分析,得到規(guī)范文本,隨后利用自然語言處理工具,檢查并糾正規(guī)范文本中的拼寫錯(cuò)誤、語法錯(cuò)誤以及標(biāo)點(diǎn)符號(hào)使用不規(guī)范,提高語料的質(zhì)量和準(zhǔn)確性,將規(guī)范文本進(jìn)行分詞處理,將連續(xù)的文本序列分割成單詞或短語,以便更好地進(jìn)行后續(xù)的索引特征構(gòu)成文本特征;

16、使用雙語對(duì)齊技術(shù),將原文和譯文進(jìn)行句子級(jí)別的對(duì)齊,確保每一個(gè)源語言句子都能準(zhǔn)確對(duì)應(yīng)到目標(biāo)語言句子,建立起一一對(duì)應(yīng)的雙語語料對(duì),將對(duì)齊后的雙語語料對(duì)進(jìn)行標(biāo)注,標(biāo)注內(nèi)容包括詞性、命名實(shí)體、語法結(jié)構(gòu),通過標(biāo)注內(nèi)容為大型語言模型提供更豐富的語言特征信息,有助于提高翻譯的準(zhǔn)確性和質(zhì)量,采用基于統(tǒng)計(jì)模型的詞性標(biāo)注器對(duì)詞性進(jìn)行標(biāo)注,對(duì)于命名實(shí)體的識(shí)別,用于識(shí)別出學(xué)術(shù)論文中的機(jī)構(gòu)名、人名、地名,并標(biāo)注類型,以便在翻譯過程中保持一致性和準(zhǔn)確性;采用依存句法分析的方式,分析句子中詞語之間的語法關(guān)系,完成對(duì)語法結(jié)構(gòu)進(jìn)行標(biāo)注,為翻譯提供語法層面的指導(dǎo),將清洗、預(yù)處理、對(duì)齊和標(biāo)注后的雙語語料數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中,采用合適的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),使用倒排索引技術(shù),將單詞與包含該單詞的文檔或句子建立索引關(guān)系,并基于關(guān)鍵詞、學(xué)科分類、句子相似度的方式構(gòu)建索引機(jī)制,對(duì)語料庫中的文本數(shù)據(jù)進(jìn)行索引,以便在翻譯過程中能夠快速地檢索到與待翻譯文本相關(guān)的雙語對(duì)照數(shù)據(jù)和元數(shù)據(jù),提高數(shù)據(jù)的檢索效率和系統(tǒng)的響應(yīng)速度;

17、定期對(duì)語料庫進(jìn)行更新,收集新發(fā)表的學(xué)術(shù)論文及其譯文,及時(shí)納入語料庫中,以保持語料庫的時(shí)效性和對(duì)最新學(xué)術(shù)成果的覆蓋能力,同時(shí),根據(jù)用戶反饋和系統(tǒng)運(yùn)行過程中發(fā)現(xiàn)的問題,對(duì)語料庫中的錯(cuò)誤數(shù)據(jù)進(jìn)行修正和完善,不斷優(yōu)化語料庫的質(zhì)量。

18、優(yōu)選的,利用自然語言處理工具,檢查并糾正文本中的拼寫錯(cuò)誤、語法錯(cuò)誤以及標(biāo)點(diǎn)符號(hào)使用不規(guī)范的過程包括:對(duì)于拼寫錯(cuò)誤檢查與糾正,首先運(yùn)用詞語邊界規(guī)則將規(guī)范文本中的連續(xù)的文本序列分割成單詞或短語,得到單詞或短語列表,并通過詞法分析確定文本中的單詞基本組成,隨后收集醫(yī)學(xué)、物理學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)、文學(xué)領(lǐng)域的標(biāo)準(zhǔn)詞匯表,構(gòu)建拼寫詞典,拼寫詞典包括學(xué)術(shù)論文中常見的專業(yè)術(shù)語、通用詞匯,同時(shí),利用韋氏詞典,以及包含網(wǎng)絡(luò)用語、新興詞匯的擴(kuò)展詞典,作為補(bǔ)充參考,擴(kuò)大詞匯覆蓋范圍;

19、運(yùn)用萊文斯坦距離算法,計(jì)算文本中每個(gè)單詞與拼寫詞典中標(biāo)準(zhǔn)詞匯的編輯距離,編輯距離衡量的是將一個(gè)單詞通過插入、刪除、替換字符,變成另一個(gè)單詞所需的最少操作次數(shù),如果編輯距離在小于等于2的閾值范圍內(nèi),則認(rèn)為單詞存在拼寫錯(cuò)誤,基于拼寫錯(cuò)誤,對(duì)于編輯距離較近的情況,從拼寫詞典中查找編輯距離最小且符合上下文語境的正確單詞進(jìn)行替換;

20、對(duì)于語法錯(cuò)誤檢查與糾正,基于詞性標(biāo)注器標(biāo)注后的文本,確定文本中每個(gè)單詞的詞性類別,詞性類別包含名詞、動(dòng)詞、形容詞、副詞,進(jìn)行依存句法分析,通過運(yùn)用基于移進(jìn)-歸約算法的分析器,構(gòu)建文本句子的語法結(jié)構(gòu)樹,分析各個(gè)單詞之間的依存關(guān)系,明確句子中的語法成分以及語法成分之間的修飾、支配關(guān)系,語法成分包括主謂賓、定狀補(bǔ);

21、根據(jù)預(yù)先設(shè)定的語法規(guī)則庫來檢查文本句子是否符合語法規(guī)范,語法規(guī)則庫包括通用的語法規(guī)則以及語法習(xí)慣,其中,語法規(guī)則包含英語中的句子基本結(jié)構(gòu)規(guī)則、時(shí)態(tài)搭配規(guī)則、詞性搭配規(guī)則,語法習(xí)慣包含學(xué)術(shù)論文中引用文獻(xiàn)的語法格式、特定學(xué)科術(shù)語在句子中的使用規(guī)則,對(duì)比分析經(jīng)過詞性標(biāo)注和依存句法分析后的句子結(jié)構(gòu)與語法規(guī)則,查找不符合語法規(guī)則的地方,確定語法錯(cuò)誤,基于語法錯(cuò)誤,一方面根據(jù)語法規(guī)則進(jìn)行糾正,另一方面參考語言的語法規(guī)范和上下文語義進(jìn)行調(diào)整;

22、對(duì)于標(biāo)點(diǎn)符號(hào)檢查與糾正,首先運(yùn)用自然語言處理中的符號(hào)識(shí)別技術(shù),將文本中的標(biāo)點(diǎn)符號(hào)進(jìn)行準(zhǔn)確識(shí)別并分類,標(biāo)點(diǎn)符號(hào)包括句號(hào)、逗號(hào)、分號(hào)、冒號(hào)、問號(hào)、感嘆號(hào)、引號(hào)、括號(hào),明確每個(gè)標(biāo)點(diǎn)符號(hào)在文本中的位置和類型;

23、設(shè)定標(biāo)點(diǎn)符號(hào)使用規(guī)則,標(biāo)點(diǎn)符號(hào)使用規(guī)則包括通用的標(biāo)點(diǎn)符號(hào)使用規(guī)范以及學(xué)術(shù)論文領(lǐng)域的標(biāo)點(diǎn)符號(hào)使用要求,其中,標(biāo)點(diǎn)符號(hào)使用規(guī)范包含句號(hào)用于表示句子結(jié)束,逗號(hào)用于分隔句子中的并列成分、短語,學(xué)術(shù)論文領(lǐng)域的標(biāo)點(diǎn)符號(hào)使用要求包含在引用文獻(xiàn)時(shí)引號(hào)、括號(hào)的正確使用方式,公式中特定標(biāo)點(diǎn)符號(hào)的用法;

24、檢查標(biāo)點(diǎn)符號(hào)使用情況,按照設(shè)定的標(biāo)點(diǎn)符號(hào)使用規(guī)則,對(duì)文本中各個(gè)標(biāo)點(diǎn)符號(hào)的使用情況進(jìn)行檢查,查看是否存在標(biāo)點(diǎn)缺失、多余、誤用的不規(guī)范情況,隨后根據(jù)檢查出的標(biāo)點(diǎn)符號(hào)不規(guī)范,按照標(biāo)點(diǎn)符號(hào)使用規(guī)則進(jìn)行糾正。

25、優(yōu)選的,通過詞法分析確定文本中的單詞基本組成的過程:首先檢查規(guī)范文本的字符編碼格式,如果規(guī)范文本的字符編碼格式不符合處理要求,則將規(guī)范文本的字符編碼格式轉(zhuǎn)換為適配編碼格式,即將文本的字符編碼格式轉(zhuǎn)換為合適的編碼格式,去除文本中的無關(guān)信息,無關(guān)信息包括html標(biāo)簽、多余的空白字符、特殊的控制字符,對(duì)于學(xué)術(shù)論文,去除文獻(xiàn)引用標(biāo)記、腳注編號(hào),從而得到預(yù)處理后的規(guī)范文本,基于預(yù)處理后的規(guī)范文本,通過統(tǒng)計(jì)文本中每個(gè)字符的出現(xiàn)次數(shù)、相鄰字符組合的頻率,從中提取語言相關(guān)特征,使用預(yù)先訓(xùn)練好的大型語言模型,將提取的語言相關(guān)特征與大型語言模型中的各種語言特征進(jìn)行匹配,大型語言模型通過比較文本特征與已知語言的典型特征,計(jì)算相似度得分,將文本歸類到最相似的語言類別;

26、使用預(yù)先構(gòu)建的規(guī)則詞典,其中,規(guī)則詞典包含詞語構(gòu)成規(guī)則、詞性規(guī)則,當(dāng)掃描文本時(shí),根據(jù)規(guī)則詞典來判斷詞語邊界,將文本分割成一個(gè)個(gè)單詞;對(duì)于形態(tài)豐富的英語,使用n-gram模型統(tǒng)計(jì)文本中連續(xù)n個(gè)單詞或字符的出現(xiàn)概率來確定單詞邊界,其中,n取2、3。

27、優(yōu)選的,訓(xùn)練得到大型語言模型的過程包括:從公開的多語言書籍、學(xué)術(shù)論文、新聞文章、網(wǎng)頁內(nèi)容中,收集涵蓋不同語言的文本數(shù)據(jù),對(duì)收集到的文本數(shù)據(jù)進(jìn)行初步整理,去除明顯的錯(cuò)誤信息、重復(fù)內(nèi)容以及html標(biāo)簽,使文本內(nèi)容相對(duì)純凈,便于后續(xù)處理,采用人工標(biāo)注為每一段文本數(shù)據(jù)明確標(biāo)注其所屬的語言類別,并按照語言種類對(duì)文本數(shù)據(jù)進(jìn)行分類整理,構(gòu)建不同語言的文本數(shù)據(jù)集,確保每個(gè)數(shù)據(jù)集內(nèi)的文本確實(shí)屬于相應(yīng)標(biāo)注的語言,且各個(gè)語言數(shù)據(jù)集的規(guī)模盡量均衡,避免某一種語言的數(shù)據(jù)量過少而影響模型訓(xùn)練效果,將每個(gè)語言分類后的數(shù)據(jù)集劃分為70%~80%占比的訓(xùn)練集、10%~15%占比的驗(yàn)證集和10%~20%占比的測(cè)試集,訓(xùn)練集用于模型的參數(shù)學(xué)習(xí),驗(yàn)證集用于在訓(xùn)練過程中評(píng)估模型的性能,輔助調(diào)整模型的超參數(shù),測(cè)試集用于在模型訓(xùn)練完成后,客觀地檢驗(yàn)?zāi)P蛯?duì)不同語言識(shí)別的準(zhǔn)確率,且訓(xùn)練集、驗(yàn)證集和測(cè)試集這三的占比總和為1,統(tǒng)計(jì)文本中不同字符的出現(xiàn)頻率、字符的n-gram出現(xiàn)頻率,得到字符級(jí)特征,提取文本中常見詞匯的出現(xiàn)頻率及分布情況,得到詞匯級(jí)特征,不同語言有其特定的常用詞匯,分析文本中體現(xiàn)的語法結(jié)構(gòu)特點(diǎn),得到語法結(jié)構(gòu)特征,基于字符級(jí)特征、詞匯級(jí)特征和語法結(jié)構(gòu)特征構(gòu)成文本特征;

28、隨后采用主成分分析pca對(duì)提取的文本特征進(jìn)行標(biāo)準(zhǔn)化、歸一化處理,去除一些冗余的、對(duì)語言識(shí)別貢獻(xiàn)不大的特征,簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),同時(shí)提高模型訓(xùn)練效率,減少過擬合風(fēng)險(xiǎn),使不同特征的取值范圍統(tǒng)一,避免因特征值量級(jí)差異過大而影響模型訓(xùn)練效果;

29、基于樸素貝葉斯模型,確定其先驗(yàn)概率計(jì)算方式以及條件概率的估計(jì)方法,構(gòu)建概率計(jì)算模型,設(shè)定概率分布的初始參數(shù),其中,先驗(yàn)概率計(jì)算方式根據(jù)訓(xùn)練集中各語言類別文本的占比來確定,條件概率的估計(jì)方法采用極大似然估計(jì),將文本的特征向量依次傳入概率計(jì)算模型進(jìn)行概率計(jì)算,在概率計(jì)算模型內(nèi)部,根據(jù)設(shè)定的對(duì)數(shù)似然損失函數(shù)的值,利用隨機(jī)梯度下降sgd更新模型的參數(shù),使對(duì)數(shù)似然損失函數(shù)的值不斷減小,即讓模型的預(yù)測(cè)結(jié)果越來越接近真實(shí)情況,其中,對(duì)數(shù)似然損失函數(shù)用于衡量模型預(yù)測(cè)結(jié)果與文本實(shí)際所屬語言類別之間的差異程度;

30、在訓(xùn)練過程中,每經(jīng)過預(yù)定的訓(xùn)練輪次或迭代次數(shù),就使用驗(yàn)證集對(duì)概率計(jì)算模型的性能進(jìn)行評(píng)估,觀察準(zhǔn)確率、召回率、f1值指標(biāo),如果發(fā)現(xiàn)模型在驗(yàn)證集上的性能不再提升甚至出現(xiàn)下降,則采取提前停止訓(xùn)練、調(diào)整模型的超參數(shù)、增加訓(xùn)練數(shù)據(jù)量的方式進(jìn)行調(diào)整,以保證模型的泛化能力,在模型訓(xùn)練完成后,將測(cè)試集的文本數(shù)據(jù)輸入到模型中,讓模型進(jìn)行語言類別預(yù)測(cè),然后將預(yù)測(cè)結(jié)果與測(cè)試集文本的真實(shí)語言標(biāo)注進(jìn)行對(duì)比,計(jì)算各項(xiàng)性能指標(biāo),了解模型在實(shí)際未見過的數(shù)據(jù)上的表現(xiàn)情況,判斷模型是否達(dá)到預(yù)期的語言識(shí)別能力要求,基于達(dá)到預(yù)期的語言識(shí)別能力要求的模型,從而得到大型語言模型,其中,性能指標(biāo)包括準(zhǔn)確率、召回率、f1值,其中,準(zhǔn)確率為預(yù)測(cè)正確的文本數(shù)量占總測(cè)試文本數(shù)量的比例,召回率為語言類別中被正確預(yù)測(cè)出來的文本數(shù)量占該語言類別實(shí)際文本數(shù)量的比例,f1值為綜合考慮準(zhǔn)確率和召回率的調(diào)和平均值。

31、優(yōu)選的,運(yùn)用萊文斯坦距離算法,計(jì)算文本中每個(gè)單詞與拼寫詞典中標(biāo)準(zhǔn)詞匯的編輯距離的過程如下:首先獲取待檢查拼寫錯(cuò)誤的目標(biāo)文本內(nèi)容,將其進(jìn)行分詞處理,得到單詞列表,這些單詞就是需要計(jì)算與拼寫詞典中標(biāo)準(zhǔn)詞匯編輯距離的對(duì)象,同時(shí),準(zhǔn)備拼寫詞典,以拼寫詞典中的每個(gè)詞匯作為后續(xù)對(duì)比計(jì)算的參照標(biāo)準(zhǔn),即標(biāo)準(zhǔn)詞匯,拼寫詞典為通用語言的權(quán)威詞典與特定專業(yè)領(lǐng)域的術(shù)語詞典相結(jié)合的形式,確保涵蓋豐富的標(biāo)準(zhǔn)詞匯,創(chuàng)建一個(gè)二維數(shù)組來存儲(chǔ)編輯距離的計(jì)算結(jié)果,該二維數(shù)組的行對(duì)應(yīng)目標(biāo)文本中的單詞,列對(duì)應(yīng)拼寫詞典中的標(biāo)準(zhǔn)詞匯,基于將二維數(shù)組第一行和第一列的值根據(jù)邊界條件進(jìn)行初始化的方式,將二維數(shù)組中各元素初始化,隨后從目標(biāo)文本分詞后的單詞列表中,按順序逐個(gè)取出單詞進(jìn)行編輯距離計(jì)算,對(duì)于每個(gè)取出的單詞,要遍歷拼寫詞典中的每一個(gè)標(biāo)準(zhǔn)詞匯,計(jì)算它們之間的編輯距離,將目標(biāo)文本單詞設(shè)為word1,標(biāo)準(zhǔn)詞匯設(shè)為word2,通過比較word1和word2的字符來逐步計(jì)算編輯距離;

32、設(shè)二維數(shù)組為dp[i][j],其中i表示word1中當(dāng)前對(duì)比到的字符位置,從0開始計(jì)數(shù),初始為0,j表示word2中當(dāng)前對(duì)比到的字符位置,同樣從0開始計(jì)數(shù),初始為0,計(jì)算dp[i][j]時(shí),分為插入操作、刪除操作和替換操作,三種情況:

33、對(duì)于插入操作:如果word1的前i個(gè)字符與word2的前j-1個(gè)字符已經(jīng)對(duì)齊,那么在word1中插入word2的第j個(gè)字符就使它們對(duì)齊,此時(shí)dp[i][j]=dp[i][j-1]+1,即在前一狀態(tài)的基礎(chǔ)上加上1,前一狀態(tài)是指對(duì)比到word2的第j-1個(gè)字符時(shí)的編輯距離,表示進(jìn)行了一次插入操作;

34、對(duì)于刪除操作:若word1的前i-1個(gè)字符與word2的前j個(gè)字符已對(duì)齊,那么刪除word1的第i個(gè)字符可使它們對(duì)齊,此時(shí)dp[i][j]=dp[i-1][j]+1,也就是在前一狀態(tài):對(duì)比到word1的第i-1個(gè)字符時(shí)的編輯距離,基礎(chǔ)上添加1,代表執(zhí)行了一次刪除操作;

35、對(duì)于替換操作:當(dāng)word1的前i-1個(gè)字符與word2的前j-1個(gè)字符已對(duì)齊時(shí),如果word1的第i個(gè)字符和word2的第j個(gè)字符相同,那么dp[i][j]=dp[i-1][j-1];若不同,則dp[i][j]=dp[i-1][j-1]+1,表示進(jìn)行了一次替換操作,在前一狀態(tài)基礎(chǔ)上根據(jù)字符是否相同決定是否加1。

36、優(yōu)選的,從目標(biāo)文本分詞后的單詞列表中,按順序逐個(gè)取出單詞進(jìn)行編輯距離計(jì)算的過程還包括:通過比較插入操作、刪除操作和替換操作這三種情況,選擇其中最小值作為dp[i][j]的當(dāng)前值,即:

37、dp[i][j]=min(dp[i][j-1]+1,dp[i-1][j]+1,dp[i-1][j-1]+(word1[i]!=word2[j]));其中(word1[i]!=word2[j])表達(dá)式在字符不同時(shí)返回1,相同時(shí)返回0,由此,從dp[0][0]開始,逐步計(jì)算整個(gè)二維數(shù)組中對(duì)應(yīng)位置的編輯距離值,不斷更新,直到對(duì)比完word1和word2的所有字符,此時(shí)二維數(shù)組中對(duì)應(yīng)的dp[m][n]就是word1和word2的編輯距離,m、n分別為word1和word2的最后一個(gè)字符位置,重復(fù)單詞遍歷文本以及逐字符對(duì)比計(jì)算,直至目標(biāo)文本中所有單詞都與拼寫詞典中的每一個(gè)標(biāo)準(zhǔn)詞匯完成編輯距離的計(jì)算,二維數(shù)組中也就記錄下了所有單詞與標(biāo)準(zhǔn)詞匯兩兩之間的編輯距離值,從二維數(shù)組中提取出每個(gè)目標(biāo)文本單詞與拼寫詞典中各標(biāo)準(zhǔn)詞匯的編輯距離結(jié)果,形成便于后續(xù)分析的數(shù)據(jù)結(jié)構(gòu);

38、通過實(shí)驗(yàn)、經(jīng)驗(yàn)的方式來確定編輯距離閾值,將編輯距離閾值設(shè)定為2或3,對(duì)于每個(gè)目標(biāo)文本單詞,查看其與拼寫詞典中所有標(biāo)準(zhǔn)詞匯的編輯距離,如果存在編輯距離小于等于編輯距離閾值的情況,那么目標(biāo)文本單詞被認(rèn)定為可能是拼寫錯(cuò)誤單詞,則通過人工結(jié)合上下文進(jìn)行確認(rèn);若編輯距離大于編輯距離閾值,則目標(biāo)文本單詞是拼寫錯(cuò)誤或者是非常生僻、未被詞典收錄的詞匯,則通過人工進(jìn)行查閱資料確認(rèn)。

39、優(yōu)選的,大型語言模型通過比較文本特征與已知語言的典型特征,計(jì)算相似度得分,將文本歸類到最相似的語言類別的過程包括:

40、按照特征提取方法:字符級(jí)特征、詞匯級(jí)特征、語法結(jié)構(gòu)特征,對(duì)待識(shí)別的目標(biāo)文本進(jìn)行特征提取,包括:統(tǒng)計(jì)目標(biāo)文本中各個(gè)字符的出現(xiàn)頻率,計(jì)算二元字符組、三元字符組合的出現(xiàn)頻次,識(shí)別文本中常見詞匯的出現(xiàn)情況,確定像停用詞、高頻詞在文本中的占比,同時(shí),分析文本中體現(xiàn)出的詞序、詞性搭配,并將特征信息整理成相應(yīng)的特征向量;

41、通過對(duì)大量標(biāo)注好語言類別的文本數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì)和處理,獲取已知語言的典型特征,對(duì)于待識(shí)別文本的特征向量a和已知語言的典型特征向量b,通過計(jì)算它們夾角的余弦值來衡量相似度,計(jì)算公式為:

42、;

43、其中,n是特征向量的維度(如上述的100維),ai和bi分別是向量a和b在第i個(gè)維度上的值,余弦相似度的值范圍在[-1,1]之間,越接近1表示兩個(gè)向量越相似,

44、基于余弦值相似度計(jì)算公式,將待識(shí)別文本的特征向量依次與所有已知語言的典型特征向量進(jìn)行計(jì)算,對(duì)計(jì)算得到的與各個(gè)已知語言的相似度得分進(jìn)行比較,找出其中得分最高的那個(gè)語言類別對(duì)應(yīng)的相似度得分,進(jìn)行初步判定文本所屬的語言類別,設(shè)定相似度得分的閾值為0.7,如果所有計(jì)算得到的相似度得分都低于這個(gè)閾值,那么說明該文本的特征與已知語言的典型特征差異大,無法準(zhǔn)確歸類,此時(shí)標(biāo)記為“未知語言”或者采取人工介入判斷;

45、如果待識(shí)別文本與兩種語言的相似度得分非常接近且都高于相似度得分的閾值,那么結(jié)合其他輔助信息或者進(jìn)一步細(xì)化的特征分析來確定最終的語言類別。

46、本發(fā)明提供了一種基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng),具備以下有益效果:

47、該基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng),通過運(yùn)用多種自然語言處理技術(shù)和模型訓(xùn)練方法,在翻譯過程中能有效處理拼寫錯(cuò)誤、語法錯(cuò)誤及標(biāo)點(diǎn)符號(hào)不規(guī)范的問題,為用戶提供高質(zhì)量譯文,節(jié)省用戶在文本預(yù)處理和譯文校對(duì)上的時(shí)間和精力。

48、該基于大型語言模型的多學(xué)科學(xué)術(shù)論文語言翻譯系統(tǒng),通過語料庫收集多學(xué)科豐富且具代表性的學(xué)術(shù)論文雙語對(duì)照數(shù)據(jù)及元數(shù)據(jù),雙語對(duì)齊和標(biāo)注技術(shù)為大型語言模型提供了全面準(zhǔn)確的語言特征信息,使其在翻譯過程中能更好地理解學(xué)科特定語境和術(shù)語,從而生成更符合學(xué)術(shù)要求的準(zhǔn)確譯文;并且基于語料庫涵蓋多個(gè)學(xué)科領(lǐng)域,且不斷更新,能緊跟學(xué)術(shù)發(fā)展前沿,確保系統(tǒng)對(duì)各學(xué)科專業(yè)術(shù)語和表達(dá)的翻譯專業(yè)性,滿足不同學(xué)科用戶的翻譯需求。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1