本公開涉及云計算領(lǐng)域,尤其涉及一種頁面文本核對方法、裝置、電子設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、隨著云計算的發(fā)展,多語言國際化版本的云平臺需求日益增多,因此為保證不同語言的頁面文字正確,需要對頁面文本進行核對。相關(guān)技術(shù)中通常在平臺開發(fā)完成后,通過人工核對的方式對頁面翻譯文本進行核對,這使得核對結(jié)果的準確度只能取決于核對人員的專業(yè)素養(yǎng),核對準確度難以保證,同時核對效率較低。
技術(shù)實現(xiàn)思路
1、本公開提供一種頁面文本核對方法、裝置、電子設(shè)備、介質(zhì)及產(chǎn)品,以解決相關(guān)技術(shù)中的問題,提高文本核對效率和文本核對的準確度。
2、本公開的第一方面實施例提出了一種頁面文本核對方法,該方法包括:基于頁面的元素標簽,確定頁面的文本類型;基于文本類型,確定頁面的第一文本;基于頁面的參數(shù)信息,確定頁面的語言環(huán)境;基于第一文本和語言環(huán)境,利用預設(shè)標準庫,對頁面的第一文本進行核對。
3、在本公開的一些實施例中,基于頁面的元素標簽,確定文本類型包括:當元素標簽包括圖像標簽時,確定文本類型為圖像文本類型;當元素標簽包括截斷標簽時,確定文本類型為截斷文本類型;當元素標簽不包括圖像標簽和截斷標簽時,確定文本類型為常規(guī)文本類型。
4、在本公開的一些實施例中,基于文本類型,確定頁面的第一文本包括:當文本類型為圖像文本類型時,獲取頁面預設(shè)區(qū)域的區(qū)域截圖,以利用圖像處理算法,確定第一文本;當文本類型為截斷文本類型時,提取頁面文本中包含的目標文字,以確定第一文本;當文本類型為常規(guī)文本類型時,基于頁面文本包含的標點符號,對頁面文本進行拆分,以確定第一文本。
5、在本公開的一些實施例中,獲取頁面預設(shè)區(qū)域的區(qū)域截圖,以利用圖像處理算法,確定第一文本包括:基于區(qū)域截圖,利用預設(shè)圖像處理模型,確定區(qū)域截圖的預測文本邊界和預測文本區(qū)域?qū)奈谋靖怕?;基于預測文本邊界和文本概率,利用預設(shè)文本概率閾值和非極大抑制算法,確定目標文本邊界;基于目標文本邊界,利用圖像識別算法,確定第一文本。
6、在本公開的一些實施例中,獲取頁面預設(shè)區(qū)域的區(qū)域截圖,以利用圖像處理算法,確定第一文本包括:基于區(qū)域截圖,利用預設(shè)圖像處理模型,確定區(qū)域截圖的預測文本邊界和預測文本區(qū)域?qū)奈谋靖怕剩换陬A測文本邊界和文本概率,利用預設(shè)文本概率閾值和非極大抑制算法,確定目標文本邊界;基于目標文本邊界,利用圖像識別算法,確定第一文本。
7、在本公開的一些實施例中,基于頁面的參數(shù)信息,確定頁面的語言環(huán)境包括:基于頁面的接口請求頭參數(shù)和/或頁面路由路徑參數(shù),確定頁面的語言環(huán)境。
8、在本公開的一些實施例中,基于第一文本和語言環(huán)境,利用預設(shè)標準庫,對頁面的第一文本進行核對包括:基于語言環(huán)境和預設(shè)標準庫中的第一數(shù)據(jù)類型字段,確定預設(shè)標準庫中與語言環(huán)境對應的第一數(shù)據(jù);遍歷第一數(shù)據(jù),確定是否存在與第一文本匹配的第一數(shù)據(jù);當存在與第一文本匹配的第一數(shù)據(jù)時,確定第一文本翻譯正確;當不存在與第一文本匹配的第一數(shù)據(jù)時,確定第一文本翻譯異常,并利用預設(shè)翻譯庫對第一數(shù)據(jù)進行核對,預設(shè)翻譯庫中第二數(shù)據(jù)的數(shù)據(jù)量大于或等于預設(shè)標準庫中第一數(shù)據(jù)的數(shù)據(jù)量。
9、在本公開的一些實施例中,利用預設(shè)翻譯庫對第一數(shù)據(jù)進行核對包括:基于語言環(huán)境和預設(shè)翻譯庫中的第二數(shù)據(jù)類型字段,確定預設(shè)翻譯庫中與語言環(huán)境對應的第二數(shù)據(jù);遍歷第二數(shù)據(jù),確定是否存在與第一文本匹配的第二數(shù)據(jù);當存在與第一文本匹配的第二數(shù)據(jù)時,基于匹配的第二數(shù)據(jù)的數(shù)據(jù)標識字段,查詢第一數(shù)據(jù),以確定第一文本是否翻譯正確;當不存在與第一文本匹配的第二數(shù)據(jù)時,確定第一文本翻譯錯誤。
10、在本公開的一些實施例中,基于匹配的第二數(shù)據(jù)的數(shù)據(jù)標識字段,查詢第一數(shù)據(jù),以確定第一文本是否翻譯正確包括:遍歷第一數(shù)據(jù),以確定第一數(shù)據(jù)中是否包含標識字段;當?shù)谝粩?shù)據(jù)包含標識字段時,判定第二數(shù)據(jù)翻譯存在錯誤,修改第二數(shù)據(jù);當?shù)谝粩?shù)據(jù)不包含標識字段時,更新預設(shè)標準庫和/或預設(shè)翻譯庫。
11、本公開的第二方面實施例提出了一種頁面文本核對裝置,該裝置包括:第一確定單元,用于基于頁面的元素標簽,確定頁面的文本類型;第二確定單元,用于基于文本類型,確定頁面的第一文本;第三確定單元,用于基于頁面的參數(shù)信息,確定頁面的語言環(huán)境;
12、核對單元,用于基于第一文本和語言環(huán)境,利用預設(shè)標準庫,對頁面的第一文本進行核對。
13、本公開的第三方面實施例提出了一種電子設(shè)備,包括:處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器,其中,處理器用于運行計算機程序時,執(zhí)行本公開第一方面實施例中描述的方法。
14、本公開的第四方面實施例提出了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,計算機指令用于使計算機執(zhí)行本公開第一方面實施例中描述的方法。
15、本公開的第五方面實施例提出了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現(xiàn)本公開第一方面實施例中描述的方法。
16、綜上,根據(jù)本公開提出的頁面文本核對方法,包括:基于頁面的元素標簽,確定頁面的文本類型;基于文本類型,確定頁面的第一文本;基于頁面的參數(shù)信息,確定頁面的語言環(huán)境;基于第一文本和語言環(huán)境,利用預設(shè)標準庫,對頁面的第一文本進行核對。本公開的方法通過確定文本類型,以根據(jù)不同的文本類型,采用不同的方式確定第一文本,提高了文本提取的準確度,并利用預設(shè)標準庫對第一文本進行核對,提高了文本核對的準確度。
1.一種頁面文本核對方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于頁面的元素標簽,確定所述頁面的文本類型包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述基于所述文本類型,確定所述頁面的第一文本包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取頁面預設(shè)區(qū)域的區(qū)域截圖,以利用圖像處理算法,確定所述第一文本包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述頁面的參數(shù)信息,確定所述頁面的語言環(huán)境包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一文本和所述語言環(huán)境,利用預設(shè)標準庫,對所述頁面的第一文本進行核對包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述利用預設(shè)翻譯庫對所述第一數(shù)據(jù)進行核對包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述基于所述匹配的第二數(shù)據(jù)的數(shù)據(jù)標識字段,查詢所述第一數(shù)據(jù),以確定所述第一文本是否翻譯正確包括:
9.一種頁面文本核對裝置,其特征在于,所述裝置包括:
10.一種電子設(shè)備,其特征在于,包括:處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器,
11.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其特征在于,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-8中任一項所述的方法。
12.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-8中任一項所述的方法。