本發(fā)明涉及表格數(shù)據生成,具體涉及一種利用混合生成式對抗網絡的流水數(shù)據生成方法。
背景技術:
::1、在大數(shù)據與人工智能快速發(fā)展的背景下,金融行業(yè)正經歷深刻變革。金融數(shù)據作為核心資源,涉及用戶個人信息、賬戶記錄、交易流水等敏感內容,廣泛應用于客戶管理、風險控制、市場營銷、反欺詐等場景。其高敏感性和高價值性使其面臨隱私保護與系統(tǒng)性風險的雙重挑戰(zhàn)。一旦泄露或遭破壞,可能對用戶、機構甚至金融市場的穩(wěn)定性造成嚴重影響。因此,保護金融數(shù)據安全已成為行業(yè)共識和研究重點。2、同時,金融機構對海量客戶與交易數(shù)據的安全性、完整性、保密性有著極高要求。這些數(shù)據支持風險評估、信用評估、市場分析等關鍵業(yè)務。然而,隨著隱私保護法規(guī)日趨嚴格,數(shù)據獲取和使用愈加困難,導致數(shù)據孤島和信息不對稱現(xiàn)象加劇,限制了數(shù)據分析能力與競爭力。如何在確保合規(guī)與隱私保護的前提下高效利用數(shù)據,是金融行業(yè)亟待解決的核心問題。3、合成數(shù)據是一種不直接映射真實個人信息的數(shù)據形式,能夠自由使用、共享和存儲,有效避免隱私泄露風險。相比傳統(tǒng)方法,基于深度學習的合成數(shù)據技術更能保留數(shù)據的統(tǒng)計與結構特征,更好滿足金融科技產品與模型訓練需求。其應用涵蓋客戶分析、信用決策、風險管理、反欺詐等場景,顯著提升數(shù)據利用效率,同時降低法律與道德風險。4、目前,表格數(shù)據生成模型通常分為兩種思路:5、其中一種是基于似然的生成方法。該方法使用對數(shù)似然或者合適的替代作為訓練目標,且必須使用特定的架構構建歸一化的概率模型(自回歸模型、flow?models)或使用替代的損失(vae)。對于給定的一個數(shù)據集{x1,x2,…,xn}服從某分布p(x),目標是訓練一個生成器去近似該分布。最后通過從該近似分布中采樣,以獲取生成數(shù)據x’。變分自動編碼器(vae,variational?auto?encoder)、基于流的模型和擴散模型(diffusion?model)即是基于似然的方法。vae包括2個相似的網絡,即一個編碼器和一個解碼器,編碼器接收輸入并將其轉換為維度更小的表示形式,解碼器可以使用該表示形式將其轉換為原始輸入。它們將輸入轉換到的潛在空間以及它們的編碼向量所在的空間可能不是連續(xù)的。為解決這個問題,變分自動編碼器具備連續(xù)的潛在空間特性,從而使隨機采樣和插值操作變得更加便捷。flow-based?model則是直接計算概率分布,由一系列的可逆函數(shù)fi,以及每個fi的逆和雅可比矩陣行列式組成。擴散模型是受非平衡熱力學啟發(fā)的一種模型,該模型定義一個馬爾可夫鏈,逐漸向數(shù)據添加隨機噪聲,然后學習逆擴散過程,從噪聲中構建所需的數(shù)據樣本。針對表格數(shù)據產生了諸如tvae、ddpm等變體模型。6、另一種是基于對抗的生成方法,其中生成式對抗網絡(gan,generativeadversarial?networks)是其中最具有代表性的模型,gan是一種以隨機噪聲為輸入并生成輸出的無監(jiān)督模型,通過生成器和鑒別器互相對抗、互相學習,并行地訓練。生成對抗網絡也在針對表格數(shù)據出現(xiàn)了很多變體模型,如medgan、tablegan、ctgan、ctab-gan、ctab-gan+等。7、然而,現(xiàn)有的表格數(shù)據生成技術在生成交易流水數(shù)據時,通常只能還原特征的分布,而忽略了交易流水數(shù)據集中的結構信息。具體而言,用戶往往會與同一商戶間產生大量重復交易,而現(xiàn)有基于生成對抗網絡(gan)的表格數(shù)據生成模型通常無法有效捕捉這種重復特征,僅能還原數(shù)值上的分布特征,導致生成的交易流水數(shù)據與實際數(shù)據存在實質性差異,進而影響了基于生成數(shù)據的相關評估分析的準確性。技術實現(xiàn)思路1、本發(fā)明是為解決上述問題而進行的,目的在于提供一種能夠生成既保留數(shù)據分布特征又具備真實交易結構的高質量合成數(shù)據的交易流水數(shù)據生成方法,本發(fā)明采用了如下技術方案:2、本發(fā)明提供了一種利用混合生成式對抗網絡的流水數(shù)據生成方法,該方法具有這樣的技術特征,采用混合生成式對抗網絡模型,該模型包括預處理模塊、圖生成模塊、表格數(shù)據生成模塊和整合模塊,該方法包括以下步驟:步驟s1,所述預處理模塊對原始交易流水數(shù)據中重復的交易進行聚合以及結構化,生成原始交易網絡圖;步驟s2,利用由所述原始交易網絡圖構成的數(shù)據集對所述圖生成模塊進行訓練,并通過訓練好的所述圖生成模塊生成交易網絡圖,所述表格數(shù)據生成模塊基于輸入的所述原始交易流水數(shù)據生成交易流水數(shù)據;步驟s3,所述整合模塊對所述交易網絡圖和所述交易流水數(shù)據進行整合,得到優(yōu)化的交易流水數(shù)據。3、本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,還可以具有這樣的技術特征,其中,在步驟s1中,對所述原始交易流水數(shù)據中的重復交易進行聚合,并對所述重復交易的交易次數(shù)進行計數(shù),從而得到聚合數(shù)據,將所述聚合數(shù)據中的結構信息作為節(jié)點,交易關系作為邊,所述交易次數(shù)作為所述邊的權重信息構建所述原始交易網絡圖。4、本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,還可以具有這樣的技術特征,其中,所述重復交易為同一組用戶識別號和商戶識別號之間的多次交易,所述結構信息包括所述用戶識別號和所述商戶識別號,所述交易關系至少包括交易金額、交易時間、交易類型。5、本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,還可以具有這樣的技術特征,其中,所述圖生成模塊包括:采樣單元,對所述原始交易網絡圖進行采樣,得到真實隨機游走序列;以及生成器和鑒別器,基于所述真實隨機游走序列以及所述生成器的生成結果進行交替學習,以使所述生成器捕捉所述原始交易網絡圖中的拓撲結構特征。6、本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,還可以具有這樣的技術特征,其中,在每一個訓練輪次,對所述生成器輸入隨機噪聲,使用所述生成器生成游走序列,計算生成該游走序列的損失函數(shù),并基于相應損失更新所述生成器的參數(shù),在每一個所述訓練輪次,所述采樣單元抽取所述真實隨機游走序列,將所述真實隨機游走序列和所述生成器生成的所述游走序列輸入所述鑒別器,計算所述鑒別器的損失函數(shù),并基于相應損失更新所述鑒別器的參數(shù)。7、本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,還可以具有這樣的技術特征,其中,所述采樣單元使用加權隨機游走算法對所述原始交易網絡圖進行采樣,并設定游走長度,從而得到所述真實隨機游走序列。8、本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,還可以具有這樣的技術特征,其中,在步驟s3中,所述整合模塊將生成的所述交易網絡圖中各邊的權重信息與生成的所述交易流水數(shù)據中的交易次數(shù)信息相匹配,從而將所述圖生成模塊與所述表格數(shù)據生成模塊的生成結果相結合,得到結合數(shù)據。9、本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,還可以具有這樣的技術特征,其中,在步驟s2中,所述表格數(shù)據生成模塊基于輸入的所述聚合數(shù)據生成所述交易流水數(shù)據,在步驟s3中,所述整合模塊還對所述結合數(shù)據中的聚合的邊進行拆分,從而得到所述優(yōu)化的交易流水數(shù)據。10、發(fā)明的作用與效果11、根據本發(fā)明提供的利用混合生成式對抗網絡的流水數(shù)據生成方法,對原始交易流水數(shù)據中的重復交易進行了聚合并將其結構化,生成原始交易網絡圖,將其用于圖生成模塊的訓練,因此圖生成模塊能夠學習到真實交易網絡結構中的拓撲結構特征,生成接近真實的交易網絡結構;進一步,由于分別通過圖生成模塊和表格數(shù)據生成模塊生成了交易網絡圖和交易流水數(shù)據,再將其進行整合得到優(yōu)化后的數(shù)據,通過兩個模塊的有機結合,能夠生成既保留數(shù)據分布特征又具備真實交易結構的高質量合成數(shù)據,彌補了現(xiàn)有的深度學習模型難以捕捉交易流水數(shù)據的結構特征性的短板,進一步提高了交易流水數(shù)據的合成質量。當前第1頁12當前第1頁12