本發(fā)明涉及信息處理領(lǐng)域,具體是一種基于區(qū)塊鏈的檔案檢索方法及系統(tǒng)。
背景技術(shù):
1、區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲、點對點傳輸、共識機制、加密算法計算機技術(shù)的新型應(yīng)用模式。區(qū)塊鏈本質(zhì)上是一個去中心化的數(shù)據(jù)庫,是一串使用密碼學(xué)方法相關(guān)聯(lián)產(chǎn)生的數(shù)據(jù)塊,每一個數(shù)據(jù)塊中包含了一批次網(wǎng)絡(luò)交易的信息,用于驗證其信息的有效性(防偽)和生成下一個區(qū)塊。
2、目前針對區(qū)塊鏈的檢索過程中,當(dāng)用戶輸入關(guān)鍵字后,通常需要讀取鏈上存取的檔案的所有信息,有些不相關(guān)的檔案也需要整個遍歷,帶來極大不便,或是目前的檢索不夠精細(xì)化。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于區(qū)塊鏈的檔案檢索方法及系統(tǒng),用以解決上述提到的問題:
2、本發(fā)明提出的一種基于區(qū)塊鏈的檔案檢索方法,所述方法包括:
3、形成檔案的電子文件即電子檔案,將所述電子檔案拆分為索引信息和全文信息,分別放置在索引鏈和全文信息鏈上;
4、接收用戶檢索請求,通過智能合約計算所述檢索請求與檔案條目的匹配程度,返回與用戶檢索請求最相關(guān)的檔案的索引信息的列表;
5、根據(jù)索引信息定位到電子檔案的全文信息,并通過智能合約驗證檔案,驗證通過,返回驗證成功且與檢索條件匹配度最相關(guān)的檔案全文信息列表給用戶。
6、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索方法,形成檔案的電子文件即電子檔案,將所述電子檔案拆分為索引信息和全文信息,分別放置在索引鏈和全文信息鏈上,包括:
7、形成電子檔案,從每個電子檔案中提取索引信息,所述索引信息包括:檔案被查詢次數(shù)、電子檔案長度、檔案時間戳、檔案的修改頻率、檔案被引用的次數(shù)、檔案被查詢次數(shù)、檔案最近一次修改的時間和檔案摘要,將所述索引信息放置在索引鏈上;
8、計算電子檔案的哈希值,將所述電子檔案的全文信息和哈希值一起放置在信息鏈上,在索引鏈的每個區(qū)塊中,保留指向信息鏈中對應(yīng)全文信息的指針。
9、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索方法,接收用戶檢索請求,通過智能合約計算所述檢索請求與檔案條目的匹配程度,返回與用戶檢索請求最相關(guān)的檔案列表,包括:
10、接收來自用戶的檢索請求,所述檢索請求包含用戶希望查詢的關(guān)鍵詞或短語;
11、對檢索請求進(jìn)行預(yù)處理,所述預(yù)處理包括去除停用詞和分詞;
12、智能合約通過檔案相關(guān)性模型計算索引鏈上的索引信息與用戶檢索請求的匹配程度;
13、根據(jù)匹配程度計算結(jié)果,通過索引優(yōu)化模型對所有候選檔案的索引信息條目進(jìn)行排序,確保最相關(guān)的檔案的索引信息條目排在前面。
14、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索方法,所述檔案相關(guān)性模型,包括:
15、所述檔案相關(guān)性模型為:
16、
17、其中,w是檔案的相關(guān)性,f是電子檔案索引信息的摘要中的關(guān)鍵詞出現(xiàn)頻率,t0是接收到檢索請求時的時間,t是檔案的時間戳,l是電子檔案的長度,α、β和θ是權(quán)重系數(shù)。
18、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索方法,所述索引優(yōu)化模型,包括:
19、所述索引優(yōu)化模型為:
20、
21、其中,p表示排序的優(yōu)先級,λ、μ和ν是控制各個部分貢獻(xiàn)的權(quán)重系數(shù),可以根據(jù)檢索需求進(jìn)行調(diào)整,wq和ws分別代表該檔案查詢次數(shù)和用戶偏好的權(quán)重,q和s分別代表查詢次數(shù)和用戶偏好統(tǒng)計,qmax和smax分別是q和s的最大期望值,t代表文檔的新鮮度,即最近一次修改距現(xiàn)在的時間,tmax是t的最大值,用于t的歸一化,mr是一個組合因子,考慮了修改頻率和引用次數(shù),mrmax是其最大期望值,κ是一個用于調(diào)整mr影響力的非線性系數(shù)。
22、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索方法,根據(jù)索引信息定位到電子檔案的全文信息,并通過智能合約驗證檔案,驗證通過,返回驗證成功且與檢索條件匹配度最相關(guān)的檔案全文信息列表給用戶,包括:
23、根據(jù)索引信息中指向全文信息的指針定位到電子檔案的全文信息;
24、通過智能合約比對檔案內(nèi)容的哈希值與存儲在區(qū)塊鏈上的哈希值;
25、若比對一致,返回檔案全文信息列表給用戶。
26、本發(fā)明提出的一種基于區(qū)塊鏈的檔案檢索系統(tǒng),所述系統(tǒng)包括:
27、生成電子檔案模塊,用于形成檔案的電子文件即電子檔案,將所述電子檔案拆分為索引信息和全文信息,分別放置在索引鏈和全文信息鏈上;
28、檢索索引信息模塊,用于接收用戶檢索請求,通過智能合約計算所述檢索請求與檔案條目的匹配程度,返回與用戶檢索請求最相關(guān)的檔案的索引信息的列表;
29、返回全文信息模塊,用于根據(jù)索引信息定位到電子檔案的全文信息,并通過智能合約驗證檔案,驗證通過,返回驗證成功且與檢索條件匹配度最相關(guān)的檔案全文信息列表給用戶。
30、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索系統(tǒng),所述生成電子檔案模塊包括:
31、生成索引鏈模塊,用于形成電子檔案,從每個電子檔案中提取索引信息,所述索引信息包括:檔案被查詢次數(shù)、電子檔案長度、檔案時間戳、檔案的修改頻率、檔案被引用的次數(shù)、檔案被查詢次數(shù)、檔案最近一次修改的時間和檔案摘要,將所述索引信息放置在索引鏈上;
32、生成信息鏈模塊,用于計算電子檔案的哈希值,將所述電子檔案的全文信息和哈希值一起放置在信息鏈上,在索引鏈的每個區(qū)塊中,保留指向信息鏈中對應(yīng)全文信息的指針。
33、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索系統(tǒng),所述檢索索引信息模塊包括:
34、接收檢索請求模塊,用于接收來自用戶的檢索請求,所述檢索請求包含用戶希望查詢的關(guān)鍵詞或短語;
35、預(yù)處理模塊,用于對檢索請求進(jìn)行預(yù)處理,所述預(yù)處理包括去除停用詞和分詞;
36、篩選相關(guān)檔案模塊,智能合約通過檔案相關(guān)性模型計算索引鏈上的索引信息與用戶檢索請求的匹配程度;
37、排序模塊,用于根據(jù)匹配程度計算結(jié)果,通過索引優(yōu)化模型對所有候選檔案的索引信息條目進(jìn)行排序,確保最相關(guān)的檔案的索引信息條目排在前面。
38、進(jìn)一步的,一種基于區(qū)塊鏈的檔案檢索系統(tǒng),所述返回全文信息模塊包括:
39、定位全文信息模塊,用于根據(jù)索引信息中指向全文信息的指針定位到電子檔案的全文信息;
40、比對哈希值驗證模塊,用于通過智能合約比對檔案內(nèi)容的哈希值與存儲在區(qū)塊鏈上的哈希值;
41、一致后返回模塊,用于若比對一致時,返回檔案全文信息列表給用戶。
42、通過使用區(qū)塊鏈和智能合約,檔案的存儲和檢索過程增加了透明度和不可篡改性,每次檔案的訪問和修改都會被記錄,減少了數(shù)據(jù)篡改和偽造的風(fēng)險;
43、將索引信息和全文信息分別存儲可以加快檢索速度,用戶可以快速獲取到與檢索請求最相關(guān)的檔案列表,而不需要下載和查看每個檔案的全文信息來判斷相關(guān)性;智能合約可以根據(jù)復(fù)雜的算法來計算檢索請求與檔案的匹配度,提供更為精準(zhǔn)的檢索結(jié)果,此外,智能合約還能確保檔案的驗證過程是公平和透明的,增加了檢索結(jié)果的可信度,用戶可以更快地找到所需的檔案,并且對檔案的真實性和完整性有更高的信心,該方案還支持對檔案的安全訪問和使用,提升了用戶的整體體驗。