本發(fā)明涉及文本簡(jiǎn)化,具體是基于多模態(tài)數(shù)據(jù)融合的英語分級(jí)閱讀文本簡(jiǎn)化方法及系統(tǒng)。
背景技術(shù):
1、多模態(tài)數(shù)據(jù)融合技術(shù)是指將不同來源,不同形式的信息進(jìn)行整合與分析的技術(shù),這些模態(tài)可以包括文本、音頻、圖像,傳輸器數(shù)據(jù)等,其核心在于可以利用不同模態(tài)數(shù)據(jù)之間的互補(bǔ)性,去彌補(bǔ)單一模態(tài)信息的局限性,將多模態(tài)數(shù)據(jù)融合技術(shù)應(yīng)用在英語分級(jí)文本簡(jiǎn)化領(lǐng)域,包括但不限于以下幾點(diǎn)好處:1、增加學(xué)習(xí)者的閱讀興趣,多模態(tài)融合能夠?qū)⒖菰锏奈淖謨?nèi)容轉(zhuǎn)化為學(xué)習(xí)感興趣的內(nèi)容,增加學(xué)習(xí)者的閱讀興趣;2、更好的文化和情感傳遞,多模態(tài)數(shù)據(jù)可以更好地對(duì)文本背景和情感信息進(jìn)行傳遞,更加有助于學(xué)習(xí)者全面的對(duì)英語進(jìn)行理解。
2、傳統(tǒng)的對(duì)英語分級(jí)閱讀文本進(jìn)行簡(jiǎn)化過程中,是根據(jù)讀者所在年級(jí)或者英語測(cè)試水平,來判定讀者的具體英語水平,但是實(shí)際上這種方式卻存在著很大的問題,不同讀者即使詞匯量大致相同,但是具體所認(rèn)識(shí)的單詞,對(duì)長(zhǎng)難句的掌握程度卻各不相同,傳統(tǒng)方法無法根據(jù)實(shí)際英語水平來對(duì)讀者進(jìn)行分級(jí),并且不同讀者在不同階段適合的英語文本也各不相同,現(xiàn)有的方法既無法對(duì)讀者的閱讀水平進(jìn)行個(gè)性化的分析,也無法為其選擇合適的英語文本,更無法根據(jù)讀者水平對(duì)英語文本進(jìn)行修改簡(jiǎn)化,不僅僅會(huì)導(dǎo)致讀者的閱讀與實(shí)際能力不相符的英語文本,甚至還會(huì)導(dǎo)致讀者產(chǎn)生嚴(yán)重厭惡情緒,失去對(duì)閱讀的主動(dòng)性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供基于多模態(tài)數(shù)據(jù)融合的英語分級(jí)閱讀文本簡(jiǎn)化方法及系統(tǒng),以解決現(xiàn)有技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于多模態(tài)數(shù)據(jù)融合的英語分級(jí)閱讀文本簡(jiǎn)化方法,方法包括:
3、步驟s100:獲取讀者的歷史文本閱讀記錄,從歷史文本閱讀記錄中獲取歷史答題數(shù)據(jù),評(píng)估讀者在當(dāng)前周期內(nèi)的英文知識(shí)掌握水平,得到英語掌握數(shù)據(jù);
4、步驟s200:獲取其他讀者的歷史英語掌握數(shù)據(jù),獲取讀者的英語掌握數(shù)據(jù),評(píng)估其他讀者對(duì)讀者的閱讀參考價(jià)值,得到參考讀者;
5、步驟s300:獲取參考讀者的歷史文本閱讀數(shù)據(jù)和歷史英語掌握數(shù)據(jù),獲取英語掌握數(shù)據(jù),評(píng)估歷史文本閱讀數(shù)據(jù)中的閱讀文本與讀者之間的文本適配性,得到目標(biāo)文本數(shù)據(jù);
6、步驟s400:獲取讀者的目標(biāo)文本數(shù)據(jù),結(jié)合英語掌握數(shù)據(jù),對(duì)目標(biāo)文本數(shù)據(jù)中的目標(biāo)閱讀文本進(jìn)行簡(jiǎn)化,并將簡(jiǎn)化后的目標(biāo)閱讀文本向讀者進(jìn)行推送。
7、進(jìn)一步的,步驟s100包括:
8、步驟s101:對(duì)讀者的各個(gè)歷史文本閱讀記錄進(jìn)行獲取,從歷史文本閱讀記錄中獲取歷史答題數(shù)據(jù),歷史答題數(shù)據(jù)包括,歷史文本閱讀記錄中的閱讀文本內(nèi)的各個(gè)題目的正確率,獲取各個(gè)題目所涉及的若干項(xiàng)知識(shí)點(diǎn);
9、步驟s102:獲取各個(gè)題目中的某一個(gè)題目所涉及的知識(shí)點(diǎn),某一個(gè)題目的正確率大于預(yù)設(shè)的正確率閾值,將題目記為特征題目,并將歷史文本閱讀記錄,記為知識(shí)點(diǎn)的標(biāo)記歷史文本閱讀記錄;
10、步驟s103:評(píng)估讀者在當(dāng)前周期內(nèi)的英語知識(shí)掌握水平,具體評(píng)估過程為:
11、獲取歷史文本閱讀記錄中的若干個(gè)特征題目所涉及的文本內(nèi)容,并對(duì)文本內(nèi)容中的各個(gè)單詞進(jìn)行匯集,得到讀者在歷史文本閱讀記錄中的單詞集,將讀者在各個(gè)歷史文本閱讀記錄中的單詞集取并集,得到讀者的掌握單詞集;
12、步驟s104:獲取歷史文本閱讀記錄中的閱讀文本的總詞數(shù)asum,獲取讀者在歷史文本閱讀記錄中的閱讀總時(shí)長(zhǎng)tsum,計(jì)算歷史文本閱讀記錄的標(biāo)記閱讀效率e=asum/tsum,獲取各個(gè)歷史文本閱讀記錄的標(biāo)記閱讀效率的平均值e△,計(jì)算歷史文本閱讀記錄的特征閱讀效率γ=e/e△,并對(duì)特征閱讀效率進(jìn)行歸一化處理;
13、獲取含有知識(shí)點(diǎn)的題目的若干個(gè)歷史文本閱讀記錄的總個(gè)數(shù)csum,將知識(shí)點(diǎn)的各個(gè)標(biāo)記歷史文本閱讀記錄的特征閱讀效率進(jìn)行累加,并除以總個(gè)數(shù)csum,得到知識(shí)點(diǎn)的知識(shí)掌握值;
14、當(dāng)知識(shí)掌握值,大于預(yù)設(shè)的知識(shí)掌握閾值,判定讀者對(duì)知識(shí)點(diǎn)掌握,并將知識(shí)點(diǎn)記為讀者的掌握知識(shí)點(diǎn);
15、獲取讀者的各項(xiàng)掌握知識(shí)點(diǎn)并進(jìn)行匯集,得到讀者的掌握知識(shí)集;
16、步驟s105:獲取讀者在當(dāng)前周期內(nèi)的掌握知識(shí)集和掌握單詞集,并進(jìn)行匯集,得到讀者的英語掌握數(shù)據(jù)。
17、進(jìn)一步的,步驟s200包括:
18、步驟s201:獲取閱讀平臺(tái)中的各個(gè)其他讀者和讀者的英語等級(jí),其中,當(dāng)前周期內(nèi)的各個(gè)其他讀者的英語等級(jí)均高于讀者,獲取在閱讀平臺(tái)中的其他讀者在各個(gè)歷史周期內(nèi)的歷史英語掌握數(shù)據(jù),從歷史英語掌握數(shù)據(jù)中,獲取其他讀者的掌握知識(shí)集和掌握單詞集;
19、步驟s202:評(píng)估其他讀者對(duì)讀者的閱讀參考價(jià)值,具體評(píng)估過程為:
20、計(jì)算各個(gè)歷史周期內(nèi)的其他讀者與讀者之間的詞匯相仿值,其中,第α個(gè)歷史周期內(nèi)的其他讀者與讀者之間的詞匯相仿值rα=(g′α∩g)/g′α∪g,g′α為第α個(gè)歷史周期內(nèi)的其他讀者的掌握單詞集,g為讀者的掌握單詞集;
21、步驟s203:設(shè)置數(shù)值β,其中,β≠0,獲取閱讀平臺(tái)中的英語文本閱讀中的各項(xiàng)知識(shí)點(diǎn),獲取讀者的掌握知識(shí)集;
22、當(dāng)各項(xiàng)知識(shí)點(diǎn)中的某一項(xiàng)知識(shí)點(diǎn),為讀者的掌握知識(shí)集中的掌握知識(shí)點(diǎn)時(shí),將某一項(xiàng)知識(shí)點(diǎn)的特征值賦值為0,反之,則將某一項(xiàng)知識(shí)點(diǎn)的特征值賦值為β,基于讀者的掌握知識(shí)集,獲取各項(xiàng)知識(shí)點(diǎn)的特征值并進(jìn)行匯集,得到讀者的特征知識(shí)向量h;
23、步驟s204:獲取第α個(gè)歷史周期內(nèi)的其他讀者的特征知識(shí)向量h′α,計(jì)算第α個(gè)歷史周期內(nèi)的其他讀者與讀者之間的知識(shí)相仿值wα:
24、,
25、計(jì)算第α個(gè)歷史周期內(nèi)的其他讀者對(duì)讀者的閱讀參考值pα=λ1×wα+λ2×rα,其中,λ1、λ2分別為預(yù)設(shè)的第一相仿系數(shù)和第二相仿系數(shù),其中,λ1>0,λ2>0;
26、步驟s205:當(dāng)閱讀參考值pα大于預(yù)設(shè)的閱讀參考閾值,判定其他讀者對(duì)讀者具有閱讀參考價(jià)值,將其他讀者記為讀者的參考讀者,并將第α+1個(gè)歷史周期記為參考讀者與讀者的參考?xì)v史周期,獲取讀者的各個(gè)參考讀者。
27、進(jìn)一步的,步驟s300包括:
28、步驟s301:獲取讀者的參考讀者,獲取參考讀者在參考?xì)v史周期后的若干個(gè)歷史周期內(nèi)的歷史英語掌握數(shù)據(jù);
29、對(duì)參考讀者在若干個(gè)歷史周期內(nèi)的掌握變化比例進(jìn)行計(jì)算,其中,若干個(gè)歷史周期中的第δ個(gè)歷史周期內(nèi)的掌握變化比例lδ=[(g△(sum,δ)-g△(sum,δ-1))/g△(sum,δ-1)]/2×[(s△(sum,δ)-s△(sum,δ-1))/s△(sum,δ-1)]/2,其中,g△(sum,δ-1)、g△(sum,δ)分別為第δ-1個(gè)歷史周期和第δ個(gè)歷史周期內(nèi),參考讀者的掌握單詞集中的單詞的總個(gè)數(shù),s△(sum,δ-1)、s△(sum,δ)分別為第δ-1個(gè)歷史周期和第δ個(gè)歷史周期內(nèi),參考讀者的掌握知識(shí)集中的掌握知識(shí)點(diǎn)的總個(gè)數(shù);
30、獲取參考讀者在若干個(gè)歷史周期內(nèi)的掌握變化比例平均值,當(dāng)平均值大于預(yù)設(shè)的平均閾值,將參考讀者進(jìn)行保留,反之,則進(jìn)行剔除;
31、步驟s302:獲取保留的若干個(gè)參考讀者在參考?xì)v史周期內(nèi)的歷史文本閱讀數(shù)據(jù),其中,歷史文本閱讀數(shù)據(jù)包括,參考讀者在參考?xì)v史周期內(nèi)的閱讀文本,其中,閱讀文本中的內(nèi)容,為經(jīng)過人為簡(jiǎn)化后的文本內(nèi)容;
32、步驟s303:評(píng)估若干個(gè)參考讀者的歷史文本閱讀數(shù)據(jù)中的閱讀文本與讀者之間的文本適配性,具體評(píng)估過程為:
33、分別獲取若干個(gè)參考讀者在參考?xì)v史周期內(nèi)的閱讀文本,按照閱讀時(shí)間順序進(jìn)行排序并匯集,得到參考閱讀文本集;
34、獲取參考閱讀文本集中的各個(gè)閱讀文本所包含的數(shù)項(xiàng)知識(shí)點(diǎn)和數(shù)個(gè)單詞,并進(jìn)行匯集,分別得到各個(gè)閱讀文本的標(biāo)記知識(shí)點(diǎn)集和標(biāo)記單詞集;
35、計(jì)算各個(gè)閱讀文本與讀者之間的文本適配值,其中,各個(gè)閱讀文本中的第q個(gè)閱讀文本與讀者之間的文本適配值xq=1/2×[(s∩yq)/yq+(g∩kq)/kq],其中,s為讀者的掌握知識(shí)集,g為讀者的掌握單詞集,yq為第q個(gè)閱讀文本的標(biāo)記單詞集,kq為第q個(gè)閱讀文本的標(biāo)記知識(shí)點(diǎn)集;
36、當(dāng)文本適配值xq大于預(yù)設(shè)的文本適配閾值,判定讀者與第q個(gè)閱讀文本具有文本適配性,將第q個(gè)閱讀文本記為目標(biāo)閱讀文本;
37、步驟s304:獲取讀者的各個(gè)目標(biāo)閱讀文本并進(jìn)行匯集,得到讀者的目標(biāo)文本數(shù)據(jù);
38、上述步驟中通過掌握變化比例對(duì)參考讀者進(jìn)行進(jìn)一步的篩選,是因?yàn)閰⒖甲x者是存在某一歷史周期內(nèi)的英語水平與讀者相近的,但是參考讀者中有英語水平不斷提高和停滯不前的,為了有效提高讀者的英語水平,所以通過掌握變化比例,可以將通過閱讀提高英語水平的參考讀者進(jìn)行保留,后續(xù)只需要參考這些參考讀者閱讀的閱讀文本就可以有效的提高讀者的英文水平,也方便后續(xù)的閱讀計(jì)劃的制定。
39、進(jìn)一步的,步驟s400包括:
40、步驟s401:從目標(biāo)文本數(shù)據(jù)中獲取各個(gè)目標(biāo)閱讀文本,并從各個(gè)目標(biāo)閱讀文本中隨機(jī)選取若干個(gè)目標(biāo)閱讀文本,作為讀者在當(dāng)前周期內(nèi)的閱讀材料;
41、步驟s402:根據(jù)讀者的英語掌握數(shù)據(jù),對(duì)若干個(gè)目標(biāo)閱讀文本進(jìn)行簡(jiǎn)化,其中,對(duì)若干個(gè)目標(biāo)閱讀文本中的第v個(gè)目標(biāo)閱讀文本的具體簡(jiǎn)化過程為:
42、對(duì)第v個(gè)目標(biāo)閱讀文本中的標(biāo)記單詞集y′v和標(biāo)記知識(shí)點(diǎn)集k′v進(jìn)行獲取,當(dāng)?shù)趘個(gè)目標(biāo)閱讀文本中的某一段中的若干個(gè)單詞,不在標(biāo)記單詞集y′v時(shí),從讀者的英語等級(jí)對(duì)應(yīng)的單詞集合中選取同義詞進(jìn)行替換;
43、當(dāng)?shù)趘個(gè)目標(biāo)閱讀文本中的某一段中僅含有的數(shù)項(xiàng)知識(shí)點(diǎn),不在標(biāo)記知識(shí)點(diǎn)集k′v內(nèi),對(duì)某一段對(duì)應(yīng)的文本內(nèi)容進(jìn)行拆分;
44、當(dāng)?shù)趘個(gè)目標(biāo)閱讀文本中的某一段中含有的數(shù)項(xiàng)知識(shí)點(diǎn),不在標(biāo)記知識(shí)點(diǎn)集k′v內(nèi),并且某一段的若干個(gè)單詞超過預(yù)設(shè)的數(shù)量閾值,對(duì)某一段中不在讀者的英語等級(jí)對(duì)應(yīng)的單詞集合中的單詞進(jìn)行注釋,并根據(jù)某一段的文本內(nèi)容,將某一段拆分為若干短句,簡(jiǎn)化某一段的文本內(nèi)容;
45、步驟s403:獲取簡(jiǎn)化后的若干個(gè)目標(biāo)閱讀文本,并在當(dāng)前周期內(nèi)向讀者進(jìn)行推送。
46、為了更好實(shí)現(xiàn)上述方法還提出了,基于多模態(tài)數(shù)據(jù)融合的英語分級(jí)閱讀文本簡(jiǎn)化系統(tǒng),系統(tǒng)包括英語水平評(píng)估模塊、參考價(jià)值評(píng)估模塊、文本適配評(píng)估模塊、智能簡(jiǎn)化模塊;
47、英語水平評(píng)估模塊,用于對(duì)讀者在當(dāng)前周期內(nèi)的英文知識(shí)掌握水平進(jìn)行評(píng)估,得到英語掌握數(shù)據(jù);
48、參考價(jià)值評(píng)估模塊,用于對(duì)其他讀者的歷史英語掌握數(shù)據(jù)進(jìn)行獲取,并結(jié)合讀者的英語掌握數(shù)據(jù),評(píng)估其他讀者對(duì)讀者的閱讀參考價(jià)值,得到參考讀者;
49、文本適配評(píng)估模塊,用于對(duì)參考讀者的歷史文本閱讀數(shù)據(jù)進(jìn)行獲取,評(píng)估歷史文本閱讀數(shù)據(jù)中的閱讀文本與讀者之間的文本適配性,得到目標(biāo)文本數(shù)據(jù);
50、智能簡(jiǎn)化模塊,用于對(duì)目標(biāo)文本數(shù)據(jù)中的目標(biāo)閱讀文本進(jìn)行獲取,并對(duì)目標(biāo)閱讀文本進(jìn)行文本智能簡(jiǎn)化。
51、進(jìn)一步的,英語水平評(píng)估模塊包括標(biāo)記歷史文本閱讀記錄單元、英語水平評(píng)估單元;
52、標(biāo)記歷史文本閱讀記錄單元,用于根據(jù)歷史文本閱讀記錄中的某一個(gè)題目的準(zhǔn)確率,獲取某一個(gè)題目所涉及的知識(shí)點(diǎn)的標(biāo)記歷史文本閱讀記錄;
53、英語水平評(píng)估單元,用于對(duì)讀者在當(dāng)前周期內(nèi)的英文知識(shí)掌握水平進(jìn)行評(píng)估,得到讀者的英語掌握數(shù)據(jù)。
54、進(jìn)一步的,參考價(jià)值評(píng)估模塊包括閱讀參考值單元、參考價(jià)值評(píng)估單元;
55、閱讀參考值單元,用于計(jì)算各個(gè)歷史周期內(nèi)的其他讀者對(duì)讀者的閱讀參考值;
56、參考價(jià)值評(píng)估單元,用于根據(jù)閱讀參考值,評(píng)估其他讀者對(duì)讀者的閱讀參考價(jià)值,得到參考讀者。
57、進(jìn)一步的,文本適配評(píng)估模塊包括適配程度分析單元、文本適配評(píng)估單元;
58、適配程度分析單元,用于對(duì)歷史文本閱讀數(shù)據(jù)中的各個(gè)閱讀文本,與讀者之間的文本適配程度進(jìn)行分析,計(jì)算出各個(gè)閱讀文本與讀者之間的文本適配值;
59、文本適配評(píng)估單元,用于根據(jù)文本適配值,評(píng)估歷史文本閱讀數(shù)據(jù)中的閱讀文本與讀者之間的文本適配性,得到目標(biāo)文本數(shù)據(jù)。
60、進(jìn)一步的,智能簡(jiǎn)化模塊包括智能簡(jiǎn)化單元;
61、智能簡(jiǎn)化單元,用于根據(jù)讀者的英語掌握數(shù)據(jù),對(duì)目標(biāo)文本數(shù)據(jù)中的若干個(gè)目標(biāo)閱讀文本進(jìn)行智能簡(jiǎn)化,并在當(dāng)前周期內(nèi)向讀者進(jìn)行推送。
62、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明實(shí)現(xiàn)了對(duì)讀者閱讀的閱讀文本的智能簡(jiǎn)化,考慮到不同讀者的英語水平,在不準(zhǔn)確了解讀者的英語水平情況下,是無法對(duì)讀者閱讀的閱讀文本進(jìn)行簡(jiǎn)化的,因此,首先,根據(jù)讀者的歷史文本閱讀記錄,評(píng)估讀者在當(dāng)前周期內(nèi)的英語水平,即英文掌握數(shù)據(jù),當(dāng)獲取讀者的英文掌握數(shù)據(jù)后,通過評(píng)估不同歷史周期內(nèi)的其他讀者與讀者之間的英文水平的相似程度,從而找到具有參考價(jià)值的參考讀者,并分析參考讀者在歷史周期內(nèi)的閱讀文本的文本是否與讀者適配,獲取適合讀者閱讀的閱讀文本,因?yàn)檫@些閱讀文本就是已經(jīng)進(jìn)行人為簡(jiǎn)化調(diào)整后的閱讀文本了,大大節(jié)省了文本挑選和簡(jiǎn)化的時(shí)間,最后考慮到讀者可能會(huì)出現(xiàn)文本中的內(nèi)容不理解,再對(duì)閱讀文本的內(nèi)容進(jìn)行進(jìn)一步簡(jiǎn)化,不僅使得讀者可以閱讀到自己實(shí)際能力相符的,而且還增加了讀者閱讀的主動(dòng)性,有助于讀者的英語水平提高。