本發(fā)明屬于惡意軟件防護(hù)技術(shù)領(lǐng)域::,涉及一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法。背景技術(shù):::惡意軟件是指在未明確提示用戶或未經(jīng)用戶許可的情況下,故意編制或設(shè)置的,對網(wǎng)絡(luò)或系統(tǒng)會產(chǎn)生威脅或潛在威脅的計算機(jī)軟件。常見的惡意軟件有計算機(jī)**(簡稱**)、特洛伊木馬(簡稱木馬)、計算機(jī)蠕蟲(簡稱蠕蟲)、后門、邏輯**等。惡意軟件可能在用戶不知情的情況下竊取計算機(jī)用戶的信息和隱私,也可能非法獲得計算機(jī)系統(tǒng)和網(wǎng)絡(luò)資源的控制,破壞計算機(jī)和網(wǎng)絡(luò)的可信性、完整性和可用性,從而為惡意軟件控制者謀取非法利益。騰訊安全發(fā)布的《2017年度互聯(lián)網(wǎng)安全報告》顯示,2017年騰訊電腦管家pc端總計攔截**近30億次,平均每月攔截木馬**近,共發(fā)現(xiàn)**或木馬***。這些數(shù)目龐大、名目繁多的惡意軟件侵蝕著我國的***、經(jīng)濟(jì)、文化、***等各個領(lǐng)域的信息安全,帶來了前所未有的挑戰(zhàn)。當(dāng)前的反**軟件主要采用基于特征碼的檢測方法,這種方法通過對代碼進(jìn)行充分研究,獲得惡意軟件特征值(即每種惡意軟件所獨(dú)有的十六進(jìn)制代碼串),如字節(jié)序列、特定的字符串等,通過匹配查找軟件中是否包含惡意軟件特征庫中的特征碼來判斷其是否為惡意軟件。整合多學(xué)科團(tuán)隊的定制化檢測方案,體現(xiàn)艾策服務(wù)于制造的技術(shù)深度。長春第三方軟件測評中心
坐標(biāo)點(diǎn)(0,1)**一個完美的分類器,它將所有的樣本都正確分類。roc曲線越接近左上角,該分類器的性能越好。從圖9可以看出,該方案的roc曲線非常接近左上角,性能較優(yōu)。另外,前端融合模型的auc值為。(5)后端融合后端融合的架構(gòu)如圖10所示,后端融合方式用三種模態(tài)的特征分別訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,然后進(jìn)行決策融合,隱藏層的***函數(shù)為relu,輸出層的***函數(shù)是sigmoid,中間使用dropout層進(jìn)行正則化,防止過擬合,優(yōu)化器(optimizer)采用的是adagrad,batch_size是40。本次實(shí)驗使用了80%的樣本訓(xùn)練,20%的樣本驗證,訓(xùn)練50個迭代以便于找到較優(yōu)的epoch值。隨著迭代數(shù)的增加,后端融合模型的準(zhǔn)確率變化曲線如圖11所示,模型的對數(shù)損失變化曲線如圖12所示。從圖11和圖12可以看出,當(dāng)epoch值從0增加到5過程中,模型的訓(xùn)練準(zhǔn)確率和驗證準(zhǔn)確率快速提高,模型的訓(xùn)練對數(shù)損失和驗證對數(shù)損失快速減少;當(dāng)epoch值從5到50的過程中,前端融合模型的訓(xùn)練準(zhǔn)確率和驗證準(zhǔn)確率小幅提高,訓(xùn)練對數(shù)損失和驗證對數(shù)損失緩慢下降;綜合分析圖11和圖12的準(zhǔn)確率和對數(shù)損失變化曲線,選取epoch的較優(yōu)值為40。確定模型的訓(xùn)練迭代數(shù)為40后,進(jìn)行了10折交叉驗證實(shí)驗。西安第三方軟件測評公司數(shù)據(jù)安全與合規(guī):艾策科技的最佳實(shí)踐。
k為短序列特征總數(shù),1≤i≤k??蓤?zhí)行文件長短大小不一,為了防止該特征統(tǒng)計有偏,使用∑knk,j進(jìn)行歸一化處理。逆向文件頻率(inversedocumentfrequency,idf)是一個短序列特征普遍重要性的度量。某一短序列特征的idf,可以由總樣本實(shí)施例件數(shù)目除以包含該短序列特征之樣本實(shí)施例件的數(shù)目,再將得到的商取對數(shù)得到:其中,|d|指軟件樣本j的總數(shù),|{j:i∈j}|指包含短序列特征i的軟件樣本j的數(shù)目。idf的主要思想是:如果包含短序列特征i的軟件練樣本越少,也就是|{j:i∈j}|越小,idf越大,則說明短序列特征i具有很好的類別區(qū)分能力。:如果某一特征在某樣本中以較高的頻率出現(xiàn),而包含該特征的樣本數(shù)目較小,可以產(chǎn)生出高權(quán)重的,該特征的。因此,,保留重要的特征。此處選取可能區(qū)分惡意軟件和良性軟件的短序列特征,是因為字節(jié)碼n-grams提取的特征很多,很多都是無效特征,或者效果非常一般的特征,保持這些特征會影響檢測方法的性能和效率,所以要選出有效的特征即可能區(qū)分惡意軟件和良性軟件的短序列特征。步驟s2、將軟件樣本中的類別已知的軟件樣本作為訓(xùn)練樣本,然后分別采用前端融合方法、后端融合方法和中間融合方法設(shè)計三種不同方案的多模態(tài)數(shù)據(jù)融合方法。
幫助客戶提升內(nèi)部技術(shù)團(tuán)隊能力。例如,某三甲醫(yī)院在采用艾策科技的醫(yī)療信息化系統(tǒng)檢測方案后,不僅系統(tǒng)漏洞率下降45%,其IT團(tuán)隊的安全意識與應(yīng)急響應(yīng)能力也提升。技術(shù)創(chuàng)新未來方向艾策科技創(chuàng)始人兼CTO表示:“作為軟件檢測公司,我們始終將技術(shù)創(chuàng)新視為競爭力。未來,公司將重點(diǎn)投入AI算法優(yōu)化、邊緣計算檢測等前沿領(lǐng)域,為電力能源、政企單位等行業(yè)提供更高效、更智能的質(zhì)量保障服務(wù)。”深圳艾策信息科技有限公司是一家立足于粵港澳大灣區(qū),依托信息技術(shù)產(chǎn)業(yè),面向全國客戶提供專業(yè)、可靠服務(wù)的第三方CMACNAS檢測機(jī)構(gòu)。在檢測服務(wù)過程中,公司始終堅持以客戶需求為本,秉承公平公正的第三方檢測要求,遵循國家檢測標(biāo)準(zhǔn)規(guī)范,確保檢測數(shù)據(jù)和結(jié)果準(zhǔn)確可靠,運(yùn)用前沿A人工智能技術(shù)提高檢測效率。我們追求創(chuàng)造優(yōu)異的社會價值,我們致力于打造公司成為第三方檢測行業(yè)的行業(yè)榜樣。2025 年 IT 趨勢展望:深圳艾策的五大技術(shù)突破。
此外格式結(jié)構(gòu)信息具有明顯的語義信息,但基于格式結(jié)構(gòu)信息的檢測方法沒有提取決定軟件行為的代碼節(jié)和數(shù)據(jù)節(jié)信息作為特征。某一種類型的特征都從不同的視角反映刻畫了可執(zhí)行文件的一些性質(zhì),字節(jié)碼n-grams、dll和api信息、格式結(jié)構(gòu)信息都部分捕捉到了惡意軟件和良性軟件間的可區(qū)分信息,但都存在著一定的局限性,不能充分、綜合、整體的表示可執(zhí)行文件的本質(zhì),使得檢測結(jié)果準(zhǔn)確率不高、可靠性低、泛化性和魯棒性不佳。此外,惡意軟件通常偽造出和良性軟件相似的特征,逃避反**軟件的檢測。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法,以解決現(xiàn)有采用二進(jìn)制可執(zhí)行文件的單一特征類型進(jìn)行惡意軟件檢測的檢測方法檢測準(zhǔn)確率不高、檢測可靠性低、泛化性和魯棒性不佳的問題,以及其難以檢測出偽造良性軟件特征的惡意軟件的問題。本發(fā)明實(shí)施例所采用的技術(shù)方案是,基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法,按照以下步驟進(jìn)行:步驟s1、提取軟件樣本的二進(jìn)制可執(zhí)行文件的dll和api信息、pe格式結(jié)構(gòu)信息以及字節(jié)碼n-grams的特征表示,生成軟件樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖。對比分析顯示資源占用率高于同類產(chǎn)品均值26%。電力軟件系統(tǒng)測試報告
策科技助力教育行業(yè):數(shù)字化教學(xué)的創(chuàng)新應(yīng)用 。長春第三方軟件測評中心
圖2是后端融合方法的流程圖。圖3是中間融合方法的流程圖。圖4是前端融合模型的架構(gòu)圖。圖5是前端融合模型的準(zhǔn)確率變化曲線圖。圖6是前端融合模型的對數(shù)損失變化曲線圖。圖7是前端融合模型的檢測混淆矩陣示意圖。圖8是規(guī)范化前端融合模型的檢測混淆矩陣示意圖。圖9是前端融合模型的roc曲線圖。圖10是后端融合模型的架構(gòu)圖。圖11是后端融合模型的準(zhǔn)確率變化曲線圖。圖12是后端融合模型的對數(shù)損失變化曲線圖。圖13是后端融合模型的檢測混淆矩陣示意圖。圖14是規(guī)范化后端融合模型的檢測混淆矩陣示意圖。圖15是后端融合模型的roc曲線圖。圖16是中間融合模型的架構(gòu)圖。圖17是中間融合模型的準(zhǔn)確率變化曲線圖。圖18是中間融合模型的對數(shù)損失變化曲線圖。圖19是中間融合模型的檢測混淆矩陣示意圖。圖20是規(guī)范化中間融合模型的檢測混淆矩陣示意圖。圖21是中間融合模型的roc曲線圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例**是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。長春第三方軟件測評中心