本發(fā)明屬于惡意軟件防護技術領域::,涉及一種基于多模態(tài)深度學習的惡意軟件檢測方法。背景技術:::惡意軟件是指在未明確提示用戶或未經(jīng)用戶許可的情況下,故意編制或設置的,對網(wǎng)絡或系統(tǒng)會產(chǎn)生威脅或潛在威脅的計算機軟件。常見的惡意軟件有計算機**(簡稱**)、特洛伊木馬(簡稱木馬)、計算機蠕蟲(簡稱蠕蟲)、后門、邏輯**等。惡意軟件可能在用戶不知情的情況下竊取計算機用戶的信息和隱私,也可能非法獲得計算機系統(tǒng)和網(wǎng)絡資源的控制,破壞計算機和網(wǎng)絡的可信性、完整性和可用性,從而為惡意軟件控制者謀取非法利益。騰訊安全發(fā)布的《2017年度互聯(lián)網(wǎng)安全報告》顯示,2017年騰訊電腦管家pc端總計攔截**近30億次,平均每月攔截木馬**近,共發(fā)現(xiàn)**或木馬***。這些數(shù)目龐大、名目繁多的惡意軟件侵蝕著我國的***、經(jīng)濟、文化、***等各個領域的信息安全,帶來了前所未有的挑戰(zhàn)。當前的反**軟件主要采用基于特征碼的檢測方法,這種方法通過對代碼進行充分研究,獲得惡意軟件特征值(即每種惡意軟件所獨有的十六進制代碼串),如字節(jié)序列、特定的字符串等,通過匹配查找軟件中是否包含惡意軟件特征庫中的特征碼來判斷其是否為惡意軟件。艾策檢測團隊采用多模態(tài)傳感器融合技術,構建智能工廠設備狀態(tài)健康監(jiān)測體系。CNAS軟件測試費用
降低成本對每個階段都進行測試,包括文檔,便于控制項目過程缺點依賴文檔,沒有文檔的項目無法使用,復雜度很高,實踐需要很強的管理H模型把測試活動完全**出來,將測試準備和測試執(zhí)行體現(xiàn)出來測試準備-測試執(zhí)行就緒點其他流程----------設計等v模型適用于中小企業(yè)需求在開始必須明確,不適用變更需求w模型適用于中大企業(yè)包括文檔也需要測試(需求分析文檔概要設計文檔詳細設計文檔代碼文檔)測試和開發(fā)同步進行H模型對公司參與人員技能和溝通要求高測試階段單元測試-集成測試-系統(tǒng)測試-驗證測試是否覆蓋代碼白盒測試-黑盒測試-灰盒測試是否運行靜態(tài)測試-動態(tài)測試測試手段人工測試-自動化測試其他測試回歸測試-冒*測試功能測試一般功能測試-界面測試-易用性測試-安裝測試-兼容性測試性能測試穩(wěn)定性測試-負載測試-壓力測試-時間性能-空間性能負載測試確定在各種工作負載下,系統(tǒng)各項指標變化情況壓力測試:通過確定一個系統(tǒng)的剛好不能接受的性能點。獲得系統(tǒng)能夠提供的**大服務級別測試用例為特定的目的而設計的一組測試輸入,執(zhí)行條件和預期結果,以便測試是否滿足某個特定需求。通過大量的測試用例來檢測軟件的運行效果,它是指導測試工作進行的依據(jù)。軟件功能確認測試代碼質(zhì)量評估顯示注釋覆蓋率不足30%需加強。
綜合上面的分析可以看出,惡意軟件的格式信息和良性軟件是有很多差異性的,以可執(zhí)行文件的格式信息作為特征,是識別已知和未知惡意軟件的可行方法。對每個樣本進行格式結構解析,提取**每個樣本實施例件的格式結構信息,可執(zhí)行文件的格式規(guī)范都由操作系統(tǒng)廠商給出,按照操作系統(tǒng)廠商給出的格式規(guī)范提取即可。pe文件的格式結構有許多屬性,但大多數(shù)屬性無法區(qū)分惡意軟件和良性軟件,經(jīng)過深入分析pe文件的格式結構屬性,提取了可能區(qū)分惡意軟件和良性軟件的136個格式結構屬性,如表2所示。表2可能區(qū)分惡意軟件和良性軟件的pe格式結構屬性特征描述數(shù)量(個)引用dll的總數(shù)1引用api的總數(shù)1導出表中符號的總數(shù)1重定位節(jié)的項目總數(shù),連續(xù)的幾個字節(jié)可能是完成特定功能的一段代碼,或者是可執(zhí)行文件的結構信息,也可能是某個惡意軟件中特有的字節(jié)碼序列。pe文件可表示為字節(jié)碼序列,惡意軟件可能存在一些共有的字節(jié)碼子序列模式,研究人員直覺上認為一些字節(jié)碼子序列在惡意軟件可能以較高頻率出現(xiàn),且這些字節(jié)碼序列和良性軟件字節(jié)碼序列存在明顯差異??蓤?zhí)行文件通常是二進制文件,需要把二進制文件轉換為十六進制的文本實施例件,就得到可執(zhí)行文件的十六進制字節(jié)碼序列。
先將訓練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖分別輸入至一個深度神經(jīng)網(wǎng)絡中抽取高等特征表示,然后合并抽取的高等特征表示并將其作為下一個深度神經(jīng)網(wǎng)絡的輸入進行模型訓練,得到多模態(tài)深度集成模型。進一步的,所述多模態(tài)深度集成模型的隱藏層的***函數(shù)采用relu,輸出層的***函數(shù)采用sigmoid,中間使用dropout層進行正則化,優(yōu)化器采用adagrad。進一步的,所述訓練得到的多模態(tài)深度集成模型中,用于抽取dll和api信息特征視圖的深度神經(jīng)網(wǎng)絡包含3個隱含層,且3個隱含層中間間隔設置有dropout層;用于抽取格式信息特征視圖的深度神經(jīng)網(wǎng)絡包含2個隱含層,且2個隱含層中間設置有dropout層;用于抽取字節(jié)碼n-grams特征視圖的深度神經(jīng)網(wǎng)絡包含4個隱含層,且4個隱含層中間間隔設置有dropout層;用于輸入合并抽取的高等特征表示的深度神經(jīng)網(wǎng)絡包含2個隱含層,且2個隱含層中間設置有dropout層;所述dropout層的dropout率均等于。本發(fā)明實施例的有益效果是,提出了一種基于多模態(tài)深度學習的惡意軟件檢測方法,應用了多模態(tài)深度學習方法來融合dll和api、格式結構信息、字節(jié)碼n-grams特征。覆蓋軟件功能與性能的多維度檢測方案設計與實施!
這樣做的好處是,融合模型的錯誤來自不同的分類器,而來自不同分類器的錯誤往往互不相關、互不影響,不會造成錯誤的進一步累加。常見的后端融合方式包括**大值融合(max-fusion)、平均值融合(averaged-fusion)、貝葉斯規(guī)則融合(bayes’rulebased)以及集成學習(ensemblelearning)等。其中集成學習作為后端融合方式的典型**,被廣泛應用于通信、計算機識別、語音識別等研究領域。中間融合是指將不同的模態(tài)數(shù)據(jù)先轉化為高等特征表達,再于模型的中間層進行融合,如圖3所示。以深度神經(jīng)網(wǎng)絡為例,神經(jīng)網(wǎng)絡通過一層一層的管道映射輸入,將原始輸入轉換為更高等的表示。中間融合首先利用神經(jīng)網(wǎng)絡將原始數(shù)據(jù)轉化成高等特征表達,然后獲取不同模態(tài)數(shù)據(jù)在高等特征空間上的共性,進而學習一個聯(lián)合的多模態(tài)表征。深度多模態(tài)融合的大部分工作都采用了這種中間融合的方法,其***享表示層是通過合并來自多個模態(tài)特定路徑的連接單元來構建的。中間融合方法的一大優(yōu)勢是可以靈活的選擇融合的位置,但設計深度多模態(tài)集成結構時,確定如何融合、何時融合以及哪些模式可以融合,是比較有挑戰(zhàn)的問題。字節(jié)碼n-grams、dll和api信息、格式結構信息這三種類型的特征都具有自身的優(yōu)勢。艾策紡織品檢測實驗室配備氣候老化模擬艙,驗證戶外用品的耐久性與色牢度。天津軟件驗收測試
云計算與 AI 融合:深圳艾策的創(chuàng)新解決方案。CNAS軟件測試費用
12)把節(jié)裝入到vmm的地址空間;(13)可選頭部的sizeofcode域取值不正確;(14)含有可疑標志。此外,惡意軟件和良性軟件間以下格式特征也存在明顯的統(tǒng)計差異:(1)證書表是軟件廠商的可認證的聲明,惡意軟件很少有證書表,而良性軟件大部分都有軟件廠商可認證的聲明;(2)惡意軟件的調(diào)試數(shù)據(jù)也明顯小于正常文件的,這是因為惡意軟件為了增加調(diào)試的難度,很少有調(diào)試數(shù)據(jù);(3)惡意軟件4個節(jié)(.text、.rsrc、.reloc和.rdata)的characteristics屬性和良性軟件的也有明顯差異,characteristics屬性通常**該節(jié)是否可讀、可寫、可執(zhí)行等,部分惡意軟件的代碼節(jié)存在可寫異常,只讀數(shù)據(jù)節(jié)和資源節(jié)存在可寫、可執(zhí)行異常等;(4)惡意軟件資源節(jié)的資源個數(shù)也明顯少于良性軟件的,如消息表、組圖表、版本資源等,這是因為惡意軟件很少使用圖形界面資源,也很少有版本信息。pe文件很多格式屬性沒有強制限制,文件完整性約束松散,存在著較多的冗余屬性和冗余空間,為pe格式惡意軟件的傳播和隱藏創(chuàng)造了條件。此外,由于惡意軟件為了方便傳播和隱藏,盡一切可能的減小文件大小,文件結構的某些部分重疊,同時對一些屬性進行了特別設置以達到anti-dump、anti-debug或抗反匯編。CNAS軟件測試費用