本報訊(記者薛婧)記者從安天科技集團股份有限公司(以下簡稱安天)獲悉,近日,權(quán)威網(wǎng)絡(luò)安全大模型評測平臺CyberSec-Eval更新了CS-Eval數(shù)據(jù)集的評測結(jié)果。安天瀾砥威脅檢測分析垂直大模型(N2-1008版本)以91.51的平均分綜合成績排名第一,并在業(yè)務(wù)連續(xù)性與應(yīng)急響應(yīng)恢復(fù)、安全架構(gòu)設(shè)計、漏洞管理與滲透測試、AI與網(wǎng)絡(luò)安全評測中取得四個單項第一名或與單項第一持平成績。
CyberSec-Eval(CS-Eval)是目前國內(nèi)外最具代表性與專業(yè)性的網(wǎng)絡(luò)安全大模型評測基準之一,由阿里安全、復(fù)旦大學(xué)、中國科學(xué)院大學(xué)聯(lián)合構(gòu)建,在2024年上線,目前基于CyberSec-Eval2024年5月的數(shù)據(jù)集進行評測。該榜單測試具備覆蓋全面、貼近實戰(zhàn)、客觀公正的核心特點。在覆蓋全面方面體現(xiàn)在涵蓋了11大類網(wǎng)絡(luò)安全領(lǐng)域、42個子類任務(wù),覆蓋知識型與實戰(zhàn)型雙重維度;貼近實戰(zhàn)方面則聚焦真實安全場景下的理解、推理與決策能力評估;客觀公正方面主要表現(xiàn)在采用標準化測試集與評分機制,為行業(yè)提供可比對、可復(fù)現(xiàn)的參考依據(jù)。
安天瀾砥威脅檢測分析垂直大模型N2分支基于安天自研的模型結(jié)構(gòu)結(jié)合DeepSeek-V3的權(quán)重遷移訓(xùn)練而來,于9月9日首次提交測試并于次日公開,綜合排名進入前三。團隊綜合使用增強學(xué)習(xí)、前綴微調(diào)和經(jīng)過修改的StableSPAM優(yōu)化器,進行持續(xù)改進,并根據(jù)評測結(jié)果補充了相關(guān)領(lǐng)域的語料。在經(jīng)過近30天的持續(xù)訓(xùn)練后,于10月8日以綜合成績91.51分登頂,獲得榜單綜合平均排名第一。