杭州深度求索公司发布的DeepSeek-r1模型无疑成为春节科技圈顶流。春节期间,永信至诚(688244)根据多家企业用户咨询,围绕大模型时代下如何搭上DeepSeek大模型快车道?如何在自身传统行业中借力大模型提升企业各方面能力?等方面进行了深度测评。
依托春秋AI测评,找到10万预算以内模型
为了认真回答这些问题,及时解答用户的疑问,永信至诚依托生成式人工智能(AIGC)加持的春秋AI测评「数字风洞」平台,以“魔法”测“魔法”,从企业的应用实际出发搭建测试环境和横向比较对象,加载40万余条兼容欧盟《人工智能法》、美国NIST《人工智能风险管理框架》、WDTA AI-STR-02《大语言模型安全测试方法》等国际测评标准的测试数据,基于「数字风洞」ISAC24测评标准,试图找到10万预算以内“最适合企业用户的基座模型”。
测试期间,永信至诚面向DeepSeek在内的国内外主流AI大模型的智能度(Intelligibility)、安全度(Safety)、匹配度(Applicability)、一致度(Consistency)等方面设计了“数字风洞ISAC24”测试标准,并挑选了客户可能会“选择困难”的国内外AI模型作为横向测评对象。看看DeepSeek和这些模型相比是否能展现出足够优势。
最终测评数据显示,DeepSeek-r1在综合测评成绩、智能度和匹配度上均领先于Llama3.1、GPT-4o-Mini以及其余被测模型。回答的一致度上位于前列。但安全度方面有待加强,需要在后期的应用框架方面加安全防护和内容过滤。
在测评之外,公司也做了一个初步测算:部署DeepSeek-r1-Distill-Qwen-14B的整体解决方案市场价不超过10万元人民币,基本符合大多数企业客户的初期预算和日常需求,并且它充分开源和完全商业授权的开源策略,让更多研究人员和企业都可以基于DeepSeek-r1的训练过程进行复现和深度开发。
500余万测评数据为数字风洞提供科学依据
永信至诚依托在网络靶场和数字安全测评领域的深厚技术积累与业务实践成果,构建春秋AI测评「数字风洞」平台,以春秋AI大模型为核心,基于标准化测评数据和海量业务场景模版,实现对AI智能产品智能度、安全度和匹配度的综合测评,通过以模测模、以模强模,简化测评流程,提高测评效率。
当前平台已接入百度千帆、通义千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音豆包、紫东太初、孟子、智谱、百川等40余个AI大模型API,以及20余个本地搭建的开源AI大模型。平台拥有基础数据集100余个,总测评用例超过500万条,模拟红队的AI越狱和变异性检测载荷2万余个。
已发布Llama2-7b、OpenAI GPT-4o、通义千问Qwen-72B(开源版)等大模型的测评报告,为大模型厂商提供专业的评估结果和具体整改和调试建议,以提升其内容安全性和整体性能。已开始为众多高新技术企业、国央企、院校、特区政府提供科研及服务类AI健康及安全测评服务。
永信至诚作为AI大模型测试评估赛道领军企业,也将与DeepSeek等一众AI大模型厂商和用户携手共进,用安全赋能AI,用AI反哺安全。欢迎广大AI大模型领域厂商和用户合作共生,共同维护新质生产力时代技术的进步,为经济繁荣、社会发展点亮的希望之光。(燕云)
校对:刘星莹