9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。
“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力。”腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示。
OpenAI的GPT发布后,在全世界引起轰动,不少互联网企业急于推出类似的互联网产品,不过腾讯显得颇为沉得住气,今日才对外发布。
混元大模型
腾讯混元大模型训练数据截至今年7月,有超千亿参数,预训练语料超2万亿,关键是还有很多行业应用。
腾讯混元大模型将作为腾讯云MaaS服务的底座,客户不仅可以直接通过API调用,也可以将腾讯混元作为基底模型,为不同产业场景构建专属应用。
汤道生指出,大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。他提到:“腾讯将立足于未来,立足于实效,让数字化工具在产业中用起来、用得好。”
未来,腾讯产业互联网将全面拥抱智能时代,通过三个“增强”,助力产业建构“智能引擎”:
以“智能增强”,构筑产业发展“新动能”;
以“数据增强”,夯实企业数字化基石;
以“连接增强”,激发场景创新。
智能增强,就是通过数据有超千亿参数,预训练语料超2万亿等方式,增强中文理解和创作能力,让模型智能化,再通过开源的方式,引入行业数据,成为行业可以使用的大模型。
数据增强,是通过增加硬件能力的方式,服务对速度和安全有需求的客户。
连接增强,是腾讯独特优势,因为腾讯有众多用户已经很习惯的国民应用,可以和外界应用组成套装,提高效率。
混元大模型内部应用测试阶段,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档等多个腾讯内部业务和产品接入腾讯混元大模型测试。
腾讯的独特优势是,之前5年在研发上投入2300亿元,云业务上四处拓展,有服务实体经济各个行业的经验,不缺训练数据,可以快速搭建生态,让模型使用起来。
腾讯混元大模型是由腾讯全链路自研的通用大语言模型。腾讯集团副总裁蒋杰表示:“我们研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。腾讯将全面拥抱大模型。”
针对大模型容易“胡言乱语”的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策。
此外,腾讯还自研了机器学习框架Angel,使训练速度相比业界主流框架提升1 倍,推理速度比业界主流框架提升1.3倍。
目前,微信上已有混元助手小程序上线,用户可以申请使用。
模型热
国内已经推出的大模型有百度的“文心一言”、商汤“商量SenseChat”、百川智能等。据机构不完全统计,中国10亿以上参数规模的大模型已经发布了79个。推出大模型主要有互联网公司,包括阿里云、字节跳动、京东云、昆仑万维等,还有商汤、科大讯飞、云从科技等AI公司。
OpenAI推出GPT系列面世后,强烈刺激了国内在这方面的热情。美团联合创始人王慧文在2023年年初成立的光年之外,一度融资5000万美元。
国内正在上演“百模大战”,一众公司推出大模型后,一度引起资本市场热捧,股价猛涨。
不过大模型投资很大,需要购买英伟达A100GPU,这是ChatGPT生长的硬件基础。一些公开数据显示,在训练GPT系列模型的过程中,OpenAI所使用的英伟达GPU数量约2.5万个。
和国内一样,美国也有众多公司推出大模型,除了OpenAI的GPT系列模型,还有Google的Transformer模型、Amazon的Comprehend、IBM的Watson等。海外模型也在努力占领全球市场,比如安卓版ChatGPT已在美国、印度、孟加拉国和巴西提供下载。
目前,业界大模型在场景中的应用依然有限,主要集中在容错率高、任务简单的休闲场景。
校对:李凌锋