近日,腾讯对外披露混元大模型最新升级,并对外开放“文生图”功能。采访中,腾讯混元大模型文生图技术负责人芦清林表示,文生图功能从2022年8月开始做,2023年开始投入较大力度。
今年9月7日,腾讯通过腾讯云对外开放通用大模型“腾讯混元”,由腾讯全链路自研,拥有超千亿参数规模,预训练语料超2万亿tokens。一个多月时间过去,腾讯方面披露称,目前有超过180个腾讯内部业务接入腾讯混元,包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。QQ浏览器还基于腾讯混元推出了“PDF阅读助手”,具备智能摘要、智能问答和多轮提问等功能。
腾讯机器学习平台算法负责人康战辉表示,混元除了千亿参数规模大主模型之外,也产出了7B、13B等中小模型,都是基于腾讯自研训练框架AngelPTM平台打造,业务形态形式也是通过API接入。
“最近一个多月混元大模型里面提升比较大的是代码能力以及数据推理能力,这两个模块比之前效果有20%的提升。”康战辉表示。
目前,已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户通过腾讯云调用腾讯混元大模型API,应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。
除了底座技术外,康战辉表示,大模型指令层面有几方面挑战:一是模型泛化,需要在样板出来后的任务训练过程解决抗干扰问题;二是解决多轮对话问题;三是复杂指令自动进化需要解决训练集中的数据优质与复杂性问题。
收入方面,康战辉表示,目前腾讯接入混元的180个业务数量较9月的首次披露增长了三倍,其中60多项业务做精调,至于180多项业务中哪些是千亿规模、哪些是中小模型,以及包括微信、QQ等具体业务接入的大模型参数与能力情况,采访中康战辉并未具体透露。
此次,腾讯宣布混元大模型文生图功能上线,落地场景中广告业务效果较为明显。芦清林表示,大模型文生图的难点体现在对提示词的语义理解、生成内容的合理性,以及生成图片的效果。针对这三个技术难点,腾讯进行了专项技术研究,提出了一系列原创算法,来保证生成图片的可用性和画质,如采用中英文双语细粒度模型、增强算法模型的图像二维空间位置感知能力等。另外针对文生图存在的版权问题,芦清林对第一财经记者表示,需要把控好训练数据,包括公开数据集与采买数据。
7月,阿里云宣布推出AI绘画模型通义万相,支持文生图等功能。阿里业务结合方面,钉钉斜杠“/”已接入通义万相,用户可通过“/”在钉钉文档、群聊、会议等场景中唤起作图、绘画等图片生成服务。
对于腾讯集团内部业务与文生图功能的结合,芦清林对记者表示,混元大模型文生图功能目前主要在成熟商业场景中打磨能力,目前已被用于素材创作、商品合成、游戏出图等多项业务中,此外在广告业务下的多轮测评中,腾讯混元文生图的案例优秀率和广告主采纳率分别达到86%和26%。
作为文生图应用的代表,Midjourney的商业化部分采用每月10到60美元的订阅服务模式。对于混元文生图会否开辟独立收费模式,芦清林对记者表示,目前没有这样的计划,收费一定是客户对具体诉求有明确的商业价值定性才合理,本质上是与已有的商业做链接。既然腾讯内部有很多产品流量和商业行为,混元就先做这些。如果业务想进行售卖,如企业微信,团队也会与他们进行合作,支撑业务进行商业模式的尝试。