电厂｜做出中国版 ChatGPT，需要哪几步？

来源：电厂　2023-02-18 12:45:06

作者张勇毅

【资料图】

火爆全球的 ChatGPT 仅过两个月，就已经让全球很多科技巨头都坐不住了。

不仅有越来越多类似 ChatGPT 通过 Google 初级工程师面试、其水平能拿到 18 万美元年薪的新闻出现，各家科技巨头也都狂奔入场加入 ChatGPT 引发的浪潮。

微软在今年一月宣布对 ChatGPT 开发公司 OpenAI 追加 100 亿美元的投资，并在自家 Bing 搜索引擎中集成 ChatGPT，Google 也宣布了自己的对话机器人项目 Bard，百度也公布了自己的「文心一言」计划。

除了搜索引擎巨头之外，国内还有包括 360、知乎、阿里、京东等平台，纷纷上车押注 ChatGPT 产品，但这些更多都还只是停留在发公告的层面之上，包括投资圈各路大佬开始跃跃欲试，投资创立新的公司押注 AI 领域。

一时间，关于「中国版 ChatGPT 在哪里」的提问与讨论，充斥着中文互联网的每一个角落。

ChatGPT 背后的技术

正如那个知名的「把大象装进冰箱需要几步」问题，本质上是在帮助思考者将一个大问题拆分成多个具体而具象的参考维度一般；相比起「中国版 ChatGPT 在哪里」这种问题，或许「做中国版 ChatGPT 需要哪几步」才是更贴近现实讨论方式。

首先，ChatGPT 并非第一次掀起业内对 AI 的讨论浪潮，早在 2016 年来自 Google DeepMind 的 AlphaGo 击败人类围棋世界冠军李世石时，人类就已经切身感受到 AI 的强悍。

只是这一次 ChatGPT 不仅可以与人类流畅的完成聊天，还能迅速从海量信息中检索并整理出要点，其基于相同技术原来开发出的 Dall-E 更进一步，能创作出让艺术家都赞叹的 AI 绘画。

在这些应用场景背后，生成式 AI 是其中最重要的部分：生成式 AI 最大的特点是在学习中完善，借助于用户的各种反馈，来完善用于构建下一个版本的大模型数据。

过去数十年 AI 技术突破孕育出的应用模式创新，背后是过去英文互联网中众多的开源「大模型」，让 OpenAI 从最早只能给出各种愚蠢回复以及只会让人发笑的版本中，迭代出了现在惊艳世界的 ChatGPT。

大模型

ChatGPT 目前最为人津津乐道的使用场景，毫无疑问是在其中蕴含的「下一代搜索引擎」的可能性，如今绝大多数搜索引擎在急剧膨胀的信息农场面前，依赖关键字返回的数据变得越来越不精确，在搜索结果中翻上好几页才能找到自己想要的结果，或许对于很多人来讲都已经是习以为常的体验。

但依赖大模型计算后给出的结果，并非只是如搜索引擎那般简单地整合，大模型技术能根据现有数据进行分析以及学习，从而给出自己的答案，就像「流浪地球」中的通用型人工智能 Moss 一般，给出「这是 Moss 的回答」。目前的 ChatGPT 只是让我们管中窥豹一般体验了一下未来，就已经让全球为之兴奋不已。

国内「十四五」期间，针对人工智能与大模型产业，都出台了相关指导方案以及产业激励政策，大模型技术的技术特点、实现方式以及未来的应用场景能力，都与国家层面在人工智能长期发展的战略相契合。

但「大模型」本身相对于产业以及应用层面而言仍是一个新鲜的技术，业内也急需一个评判标准来帮助理解其技术技术的先进程度。

2023 年 2 月，咨询机构 IDC 发布了《2022 中国大模型发展白皮书》，同时提出了业内首个大模型评估框架。而根据 IDC 发布的中国大模型市场 2022 年评估结果，来自百度的「文心大模型」在整个评估中处于第一梯队，产品能力、生态能力、应用能力全面领先。

根据《白皮书》中的相关数据，百度「文心大模型」在过去已经构建了「大模型+工具平台+产品与社区」三层体系，在能源、金融、航天、制造、传媒、城市、社科以及影视等领域，都能展开广泛应用，打通大模型产业落地的关键路径，加速产业智能化。

IDC 中国副总裁兼首席分析师武连峰也表示，「大模型的背后蕴藏着一场 AI 落地模式的变革。如今火爆全球的 ChatGPT 背后的技术支撑，也正是大模型」。

「没有对大模型的长期投入，就不会诞生 ChatGPT 这样的应用」。

中国版 ChatGPT，落地生根

除了类 ChatGPT 对话机器人，以及长期内能帮助百度完成下一代搜索引擎，这赋予了百度文心大模型坚实的基础；这同样是微软在看到 ChatGPT 潜力之后，为 OpenAI 继续加码投资的深层原因：微软旗下的几乎所有产品线，包括 Word、PPT、Excel 等办公套件，微软的云服务，团队协作工具这些严重依赖云端提供服务的工具，也能借助智能化得到效率的显著提升。

在应用层面上，百度可能是国内目前宣布入局 ChatGPT 的厂商中，与微软/Google 的智能化需求最接近的厂商：百度不仅有云计算业务作为支撑，旗下也有各种面向普通用户的消费级业务。业务丰富程度甚至要超过云服务三巨头中的亚马逊，与微软、Google 在同一起跑线。

早在 2019 年 3 月，百度就发布了预训练大模型 ERNIE 1.0，2020 年开始将文心大模型应用到搜索业务，用户可以使用其大模型相关的数据整合能力，搜索相关性、深度问答和内容理解等，因此，从大模型的投入到应用均有长期积累和产业实践，百度在中国开发类 ChatGPT 产品是少数具有真正意义上「先发优势」的厂商。

除了在大模型研发上的先发优势，百度在中国科技企业中具备最成熟的大模型开发工具和产品体系。这对 AI 后续的发展同样重要：AI 技术赋能的产品与服务，最终能交付到用户手中产生价值，才能诞生其原本的价值所在。

过去几年，百度也多次公开强调大模型作为 AI 时代「基础设施」的作用，针对大模型的未来发展趋势，IDC 也在报告中提到大模型将会助推数字经济，为智能化升级带来新范式。

对行业用户而言，大模型已表现出巨大的潜力，也值得尽早关注并在业务中布局。百度的「文心一言」正是基于百度智能云技术打造出来的大模型。未来文心一言也会将通过百度智能云对外提供服务，为更多行业带来 AI 的改变。

在做中国版 ChatGPT 这件事上，从来不只是一个简单的「中文聊天机器人」那样简单，基于大模型技术给搜索引擎乃至更多产业带来新的 AI 革命，为中文互联网带来独特的价值。这才是中国版 ChatGPT 的「最后一步」。

关键词：搜索引擎模型技术人工智能

推荐DIY文章