记录过程可能存在遗漏,仅供参考。本篇内容均来自公开会议,不代表我方观点
主讲人:周鸿祎
一、开头介绍
智脑已经发展了到4.0版本。人工智能的理念是以人为本。无论做出多强大的人工智能,都是通过工具的赋能, 让每个人、每个团队、每个组织、每个公司、每个政府机构,甚至每个行业和每个产业到每个国家,都能真正的提高 劳动生产率。尽管各家都推出了自己的大模型,都有所成绩,但其实基础能力还是差不多在一个起跑线上。追赶 GPT4的速度确实比想象中要快,但是有了基础功能以后,未必就能带来工业和产业的革命。问题的关键在于如何让 大家更容易地使用,如何把大模型的通用人工智能能力和更多的场景相结合,也就是结合场景打造更多的应用。
很多人对大语言模型有一个误解,认为大语言模型用于搜索、推荐,主要应用于互联网公司,做自然语言处理技 术。人类和动物之所以不一样,是因为人类发明了语言。人类发明语言之后不仅能够描述橘子、香蕉等具体事物,还 能描述抽象概念,比如水果、食物等。所以,语言成了人类最有力的工具。语言的边界,也就是思维的边界。语言不 能理解、不能讨论的事情,人类是无法理解的。所以,通过大模型,真正地把人类语言做了重新编码、学习、训练, 获得推理和规划的能力,就真正地对人类描述的世界的模型建立起了初步了解,对人类掌握的知识有了重新的压缩和蒸馏。
如今大模型能够解决自然语言理解问题,意义是非常重大的。 这颠覆了很多传统人工智能的算法。在过去没有大 的语言模型的时候,无论是通过激光雷达还是车载摄像头,能看到的都是只感知层的判断,比如,机器可以看到障碍 物,但无法理解背后代表的含义,无法理解场景可能的风险。之所以现在的大模型被称为认知人工智能,也被称为通 用人工智能,是因为人类第一次把自己的知识教会了电脑。所以,通用人工智能不仅是一套算法和模型,还解决了自 然语言处理在理解文章、改写标题,提炼文章中出现的各种问题。未来在计算机视觉、计算机语音处理、计算机内容 生成等各个方面,大语言模型都会发挥重要的作用。事实上,大语言模型把所有的文字都看成一个序列,永远在猜测 后面的序列是什么,这种算法未来不仅在语言符号体系上,而很有可能在自动驾驶、机器人动作控制,甚至在蛋白质 分析、人类基因组分析,包括研究物理化学数学等科学问题上,都可能都会发挥到意想不到的、非常重要的作用。 每 个公司可能未来都回避不开大模型对行业带来的影响。
大模型提供的通用人工智能能力,即使不和产业做密切结合,也很快就可以出现在办公和工作层面,提高企业和 个人的工作效率。它不是娱乐的工具,也不是消磨时间的软件,而是一个直接能够提高组织和企业效率的工具,有强 大的通用性。面对任何一个行业、政府部门,或物资机构,当有了大模型之后,立马可以解决客户问题、知识管理问 题、知识传承问题,也可以让其成为员工的办公助手。最近微软发了一个报告,说大模型不会造成大规模的失业,反 而会解决进入数字化时代面临着的新挑战。数字化带来巨大好处,但有了电脑、网络和手机之后,我们每天的工作负 担重了,有无数的消息要回,有无数的邮件要看,有无数的PPT要写。事实上,我们的负担可能比信息化、数字化时 代之前还加重了40%,而大模型的出现,可以让很多人从事务性的工作中摆脱出来。
能产生工业革命的技术一定是通用技术。 电脑在1946年刚发明的时候并没有产生工业革命,因为当时电脑的用 户是政府、军队,以及研究人员。个人电脑的发明使得电脑产生了工业革命,因为这使得每个企业、每个家庭和每个 人都买得起电脑。在电脑通用的硬件架构上,只要部署不同的软件,就可以完成不同的任务。正是因为它变成了一种 通用的力量,所以才产生了工业革命。所以,今天当我们做GPT、做大模型的时候,不仅仅是迭代技术能力,应该想 一想如何把大模型做得像电一样,能够输送到百行千业,输送到千家万户,输送到千千万万的企业和亿万个办公人的身边,这样才能产生工业革命级的力量。
现在数字化已经成为国家战略,但数字化的终点不是大数据,而应该是智能化。很多单位现在都有大数据,但大 数据并不能直接使用,它像工业时代的石油一样,虽然战略性强,但不能直接把它关到车里。而人工智能大模型解决 了这样的问题,把很多大数据训练到大模型里,然后大模型就像电厂一样,通过燃烧大数据直接产生了电力,可以把 通用人工智能的能力直接输出给每一个行业、每一个企业,这就产生了未来5年到10年新的工业革命的机会。
所以,今天大模型的价值不仅在于ChatGPT的使用量,也不仅在于一些互联网场景和它的结合,而在于未来这种 能力把它通用化、垂直化,各个行业企业和个人的需求都可以进行深度融合。这样的一个产业的机会,实际上才刚刚 开始,未来至少有10年的红利时期。所有的APP、网站、应用,甚至所有的行业都值得用大语言模型、用通用人工智 能来重新进行整理。
在ChatGPT刚出来的时候,大家都被惊艳了。当时,很多投资人认为世界上可能只需要一个GPT。但事实上,通 过这三个月的发展,我觉得这个世界上有太多的垂直领域,这可能是一个基地解决不了的问题。对于很多通用问题, 它的回答让我们很惊艳,但如果细分到行业,比如医学、法律等,它的很多回答就显得比较肤浅。 未来,我觉得大模 型还是会向垂直化、产业化、企业化改革、个人化方向发展。 谷歌发布大模型的策略中,有4种大小尺寸不一样的大 模型。目前的大模型制作有一个流行的趋势,一种方式是把大模型越做越大,参数变大,训练的语料也变大;还有一 种方式,是大模型做小,用在垂直的领域,甚至可以在一台电脑、一个手机中进行部署,甚至可以在未来使用到IoT设备上。
360因为一直以做安全著名,这几年来一直都在宣传如何帮助政府、城市、国家抵御网络攻击。我们在2015年就 成立了AI研究院,2018年我们开始看多模态。因为360搜索是我们的重要部分,而基于搜索的互联网公司离不对自然 语言内容的积累。有很多投资人问我一个问题,就是大模型有没有门槛。曾经这个说法很极端,当年它会被描述成像 原子弹一样的高精尖技术,但是最近很多公司都发布了自己的大模型产品。训练大模型有几个关键步骤,第一个找一 个和GPT结构一样的,多层次的开源模型。而真正有难度的是给知识的灌输、数据的选择和清理。给模型灌输什么样 的能力和数据,预示着它未来的能力有多大。
大模型需要在互联网上要找到用户使用,对用户的使用,他想到了各种例子,远远超越我们自己内部的测试。所 以用户的使用的反馈对于大模型的纠正和持续的训练,这样才能构成一个正向的反馈。所以,今天训练大模型,应该 说不难,也有壁垒,壁垒就在于数据、用户的需求,还有标注,就知识的标准,答题的标注,还有用户的使用反馈, 360在这几个方面都分别有自己的天然优势,完整地覆盖了训练的全过程。比如,我们在预训练大模型中有数据的优 势,在全球用户和流量中有工程化的调度能力。
实际上,做搜索的公司都在发展大模型技术,比如Bing、百度、谷歌等。GPT的核心算法就是谷歌提出的开源技 术,之后的几个GPT版本中,也都进行了研究和跟进。但是,搜索引擎厂商发展大模型,不应等到GPT出来之后,而 应该在几年前就跟进,这方面我们确实缺乏OpenAI的那种精神。他们对通用人工智能有一种执念,他们的梦想是把 人类所有的知识训练到一个大模型里,而且坚定地走只有解码器的路线;但我们就比较鸡贼地使用大模型解决一些现 实的问题,比如,广告点击率高一点,推荐的内容好看一点等。但是,我们从善物流,也要感谢OpenAI执着地做 GPT,给整个行业指明了一个正确的探索方向。所以,我们把之前自然语言上的积累也搬运了过来。自然语言处理既 是搜索引擎的基础,也更是未来通用人工智能和人工智能理解世界模型的一个重要基础。
今天,以GPT为代表的大语言模型,虽然有很多缺点,比如,会产生不准确的知识模糊,而且做数学题的能力偏 弱,但是他是人类第一次真正地把这个世界的知识、模型在电脑里建立起来。所以,我还是坚定地相信GPT的方向。在搜索方面,我们最大的能力还是数据获取和清洗的能力。我们在全球抓取了1.4亿网站的数据,2.8亿的专业文献, 1.2亿的行业数据,所以规模非常大。经过清洗,还有10T级规模的优质数据。此外,我们还要收集其他语言的知识, 体验语言多样性,所以我们在全球也有信息的抓取。在获取高质量内容方面,其实每天用户在搜索引擎中习惯搜索的 问题,其中也隐含了高质量问题的影子。我们明白用户想来了解什么,才能有的放矢地做知识的标注。
大语言模型最大的短板有三点。 第一个是数据更新不及时。第二个是有时候会产生幻觉,如果写剧本的时候,脑 洞开的越大越好;但如果做医疗方面的工作,开药房或诊断,就可能会出现问题。前两天,美国有个律师偷懒,用 GPT写了一份法律文书,出现了问题,并且被罚了很多钱。这是一个固有的缺点,要通过增强搜索能力来解决,如果 手里没有一个知识积累的搜索引擎,来进行结果的校验。所以,搜索的能力不仅意味着数据的积累能力,也意味着结 果真实性的问题。此外,还有工程调度和工程量问题。在这方面,国内互联网的一线二线大厂具备优势。互联网大厂 具有很强的数据管理能力。
360在搜索行业中第二,百度第一。我们的日均搜索请求量超过10亿次,月度活跃MAU超过4个亿,平均日活接 近2个亿。我们C端最重要的产品是安全卫士,平均月活接近5亿。微软最近推出了一个操作系统的Copilot,通过 windows,把人工智能的能力集成到每一台电脑上,在国内,可能360是最接近微软这个能力的厂商。
发展大模型的三大要素是算力、算法和数据,我今天将其改成算力、数据和训练。此外,我觉得还漏了一个词, 就是安全。在全世界哪一个国家做大模型和生成式AI,都要保证内容不能违背当地的法律法规,要符合当地的道德习 俗。360在安全方面发展了很多年,搜索、安全审核和统计能力非常健全,团队也很庞大。这一点我们在国内也并不 是独特的。如何更加避免GPT不说错话,答案可能是用另外一个GPT来监督它。
大模型的安全问题,除了内容方面,还有更多的内涵。人工智能大模型是把双刃剑,会引发非常多的安全问题。比如,大模型本身会有漏洞,可能被人利用。此外,还有一些来自黑客技术的风险,比如催眠、越狱等。随着技术的 发展,在网上只要找到照片,以及这个人一分钟的讲话,就很可能可以生成这个人达标任何言论的视频,这也会造成 一方面的攻击。在内容生成方面,当然也给我们。带来了很多安全的挑战。所以包括隐私泄露。模型窃取,提示过度 攻击。还有一部分对我们安全的。挑战有一个最大的挑战,他们已经确定了。
目前有人提出一个问题,就是如何能够牢牢把握人工智能的发展,而不让它们逾越人类的控制。这个问题其实是 未知的,但是今天, 360已经启动了安全团队在人工智能安全上的研究。研究分两个方面,一个是以其人之道。反治 其人之身。我们有全球最大规模的网络攻击的大数据,所以我们在训练一个安全行业的智能大脑,这个智能大脑可以 帮助我们更好地辨别黑客的攻击、辨别网上隐藏的攻击,使得我们安全防卫的能力更强,但是更重要的是,我们之所 以要研发大模型,是因为我们不能把大模型当成一个黑盒子。我们要了解它的来龙去脉,了解它的工作原理,才能从 根本上在开发和发展的同时兼顾安全问题,也就是并重发展和安全。360首创了一个大模型安全风险评估体系,下一 步将会公布出来。在未来,大模型一味地将发展,而不讲安全,是走不远的。360既有安全的基因,又有人工智能的 基因。我们把网络安全能力和大模型的研发结合起来,一方面用大模型来加强安全能力,另外用安全能力使我们的大 模型更加可控,这也是360的优势。
算力方面,很多人认为可能卡多就代表算力强。如果比卡数,我们和其他大厂可能比不了,因为他们还在做云服 务。但是,在国内A股的上市公司,我们拥有的卡数是第一的。但是,有了卡以后,如何把集群建好,在训练的时候防止机器断点,如何用合适的卡数训练更大的模型,这里面有很多的专门知识。包括我们在训练千亿级的模型,所需 要的卡数是比较多的,但是可以先在百亿的模型上进行验证,然后再放到千亿的模型上进行实践,可以明显提高训练 速度。国际上无论是做模型的压缩,还是垂直训练,都有很多方法,可以使我们用合理的资源训练出合适的模型。
我们大模型的战略是“两翼齐飞。四路并发”。两翼齐飞是指一方面要发展大环境的核心技术,一方面要场景 化、产品化、平民化、垂直化。在场景上我们分为4步。一路是ToC的场景,比如搜索引擎、浏览器和桌面。第二点 是面向中小企业,这在今天可能不是我们的重点,因为即使把Chat GPT的API给了很多中小企业,也不一定能被很好 的运用。因为就目前来看,使用大模型,选好提示词很重要,但实际上,让所有中小 企业的老板都变成提示词专家是不现实的。所以,提示词是妨碍中小企业使用大模型的一个障碍。很多创业公司就有 了机会,在这些大方向的基础之上,怎么结合中小企业的痛点和刚需,做成面向中小企业不同办公场景和具体需求的 AI工具。还有一个场景就是面向政府和大型企业。很多政府部门和大型企业有很多专有的、保密的数据,以及所有的 行业知识,所以不可能让公有的GPT模型去做,需要一个专有的模型。这里面我觉得在全世界来看都蕴含着巨大的增 量市场的机会。最后,是面向行业的GPT。现在360的GPT能力不仅能够满足自己的需求,我们还愿意把它提供出来,与有行业数据的合作伙伴相结合。
360 智脑具有生成创作、多轮对话、书写代码、文本分类、文本改写、阅读理解、逻辑与推理、知识问答、多语 言翻译十大能力,这十大能力又细分为200多种子能力,已经可以申请试用账号来使用。此外,我们也在努力参加国 内各个评测,我们是国内首个通过信通院AIGC大语言模型功能评测的大模型,10个部分、36项基础能力全部都通过 了评测,我们也参与了编写大模型的国家标准。中国人工智能产业发展联盟是发改委和科技部联合指导的,360是副 理事单位,我们也很荣幸能够参与编写大模型的技术研发标准。此外,民间的评测我们也在积极参加。目前,国内大 模型的发展速度在你追我赶,在不断地相互激励,不断地缩小差距,力求在全球领先。在之前,我说大国之间大模型 的差距差距有一年半或两年,今天我收回这句话,国内同行的发展迭代速度,我认为已经基本赶上或接近了国际的先 进水平。
二、360多模态大模型
3月 29 号我们推了一个大模型 1. 0,当时的能力只能跟搜索结合,还不支持多轮对话。到4月 26 号我们演示了 一下我们的 2. 0 版本,上线了多轮对话。5月 18 号天津智能大会上,我们发布了多模态文生图的应用: 360 鸿图, 同时大模型版本迭代的 2. 5 版本。到5月 31 号我们发布了智脑的视觉大模型,结合我们的物联网场景,同时我们版 本迭代到 3. 0,那么今天我们将会发布我们的 4. 0 版本。今天发布的版本将会是三个关键词:多模态,全端应用,数字人。 下个月我们将会发布我们的 5. 0 版本,将会 支持我们的插件平台,要让大模型不仅仅停留在大脑的层次,多模态是给它增加上眼睛、耳朵、鼻子、嘴巴,插件是要让他有手跟脚的能力,所以这样大模型的能力才能越来越发挥出来。
中国自研大模型弯道超车的关键,其实基本能力、文字的能力都差不多,而且现在在很多方面我觉得赶上了大概 3. 5 跟 4. 0 的差距,我觉得追赶的速度也超出了我的想象。我们可以看看 GPT 的发展路线, GPT 1- 2 都是围绕着文字 为主, GPT 3 把参数做得非常大,出现了 GPT 3. 5,实际上叫 Instruct GPT,这是我们今天看到 ChatGPT 的涌 现,就是我们今天看到 ChatGPT 的基础。我们给个预测:GPT 5 一定是全面的支持多模态的能力。以后中国的大模 型,大家在文字上的较量,可能模型上已经没有问题,剩下的就是靠不断的改正训练的数据,改正训练的,标注的微调。
一个完整的人工智能的大模型,它要有四大能力,一个是文字处理,一个是图像处理,一个是语音处理,一个是 视频处理。过去的大模型只能输入输出文字,但他看不懂图片,没有眼睛,听不见声音,没有耳朵,没有嘴巴,也不 能说话。同时对图片和视频也缺乏理解,所以这里边就衍生出 8 个功能:文生文,写高考作文;文生图;文生表格;图生图;图生文;视频理解;文生视频。
多模态的能力,有两点非常重要:第一个,曾经有科学家感慨,大模型做到一定程度会不会人类的知识不够用 了,因为 GPT 4 学习的 TOKEN 的数目已经大概接近 4000 万本图书,而人类有史以来的图书也不过就1亿本,也就 是学了快一半了。但是大家想想,我们人类是怎么学习的?我们人类是怎么训练的?当大语言模型有了多模态能力之 后,他获得的知识就不仅仅是来自于文字的知识,它可以来自于图片,来自于视频。未来有了多模态能力之后,当大 语言模型跟人类世界里的摄像头发生了连接之后,他每天都可以看到有多少人在摄像头前面在谈话,在发生各种各样 的事件,他对我们这个世界就会有了新的学习能力,有了新的知识的理解,所以多模态的能力非常重要。
(1)360 智脑文生图多模态能力:请生成熊猫爬长城。
(2)360 智脑图生图多模态能力:以证件照生成为例,点击上传图片
(3)图生文:过去我们人脸识别、图像识别需要经过很多的标注,标注完了能认出图片上有猫、有狗、有大海,但 它不能解读背后的意思,它不能把图里的这种情绪表达出来。所以我们原来做家用摄像头的时候,我们特别希望能够 发现一些场景,比如说老人摔倒在家里,比如说小孩爬到窗户上,处在一种非常危险的状态的时候,传统认知能力的 大模型是无法达到这种能力的。但是在有了对这个世界的模型有了基本知识认知的一个大模型的基础之上,再来做图 像的训练,你会发现它能读出很多画外音。
演示:
Q:这是谁?
A:蒙娜丽莎是文艺复兴时期著名艺术家达芬奇的杰作,以女性为主角,描绘了一个美丽而神秘的微笑。
Q:这张图有什么不正常的地方?
A:这幅画不正常的地方是画中的女性手臂和肩膀上的肌肉线条非常突出。这种肌肉线条的描绘在文艺复兴时期的绘画中并不常见, 因为那个时代的人们更注重整体美感、和谐感。然而,现代的艺术作品中,这种描绘方式仍然被广泛使用,以强调力量、肌肉表现等视 觉效果。这个的潜力非常大。比如说在大模型出来之前,实际上真正的无人驾驶是没有被实现的。为什么所有的自动驾驶 都是辅助驾驶?因为你无论在你的车上装多少激光雷达,装多少毫米波雷达,装多少摄像头,但是你是工作在感知层 面,你虽然能感知到前方有路障,但是人的工作原理不是这样的。你作为一个司机,当你看到前方有一个障碍物,你 的大脑马上会做出一个认知的反应:是一个婴儿车吗?我应该避开;还是一个硬纸盒?还是一个交通墩?那我应该转弯。所以人类能够自如的驾驶汽车是因为人类对很多感知的情况,在认知层面进行了判断,所以将来的车载大脑如果 对任何一帧画面都能做出这种认知层面的判断,我觉得大模型能够帮助我们的自动驾驶早日实现 levelfive 或者 level four 级别的真正的自动驾驶。
(4)360 智脑视频声纹多模态能力:帮我检测高层建筑。
(5)文生视频:目前国际上的有类似的公司,大概只能生成 10 秒的视频,这些视频的分辨率目前还都不够高,也 只有 5 秒到 10 秒左右 奔跑的野马: 未来大模型的能力是多模态的能力竞争,这也是为什么我们把这次智脑的版本命名为 4. 0,只有多模态的全面的 能力,才能预示着大模型真正的走上一个新的台阶。
三、应用落地的问题和应用场景
中国已经进入“百模大战”,基础能力各家都差不多。特别是互联网公司,比如百度、腾讯、头条,还有阿里,包括 360 都有自己固有的场景,大家会在自己固有的场景里会把自己的 AI 能力把它赋能。真正比拼的还是应用落地的能 力,就是如何让 AI 真正让普通人,让普通的企业能用的方便、用的简单。
微软已经率先把AI能力接入了旗下的全家桶,所以我们也将在一两个月之间思考我们所有的产品如何重塑。我们 360 的全家桶也全面接入 360 的智脑。无论是我们的安全浏览器,将来 SaaS 化的入口,还是搜索、安全卫士,桌面 级的产品。360 全面的拥抱大模型,所有的产品都能成为智脑的入口,都有智脑的能力,所有的产品都将重塑。
“360 智脑全面接入 360 AI 全家桶, 360 AI 桌面, 360 安全卫士接入 360 智能悬浮桌面,一键唤醒,输入问题即可生成答案。 AI 辅助桌面工作,竖智办公,一触即答。 360 AI 浏览器浏览网页划词或点击右上角入口,唤醒 360 智能一键翻译解释改写右侧对话 框,直接为你生成长篇文章报道,一键总结,更有多轮追问,快速获取关键信息,上网更加省时高效。
360 AI 搜索新版搜索为你带来更优质、更有趣、更多灵感的对话式搜索体验。点击继续对话,进入基于 AI 的对话式搜索界面,意 图精准分析,获得最优结果。多功能插件让大模型具备执行力。 AI box 智能连接,更多服务。 AIsug 结果关联推荐,最少的输入,获 得最有效的信息。更多 AI 功能持续开放,全新办公方式正在为你生成。”
必应、百度还有谷歌,大家都在思考搜索的未来会是怎么样,我们也探索,既给用户保留了传统搜索的入口,在 右侧增加了一个 AI 的对话界面,但对于比较激进的喜欢拥抱 AI 的用户,我们给了一个完全 AI 主导的对话式的搜索 界面。浏览器未来会是大量中小企业办公的入口。因为各种生产力工具、各种 SaaS化的工具入口都在浏览器,所以通 过浏览器引入 AI 的能力,可以使得 AI 的插件可以和各种 SaaS 化第三方的工具发生 连接。最重要的是桌面,很多年以前微软就在桌面上放过一个智能助理的图标,是一个回形针,时不时发出一些声 音。我们借助 360 安全卫士的电脑优化球把360智脑全线引入桌面,也就和整个操作系统紧密地结合,使得在桌面上 只要把鼠标移到最右侧,360 智脑的桌面板就自动的滑出来,为你提供服务。
360认为刚才的软件还仅仅是在现在的场景上打补丁,不是真正的终极解决方案。终极的解决方案就是AI 的进化 要以人为本,大模型应该成为人类的朋友和助手。但是如果仅仅把大模型变成一个简单的搜索框,并不见得对每个人 友好。我自己用了大模型好几个月,我刚刚才在如何写prompt,就所谓的提示词方面才找到点门道。
实际上我们很多人在使用 GPT 的时候,因为不太会用prompt导致吃很大的亏。举个例子, ChatGPT 4. 0 的能 力大概比 GPT 3. 5 的能力要领先30%,一个是 100 分的话,一个就是 70 分。但是如果 prompt 写的不好,其实没 有必要用 ChatGPT 4. 0,因为 4. 0 在你手底下也用的就是 60 分的水平。如果你还是把它当一个搜索或者简单的聊天机器人用,简单的提一些想法,比如写个文章标题之类的。很有可能 promote 提示词写得比较差,那么无论用哪家的大模型,你都只用了他 20 分、30 分的能力。这个对我们做大模型 的来说,即使我们做到了 80 分、90 分,因为用户的使用能力而导致不能表达的淋漓尽致,所以我们在想如何在 GPT 大脑的基础之上,把刚才的这种多模态的能力融合在一起,把它包装成是一个真正的数字人的概念。
未来可能浏览器也未必是入口,搜索也未必是入口,桌面也未必是入口。未来人工智能大模型可能是对我们每个 人和对每个企业来说最合适的入口。今天发布会最重点是想讲我们 360 推出什么样的数字人,但是我们推出的时候 大家也很犹豫,因为有很多公司像硅基智能等很多公司都已经做了数字人。传统数字人的概念跟我们的概念是不一样 的,360智脑希望重新定义数字人。
传统的数字人背后是没有大模型的,更多的是生成的一个形象,有 2D 的,有 3D 的。很多是主播的一个平替, 或者是一个虚拟形象读稿的机器,只要用我一个头像加上一段稿子,配上我的声音,它就自动的把我的要讲的讲话从 头念到尾。这样的数字人,他没有灵魂,不能给你交流,只是按照既定的脚本输出,也没有一种性格和记忆。那我们 能不能打造一种有灵魂的数字人,既然你是360智脑是一个语言大模型、通用大模型,能不能用智脑来支持你的数字 人?使得我们的数字人有人设,有性格,有自己能够复刻我们模仿的人的思维方式和人生经历,而且未来还有还有记 忆,这样才会是真正的数字人。斯坦福做了一个实验,他们用 GPT 做后台,生成了 20 个数字人,在一个数字小镇里 面,这 20 个数字人自己发生了社交,发生了对话,发生了联系,产生了很多奇迹般的结果。我觉得这可能才是在探 索人工智能发展路上一个有趣的现象。
数字永生概念,或者是数字专家、数字科学家概念,离我们并不遥远。我们也在想,比如说有没有可能模拟出来 一个马斯克,模拟出来一个爱因斯坦,模拟出来一个周鸿祎。他能够模拟一些明星的这种说话口吻、名人的思维方 式、专家的知识和积累,使得我们能够跟他去交流。所以这一次 360 推出了一个数字人广场的一个平台,目前里面 有 200 多个角色,当然最重要的是每个人自己可以定制你们希望的数字人。角色有两大类:一类是数字名人,一类是数字员工。
数字名人可以是明星偶像、历史人物、大师先贤、文学IP,可以是马里奥兄弟,可以是古墓丽影的劳拉,也可以 是你最喜欢的某个明星。对很多企业和办公一族来说,你可能需要很多数字专家、数字员工、数字助手,不是只有当 老板才有助理,我们做人工智能最重要的是让每个人可以有一堆助理为自己所用,自己要买房子,可以有法律助理。 背后是智能的能力来做这种支撑。所以我觉得数字人最重要的一定是能够有自己的人设,然后能够自主学习、能够连 接外部系统。所以未来有很多工作靠 GPT 是完成不了的。大家也知道今天围绕着 GPT 出来了,很多新的工作模型, 也就是让 GPT 没有记忆的可以有记忆,让 GPT 没有目标的可以有目标,那我们将来这些能力都能把它落实在数字人 的目标里边。所以未来数字人一定不是一个简单的对口型的形象,也不是一个简单的一个念稿的机器,而是能够真正 的跟我们每个人进行对话交流,对我们来进行一些帮助和讨论。比如说你喜欢读红楼梦的你可以跟林黛玉对话,喜欢 读西游记的你可以跟孙悟空对话,那么以后也许年轻人不一定是死读书,可能读了一段书之后,通过跟书里的人物去 做交流,可能有意想不到的这个成果。
演示:跟诸葛亮对话。有两种模式,一种是聊天式界面,一种是这种3D 的沉浸式的界面。
唯一的一个问题就是他回答不稳定,在今天上午我们在演示的时候,他的回答是另外一个答案,所以这个还有需 要提高。
最重要的是每个人可以来定制属于自己的数字人。今天我们来定制一个数字人周鸿祎,把我的很多的讲话稿、很 多资料给训练进去。我们可以上传每个人私有的知识库,可以模拟与定义的思维方式、语言风格和知识背景。
只需三步,创建 AI 数字人。第一步,在 360 智脑首页点击创建图标,添加数字人。第二步,添加角色信息,上 传角色头像,添加角色描述。第3步,导入角色资料,上传个人知识库,让数字人获 得知识。
只要定义好你的人设,定义好你的背景,定义好你的说话风格,最重要的是要把你的私人资料库要收集好。比如 说我所有的讲话,我发过了微博,我写过了朋友圈,包括我们有了多模态能力之后,还可以直接把很多我的视频直接 上传,他从视频中把我的讲话解析出来,这样的话给的资料越多,他越能模拟我们这个数字人的这个生活经历,越能 模拟他这个角色。
在我们这个行业里科技一个最重要的概念,一定是科技平权,一定是技术民族化,技术平民化,今天我们的想法 是每个人都会有自己的数字助理,每个小公司都可以有自己的数字员工,每个人也可以创建自己的数字人分身,这样在直播的时候是能真正的回答问题的,至少能代表你的想法。
周鸿祎数字人演示
我们设想一下,如果我们大家参与进来,如果我们不是 200 个数字人,我们是2万个数字人,或者 200 万个数 字人,那这个世界会变成什么样子?我们可以想象一下,这个也是我们下一个版本很快要发布的一个目标。未来数字人会继续迭代。现在的数字人我们并没有追求他的声音跟你很像,那么现在的视频也是比较简单的,用 几张图片来构成了一个动图,那未来我觉得在声音视频方面会更加的逼真,但最重要的就是它要拥有长期的记忆。
我们的数字人不但拥有在背后来调用大模型的能力,而且它可以拥有大模型不具备的记忆能力,拥有长期的记 忆。同时数字人可以拥有自己的目标规划和分解的能力,这样使得它不断的来调用各种垂直的模型来完成它的任务。 还有就是我们要打造一个插件平台,它可以利用搜索,可以浏览网页,可以在你的电脑上读取文件,利用手跟脚具备 执行力。总而言之,我们希望数字人把智脑藏在后面,能够以一种更加拟人化的,更加个性化的做法和思路,能够为 我们大家提供娱乐和工作的这种服务。
这里边有一个策划总监,有一个创意总监,这创业总监是数字人,还有一个策划总监,他来交一份策划的文案, 这里唯一的真人可能是这个市场的杰森,然后绘画师也是数字员工,让他来负责把这次市场活动的市场的素材把它做 出来。这里面有一个文案专家,可以一键生成优质的文案。还有一个社媒运营专家,是专门想在不同的社交媒体上做 标题的策划。
我们今天用GPT、用大模型的时候,会觉得有的时候给你的答案是好的,有的时候给你的答案不尽如人意。但如 果有多个数字,人有不同的人设,不同的经历,不同的角色背后都是人工智能在驱动,让他们一起来帮你做脑力激 荡,一起来跟你完成共同的目标。这可能是人工智能在目前智脑的基础之上,对智脑做了一个更大的提升。
所以今天我们360智脑推出 4. 0,一个重要的标志就是多模态的能力,就是我们的大脑不仅能够识别文字产生文 字,还能够识别图像、识别视频,产生图片、产生视频。当然声音的处理也不在话 下。第二个就是我们今天全线的产品都会加入360智能,那么我们会给利用我们的产品优势,给中国的互联网用户提 供唾手可得的人工智能的体验。第三个就是有灵魂的数字人的概念,每个人可以定制可以来跟我们定制的数字人进行 自由的交流,可以有娱乐的话题,也可以有工作的内容。而且最重要的是在座的每一位如果觉得不满意,还可以定制 属于自己的专属的数字人。每个公司都应该定制一个属于自己公司的数字人,可以替你做新闻发言人,可以回答问 题,所以你可以建立自己私有的知识库。
未来数字人可以拉群,可以在论坛里交流,可以相互留言,可以在群里争论问题。所以未来人工智能的发展不仅 仅是只有大模型核心能力的增加,各种外部功能的包装,各种产品的定义,我觉得会让人工智能跟我们每个人的工作 生活贴得更近,会让我们每个人更自如的去使用人工智能的功能。
亲爱的粉丝朋友们,有更深层次纪要需求的研究者们,纪要加油站现已开通纪要包年服务。可大大节约您的时间成本,缩短信息差,或者您有资源又不好意思频频找朋友索取的,纪要加油站保障您的投研后勤之路。保您物超所值,纪要覆盖广,日更新近百条,文字纪要、录音、点评、数据、会议通知每日更新,一站式投研,可加客服微信订阅超全包年纪要,感谢支持!
注:以上纪要仅供参考和交流使用,不作为投资建议。
网友评论