编辑整理:整理来源:百度知道,浏览量:79,时间:2023-02-28 07:00:02
opaictgpt的未来,change未来,未来 et
大数据文摘授权转载自险峰创
作者:险峰
2023年险峰线上沙龙的第一期,我们和四位行业大牛聊了聊最近大火的CtGPT。
首先介绍一下本场嘉宾:陶芳波博士是前Facebook高级研究科学家,回国后进入阿里达摩院,搭建了阿里的神经符号实验室,属于全球最顶级的AI科学家之一,目前正在创业,担任人工智能公司「心识宇宙」的CEO。
黄东旭是险峰的老朋友,「PingCAP」的联合创始人兼CTO,他本人是国内最早一批开源数据库的创业者,在程序员圈子里非常活跃;PingCAP也是目前Infra领域估值最高的科技公司之一,险峰曾在天使轮分别投资了PingCAP和心识宇宙。
费良宏老师是AWS的首席架构师,曾供职于微软、苹果等多家硅谷巨头担任技术顾问,在云计算行业里深耕多年;龙波博士目前担任Meta商业化AI研究团队的负责人,之前曾深度参与过京东搜索推荐算法的搭建。
此次圆桌由险峰长青投资副总裁李抗主持,李抗主要专注于人工智能、机器人、云计算等方向的投资。
本次我们将聊到:
CtGPT 效果如此“炸裂”,AI从业者们事先是否预见到了?
CtGPT 是否能理解语言逻辑本身?
为什么谷歌没能做出 CtGPT?
开源圈和云计算巨头是如何看待 CtGPT的?
CtGPT 能让TMT投资人“再干15年”吗?
CtGPT 正在对哪些工作岗位造成影响?
CtGPT 广泛使用后,人的认知能力会下降吗?
CtGPT 会导致哪些行业消失?哪些公司急需转型?
小公司如何抓住 CtGPT 的逆袭机会?
硅谷现在如何看待 CtGPT?
普通人如何拥抱 CtGPT ?报考计算机专业还有前途吗?
OpAI的组织设计给创业者带来哪些启示?
CtGPT效果如此“炸裂”,AI从业者们是否预见到了?
险峰:去年AI作画也火过一阵,但都没能像CtGPT一样让普通人感到震撼,似乎是一夜之间,AI就达到了一个如此炸裂的效果,基于各位对NLP与AIGC的理解,这种进步是在意料之中还是意料之外?陶芳波:刚才主持人已经介绍过我的背景,我本人从读博士到后来工作创业,一直在从事AI相关的科研工作,但坦白来说,这次CtGPT给我带来的震撼,并不亚于屏幕前的每个人。传统上,越复杂的技术,信息壁垒也越高,所以过去的情况往往是,行业内的人都已经知道技术发展到了什么水平,但大众可能还不知道;而CtGPT完全不是这样,它刚刚诞生3个月,我们就看到无论巨头大厂还是AI科学家们,都马上进入了一种非常紧张的应对状态,甚至可以说是应激状态。CtGPT突然具有了这么强大的通用性能力和逻辑推理能力,是超出很多AI从业者设想的。为什么这件事会发生?我仅从个人角度做一个简单的总结。第一,是大数据和大算力的发展,这是一个基础。2012年深度学习刚刚诞生的时候,大家就尝试把更多的算力和数据灌输到一个模型中去,让AI具有更强的能力,这个逻辑在今天依然没有变化。我们知道人脑要比动物的大脑更聪明,两者最直观的差别,是人脑的神经元和神经突触更多,比如人脑的神经元有1000亿,神经突触可能有几万亿,今天CtGPT可以达到上千亿的参数量,已经跟人脑比较接近了,量变才有可能引发质变,AI的发展首先要靠算力数据的指数级发展。第二,是在人工智能的发展背后,其实一直有「专用人工智能」和「通用人工智能」的两派观点的争论。以前我们熟悉的人工智能,比如计算机视觉算法和自然语言算法,都属于「专用人工智能」。而在他们以外,其实一直有另一拨人在尝试,有没有可能把单个的专项AI变成一个通用AI?用一个统一的大模型来解决所有的问题?这里面有几个关键性的节点,首先是2017年,谷歌大脑(Google brain)发表了一篇关于transformer的文章,奠定了包括今天CtGPT所有技术的基础,细节这里不展开了——总之它让很多人意识到,通用型AI是有可能被造出来的。对此,谷歌的做法是首先搞一个底座,这个底座叫做「预训练大模型」,然后不断向底座里灌输数据,让它上面能长出一个个小模型来,再用这些小模型去解决不同的任务。这时出现了一家公司叫OpAI,他说我不相信仍然需要训练小模型来造出通用AI,那我能不能直接让大模型去阅读互联网上所有的数据?砍掉中间环节,直接让人用语言去和大模型交流?基于这种思想,OpAI在2018和2019年,分别推出了GPT1和GPT2,但当时它的通用性还不强,没有引起太多关注,然而到2020年,第三代也就是GPT3出现了。GPT3直接把模型参数量从15亿提升到1,750亿,接近了人脑中神经连接的数量水平,这时一个神奇的事情就发生了,AI开始「涌现」出了一些人脑独特的能力,甚至出现了逻辑判断能力,这在以前的机器学习界是不存在的,我甚至觉得连OpAI内部都不一定能预判到这件事情会发生。而这个GPT3,就是今天CtGPT诞生的起点,正是因为GPT3的出现,大家才开始去基于它去开发一些全新的AI能力。可以这么说,从2020年的GPT3开始,整个AI行业都进入到了下一代范式,至于它的边界在哪里,大家都不知道,没有人有足够的认知。这也是我想讲的第三点,就是OpAI之所以能超越于谷歌,是他们真的在尝试理解「学习」这件事的本质。早期的AI要靠人工打标签,要一个活人坐在屏幕前告诉机器——这是一只猫,这是一只狗;之后发展到GPT3,这时已经不用再打标,而是让机器直接去阅读大量的数据,看它能不能找出里面蕴含的规律和规则。在这个基础上,OpAI又进一步,他们说既然AI已经学了这么多知识,那下一步就是怎么把这些知识输出来,变成人可以用的东西;于是OpAI开始教大模型如何自我改造,更好的去解答人类提出的指令,而后甚至演化成AI自我对抗一个人类制定的判断标准,完成AI的“社会化改造”,到2022年,CtGPT横空出世了。刚才东旭提到,他现在每天都用CtGPT帮自己写代码,代码其实比自然语言更有逻辑性,站在AI的视角,等于你也是在帮它培养逻辑能力。如果说GPT3还在无目的数据中学习,到了CtGPT就已经变成了“在应用中学习”。整个过程真的很像一个年轻人走出校园,进入到公司中实习的感觉。所以我们可以看到,OpAI一直在探索人类学习的本质是什么,当他们把这一整套工业化的体系和自己对AI的超前认知整合到一起,就创造出了CtGPT,这时候所有人才发现,原来我们已经落后了OpAI这么多,我们还在模仿人家2020年的GPT3版本。所以CtGPT不仅对普通人是震撼,对大公司来说更是震撼,我们必须去面对这个全新的现实,思考该怎样迎接这样一个新物种的出现,以及未来人类分工的变化。费良宏:我补充两句,今天我们看到市场一夜间被引爆,但背后绝不是一日之功。首先是2017年transformer那篇论文,将整个NLP市场完全被颠覆了。以前很长一段时间里,大家都觉得非精确的模糊化语义很难被突破,但transformer出现之后,一下把NLP精度提升到了无法想象的量级。这时所有人的研究方向全部都开始转向了transformer,这是一个里程碑式的改变,我觉得怎么样去夸它都不为过。第二个是算力,刚才陶博士也提到,最早的时候我们自己搞一台电脑,装上1080Ti都可以跑一些模型,但今天由于参数提升,千亿级规模的算力已经不是普通人能参与的,也许真的是大力出奇迹,诞生了CtGPT,那么未来延续着这条路,不断堆积数据量,增加模型的数量,比如据说GPT3使用了45PB的数据量,未来是不是可以用100PB数量、万亿级参数甚至更大规模的算力?或许真能诞生出一个非常强大的通用型AI,对此我是比较乐观的。龙波:我对于CtGPT的出现并不特别惊讶,准确的说,是对它的效果不惊讶,但是速度上我还是挺惊讶的,没想到会来的这么快。刚才几位都谈到了一个重要的点,即transformer的里程碑作用,这里我想从NLP的角度分享一下,为什么它是里程碑?从NLP发展的逻辑来看,最早的NLP模型是基于对单个单词统计来做的,到后来卷积网络(CNN)出现,机器开始能够基于两三个单词来理解词义;再往下发展到RNN时代,这时AI基本上就可以沿着整个sequence进行积累,可以理解相对长的短语和句子,不过依然还无法真正理解上下文。随后一个很重要的突破,是「注意力机制」(attention model)被提出,其实transformer的核心概念也是来自于此;在这个阶段,AI开始能够结合所有上下文,理解每个词之间表达重要性的不同。这就很像我们的快速阅读,为什么人类能够做到“一目十行”,是因为我们能看到一些关键词,而每个词的重要性不一样。「注意力机制」正是起到了这个作用,它告诉AI各个关键词之间的关系如何,谁重要谁不重要。整个行业再往后就是transformer诞生,然后Bert(Bidirectional Encoder Representations from Transformers)诞生,其实Bert也非常重要,就像陶博士刚才提到的,Bert可以使用大量没有标注的数据,自己创建一些简单任务来做self learning。举个例子,比如一句话,AI会把其中的一个词藏起来,然后猜这个词应该是什么,有点像机器自己和自己玩游戏,如此它的语言理解能力就变得越来越强——我觉得到了这个时间点上,当AI开始利用大量非标注数据完成自主训练,CtGPT的出现就只是个时间问题了。但是这也是它的局限性,CtGPT无论如何惊艳,它仍然是个统计语言模型,本质还是基于它所看到过所有数据,用统计意义上的预测结果进行下一步输出,当它拿到的数据里有逻辑的时候,它会通过统计的方法把逻辑找出来,让你感觉到它的回答很有逻辑,但假如它读了很多杂乱无章的文本,它一样会说话没有逻辑,这是统计语言模型天生的缺陷。所以我并不确定,未来随着参数越来越多,CtGPT能否真正成为AGI(通用人工智能)?因为人的推理能力并不完全基于统计信号,这是我个人比较保守的看法。CtGPT是否能理解逻辑本身?
险峰:这个话题本来是后面的,正好提到了就提前探讨一下。现在很多人会觉得CtGPT很酷、很有逻辑,但有的时候也会觉得它在一本正经的胡说八道,有些很简单的问题它会答错,这件事反过来也会让大家好奇,CtGPT是否真的具有逻辑?或者说理解逻辑?对此,也有两派观点,一派是觉得极致的模拟就可以实现逻辑,虽然只是基于统计学,但看起来有逻辑其实就等于逻辑本身;另一派觉得所有模拟都只能得到大概的正确,最后还是要建立在极其精准的规则之上,两派的分歧可能就是统计和规则的区别。此外还有第三种观点,借鉴了生物组织的复杂性来解释这个问题,比如蚁群,单独一只蚂蚁可能不知道自己在干什么,但是一个蚁群就可以做很多复杂的事情,这两者也类似于神经元和大脑的关系,对这个问题也想听听几位的思考。黄东旭:先说一个外部视角,我最近一直在用CtGPT写代码,可能是玩的确实太多了,基本没有遇到AI胡说八道的情况;个人观点,很多人觉得它不准有两种情况,一种是问题没问对,如果问题本身是模糊的,它给出的答案也会是模糊的,比如一些开放式的问题。第二是它有些回答不一定是假的,只是中间跳过了很多步骤,比如一个问题,需要从A到B再到C依次推理,其实每一步都会有一些假设,但如果某个假设错了,答案也会出问题。所以我们内部在使用时,会不停地教CtGPT如何思考,跟教小朋友一样,他回答错了就跟他说,你要不再读一遍题目?或者直接问他——那你觉得这个问题应该如何提问?最后你会发现,只要你把你想要的思考方法教给他,他回答的准确率会非常高。注意,在这个过程里,我们并没有向它提供任何的信息增量,所以我觉得CtGPT已经超越了一个传统意义上的语言统计模型,绝对不是单纯的鹦鹉学舌,但我也不知道它为什么会有这个能力。陶芳波:我也简单说一下我的看法。我观察到一个现象,在GPT3出来之后,特别是今年CtGPT出来之后,很多AI领域非常资深的人都在激烈地反对大模型。我曾经也有这样的心态,觉得这个东西也许就只是一个统计模型,解决不了人类的终极问题。但是现在我认为,这样的思想说严重点,就属于是“旧时代的余孽”,当然这句话是自嘲的,因为我曾经就是旧时代的余孽,但今天我选择去拥抱他。因为对于人工智能,我们永远都可以从「它在某某事情上做得还不够好」来批评它。但是如果我们回过头来想一下,一个人如果只有大脑,我们的逻辑能力又有多强?人的所谓逻辑能力,说到底也无非是通过直觉,跳过两三步来推演出一个结果,如果真到了六步七步的推理,我们光靠一个大脑也解决不了,也需要草稿纸和计算器,换句话说,人类也是要通过外部工具来增强逻辑能力的。从这个角度讲,今天CtGPT所涌现出来的逻辑能力和人是其实差不多的。但是大家低估了一个东西,如果用发展的眼光再往前推一步,你觉得OpAI下一步会做什么?微软下一步会做什么?一件非常可能的事,是他们会把CtGPT跟各种各样的工具结合起来。那时,CtGPT完全可以把这些工具变成自己的“草稿纸和计算器”,他自己只完成逻辑的部分即可。所以,我们其实可以把CtGPT当做是一个非常稳定的原始大脑,未来他还将去学习使用工具,那时他所具有的能力会比今天大得多,这将是一个非常有想象力的未来。费良宏:非常认同陶博士,前几天看到LeCun在推特上跟人论战,谈CtGPT对于AI的影响,我也有同样的感觉,就是可能很多人对CtGPT的判断太拘泥于以往的经验了,还是把它当做是GPT3或者GPT2。比如OpAI在发表CtGPT的那篇论文中,专门提到他们使用了人类反馈的强化学习,去弥补堆砌资料造成的一些不足。所以某种程度来讲,CtGPT的逻辑不仅仅是来自于文本的训练,还来自于人类给它的主观反馈,我们利用这种奖励机制,让AI产生一种内部的自我判断能力。我觉得这是一种非常巧妙的进步,相当于把强化学习跟大模型结合在了一起。今天可能我们的资源投入还比较有限,让CtGPT不足以解决更广义上的所有问题,但未来如果我们的投入足够大,强化学习的引入程度足够高,机制设计得足够巧妙,会不会结果也将远远超出我们今天的预期?不过,这也引出了另外一个问题,就是关于CtGPT倾向性的争论。随着人类用越来越多的反馈干预了它的判断,那会不会让CtGPT带有某种思潮,比如说政治倾向,最近我看到国外有一些人对它进行测试,发现它在政治上并不是完全中立的,是一个左翼的自由派环保主义者。从这个角度出发,我认为CtGPT是具有逻辑的,因为这个逻辑是由人赋予他的,也是人自身所存在的,这是我的看法。龙波:当一个非常有冲击性的产品出来后,人的观念很容易受到冲击,但这里还是要看一些根本问题是否发生了改变,这个话题涉及到一些更深刻的东西,即我们如何理解统计模型?比如大家都提到,CtGPT反馈模型的提高,这是一定的,因为你给了它更多的统计数据,不论是用AI的方法,还是传统方法,模型都会提高,LeCun也谈到过这个问题,他并不是反对统计模型本身,他只是想说,如果我们要创造真正的通用人工智能,仅仅靠统计模型就够了吗?统计模型应用在人工智能领域已经几十年了,到深度学习神经网络达到高点,但是我们想一下,人的认知是纯粹基于统计的吗?我们每个人都知道,太阳从东边升起,这是我们每天都看到的,100%的概率,这是统计学上的认知,但是我们没有停留在这一点,我们最终理解了行星之间的相互作用力,从物理学的角度解释了这个现象。所以人类认知的本质是什么,我们对此的认知也还不够透彻,我觉得大师们是想说,统计模型之外,还有什么东西让机器能更接于近人?这个问题其实没有答案,他想表达的是一种op的心态,即统计模型不能解决一切,它甚至都没解决我们自己认知的问题。为什么谷歌没能做出CtGPT?
险峰:刚才大家都提到了transformer,它其实是由谷歌发表出来的,但今天做出CtGPT的却是微软系的OpAI,各位觉得这背后的原因是什么?龙波:确实很多人都有这个疑问,但其实到今天我依然认为,谷歌在技术上是非常领先的,CtGPT最关键的核心模型起点,无论是transformer,还是后来的bert,这些概念都是谷歌首先提出来的。我们知道微软在算力方面给了CtGPT很大帮助,但谷歌自己的TPU研发能力也非常强大,谷歌不缺算力,更不缺数据,但正因为如此,大公司要做出这种创新性很大的产品,注意我是说产品,一般都会被自己的优势束缚住手脚。首先谷歌是一个搜索引擎巨头,它对此非常自信,这反而让它对其他系统的投入和关注都不够,在我看来,谷歌被CtGPT反超其实是有先兆的。比如语音助手,坦白说谷歌的产品是不如亚马逊和Siri的,像Google Assistant ,采用的依然是搜索引擎的用户界面,你给它搜索词,它就给你最高质量的回答,强调的还是单次交互,这种观念已经深入产品的设计之中,我觉得在互动体验上谷歌的投入是不足的。但这并不是说谷歌技术不行,我有不少前同事就在谷歌research工作,他们的技术发展得非常好、非常成熟,他们有最好的资源可以从事研究,但是他们认为搜索是他们最重要的产品,他们会下意识的用搜索的观念去做一些新产品,对用户的交互式体验本身就没有那么注重,这是我从产品角度的观察。费良宏:这个话题让我想到一段商业史故事。世界上第一台数码相机,是一名叫史蒂夫萨森的工程师在1975年发明的,他后来被称为"数码相机之父",但是当时,他是一名柯达公司的员工。后来据他回忆,这是一次前所未有的尝试,“公司内的反之强烈超出了他的想象”,结果38年之后,由于数码相机的崛起,传统胶片时代的王者柯达公司破产,我觉得回顾历史,跟今天也有非常相似的地方。今天整个搜索市场,谷歌占了96%,微软只有3%,但因为CtGPT的出现,微软很可能也会颠覆搜索领域的格局,而谷歌空有技术却没有做出这个产品,我觉得可见一斑,历史总是惊人的相似。黄东旭:这是件特别有意思的事情,因为以前扮演这个颠覆者的,其实是Google自己。2000年的时候,雅虎的地位就和今天的Google一样,当时雅虎的搜索引擎走的是人工标注路线,说你看我人工标注的黄页多准确,而Google是当时几个大学生搞出来的,结果历史又一次重演。如果抛开数据量和算力这些硬性限制,只去看里面最核心的代码量,其实就是一个小团队就能写出来的。一家巨头再次被一家小公司打败,我觉得这就是软件行业有意思的地方,一个非常硅谷的故事。开源圈和云计算巨头是如何看待CtGPT的?
险峰:谷歌的早期模型都是开源的,但CtGPT却选择了闭源,结果在2个月内用户破亿,东旭对此怎么看,CtGPT的选择对于后来者是否有参考价值?黄东旭:我觉得CtGPT的成功,并不在于开源或闭源,而是它向整个业界证明了某种技术的可行性,其实开源的工具一直都在,关键是有没有人会拿出几千万美金去做这些东西,对此我是比较乐观的,据我所知已经有一些开源项目在做和CtGPT差不多的事情,未来很短的时间之内,一定会出现一个开源的通用语言大模型。它可能没有CtGPT那么强,但是也会大致够用,甚至可能是一个通识模型,你可以把它装载到自己的系统里面去,跟它一起去协作,我觉得很快就会有人沿着CtGPT的路线,做出可以私有化部署的开源大模型,可能会是一个大厂或者一个foundation,每隔半年change一次,然后大家下载下来用。险峰:云计算大厂们怎么看CtGPT?费良宏:AI的商业化主要是SaaS化,之前有很多成功案例了。另外从技术角度来看,AI的推理能力API化也已经是一种标准做法,比如在云上部署一个推理服务器,让前端用户可以非常快速地获得图像语音内容,这两种模式在云计算发展的历史上已经被证明是完全可行的。接下来的关键就是如何差异化的大模型,我个人认为,我们可能低估计了CtGPT的工程化难度,比如说并行训练、标注以及数据管理的工作量和成本开销,都会是非常巨大的,所以我不认为在短时间内,会有大量能完全媲美CtGPT的竞品出现。当然,下一步还是有很多人会去做与CtGPT类似的事情,但是我认为时间上可能会比较久,这其中,我个人比较看好谷歌和微软,因为他们之前的积累已经有足够多。其实刚才也谈到了微软的问题,虽然微软只是给CtGPT投了钱,技术上没有参与,但是从它的布局来看,我觉得微软其实非常有野心,要知道2019年微软就开始向OpAI投钱,第一次就投了10亿美元,2020年就跟OpAI谈妥了GPT3的独家授权,2021年微软就专门给OpAI构建了自己的超算能力。微软提供的这些工程能力和云计算能力,足以确保OpAI继续保持领先优势,如果未来任何一个竞争对手想要超越OpAI,在这些资源上都要加倍付出,甚至要在短时间内实现突破才有可能,但是现在,时间反而是最稀缺的,像之前“学徒巴德”(Apprentice Bard)在谷歌的发布会上“翻车”也说明,互联网产品的竞争是非常残酷的,虽然你也能做出来一个差不多的,但只要你不能超越市场中最好的,那就意味着失败。陶芳波:我接着这个话题稍微说下,因为我们的业务跟大模型接触非常多,首先大模型开源这件事不是刚刚开始,其实去年很多公司已经出来了,包括OPT(Meta AI 的开源项目)和BLOOM(法国政府资助的开源AI),但其实它们和CtGPT的差距非常大。我觉得OpAI的竞争力,表现在他们对于数据使用方式的认知,还有刚才费老师提到的工程能力和数据体系,这套东西不是说拿出50亿美金,招很多的人马上就可以解决的,这是现在很多投资人的误解。另外,我觉得AI的分层其实在今天就已经开始了,像Sam Altman(OpAI首席执行官)自己就说过,OpAI现在就是个Infra,未来在它上面可能会有中间层,这个中间层的作用是帮助一个个大模型Infra变成各个行业里的解决方案。CtGPT 能让TMT投资人“再干15年”吗?
险峰:CtGPT下一步会往何处去?会不会被下一个transformer颠覆?陶芳波:个人观点,我们可以从底层视角来看,比如今天OpAI做出了CtGPT,未来或许还会有GPT4,我们先假设OpAI的技术是最领先的,现在后面有一堆大厂巨头和创业公司,正在或者将要做大模型,那如果我是OpAI,我接下来会做什么?我觉得第一个方向,还是怎样用好手上的现有数据,把模型的潜力全部挖掘出来。下一代GPT的参数量也许还能再大个10倍,但估计也就是这个规模了,不可能再扩大1000倍,因为参数要有足够的数据来匹配,全世界的优质数据就这么多,参数量搞得再大效果也不有太大提升。另一个方向,也是Anthropic提出的,叫做「宪法AI」。就是我们能不能让AI在一套宪法,或者说一套规则下,实现自我进化,最终变得符合这套规则。举个例子,每个国家都有自己的监管体系,比如中东地区,只有符合当地监管的AI才能进入该国,我觉得这会是一个非常好的方向,可以大大降低AI吸收信息的成本,提高它的效率。第三个方向是多模态,让OpAI变成一个思考引擎。我们知道人类的感知不是单一的,而是许多模块组成的,不是说用户说了一段话,我能感受到这段话就够了,最简单的,比如看漫画书,人能够把感知图像和感知文字结合在一起,而不是两个单独的东西。所以我觉得,接下来大模型会在这些方向上继续发展,这是一个底座,这种状态会维持相当长一段时间,而接下来才是更巨大的挑战,无论是投资人,还是创业者,我们到底应该怎样去迎接CtGPT的革命性变化,在它上面重构一个巨大的新体系?举个例子,2007年iPhone诞生,10年之后你会发现整个互联网生态都变了,iPhone上面长出了各种各样的应用,这10年间,全球诞生了多少独角兽,诞生了多少千亿、万亿美金级的公司,这些公司在iPhone出现之前都是不存在的,都是从一个很小的作坊开始做起来的。我觉得今天大量的机会其实是这里面,首先是中间层的机会,就像在大模型外面搭一个脚手架,让它有1000只手1000只脚,可以做更复杂的事情,比如基于如何使用大模型构建一个社区,这是一种最轻量级的创业思路。再比如教会大模型怎么去使用外部工具,怎么样更好的去理解对面的用户,而不只是从文字输入来理解他——这也是我们正在做的事情。在中间层上面,还会有各种应用层,刚才费老师也讲到,AI在SaaS端已经被验证了,但我个人认为这一波AI浪潮席卷的范围会远大于SaaS。因为SaaS更多还是服务于企业的效率工具,但CtGPT肯定会拓展到C端,比如说健身、医疗,都有机会可以重做出一个交互式的软件,把用户界面完全抛弃掉,和移动互联网时代相比,我认为这会是一种全新体验的产品。黄东旭:我也有类似的观点,其实软件的进步一直都是交互方式的进步,以前是字符界面,到后来是UI,沿着这条线往下走,未来最重要的软件交互形态其实就是自然语言。过去我们一直在尝试,让软件的使用变得更加贴近人类自然语言,但是今天我们终于有了这样一个新工具,能重新去塑造我们跟软件的沟通方式。以前我们用软件,比如说Linux,输入一堆命令,机器才能去完成一件事情,相当于我们要去学习机器的语言。但现在有了CtGPT,你可以直接去跟他说,我想要到达到某某结果,我不管你怎么干,最后能给我结果就好,这其实是一个非常颠覆性的东西,所以我们现在正在做的,不断跟GPT磨合的,也是类似的思路。陶芳波:我记得CtGPT刚出来的时候,就有投资人提出一个观点,说TMT可以重新再干15年,我觉得这个逻辑是对的,因为上个时代我们基于移动互联网,做出了各种各样的APP,而今天新的交互形式出现了,每一个细分的赛道上可能都会成长出一个全新的独角兽,或者全新的商业模式,我觉得是一个完全的大洗牌。今天CtGPT的潜力大概只发挥了百分之几,就已经创造出超过了万亿的市场,未来这个规模可能是几十万亿。CtGPT 正在对哪些工作岗位造成影响?
险峰:这个问题是帮别人问的,他是个很早期的NLP从业者,想问大模型出来以后,其他的模型可能就成为历史了,他们这些人未来应该怎么办?龙波:这个问题的答案还是比较清晰的,以前那些传统的NLP的手段,在这个时代肯定是不会再有用了,比如大量的语法树之类,非常繁琐,过去开发过程很痛苦,要一支很大的团队才能做出一个很小的东西,我们肯定不会再回到那个年代,老的技术基本都可以用大型语言模型(LLM,large language model)替代。对于CtGPT的未来,我非常同意陶博士刚才说的,如果只是一味地增加数据或增加参数,不一定还能得到好的ROI,因为你给了更多的数据,就意味着有更多的噪音,最后信噪比可能反而更差,这也是为什么我们有时觉得CtGPT会回答错的原因,所以还是要关注如何提高数据的质量。与数据质量同样重要的,可能是跟大模型的互动。举个例子,如果我们真的要让CtGPT变成某个领域的专家,不再犯什么错误,可以想想我们培养一个PHD的过程是什么样的?他需要和他的导师、行业大牛反复地交互讨论学习,才能最终成为专家,而不是说简单的筛选高质量数据喂给他就完了。如果再进一步,我们要让CtGPT成为真正的通用人工智能,在每个领域都很精深,也需要有一个方法能够让AI迭代高质量数据,所以我觉得未来在算法层面可能会有一些突破,比如说让RL和大语言模型更完美的结合,能够更好地筛选出高质量数据,甚至是自动采集这种数据,这些都会跟人学习的过程越来越像。到那时,我不知道是不是只靠现在的统计模型或者大型语言模型就够了,还是会跟其他新技术绑定在一起,比如现在也有人在研究,怎么把真正的推理能力和神经网络相结合,这是我看到一些未来可能发生的事情。险峰:接下来可能是很多CEO比较感兴趣的问题,创业公司应该如何使用CtGPT ?它将可以替代哪些岗位?黄东旭:个人认为可以从两个方面来看,对内和对外,我先说对外。首先在AI爆发的大背景下,我们做数据库的还是一个挺安全的生意,因为不管怎么样你还是要存数据。在过去没有AI的时候,我要从数据库里提取数据,学过计算机的朋友可能都知道要用到SQL,或者其他语言,总之是需要敲代码才能去跟数据库做交互。举个例子,之前我曾经把我自己所有看过的电影、所有看过的书,全都导到了我的数据库里,我就可以直接去问我的数据库说,在我去年看过所有的电影里,哪个导演的片子最多?他会直接帮我生成SQL,SQL再去数据库里进行查询,非常快速且准确,但是前提是你必须会敲代码,懂得机器的语言。沿着我刚才的理论——自然语言会变成下一个软件交互的UI,大家想象一下,如果你是个CEO,你公司里面有很多运营数据,每次你去找财务,或者数据分析师,说我需要一个某某数据,他可能过好几天才能返过来,但现在如果有这样的一个很神奇的数据库,CEO可以直接开口问AI,比如今年公司花钱最多的部门是哪个,马上就可以得到答案。那如果再推一步,我们把背后的数据集换成了区块链,换成了房地产信息,换成了股市信息,你会发现一下子人人都是数据分析师,这对于各个行业都会是一个巨大的颠覆。至于对内部,我觉得CEO一定要放弃CtGPT可以完全取代人的观念,现阶段肯定是取代不了,但是它能提高人的效率。如果大家写过程序就会知道,一个工程师可能有80%的时间都是做重复劳动,未来这80%的工作其实都可以让CtGPT来做,比如说写文档、写单元测试,生成一些脚手架之类,它不会完全取代程序员,但是确实能带来很大的提升效率。大家如果看过《钢铁侠1》,里面有一个AI助手叫做贾维斯,现在我跟CtGPT的工作模式与它很像,我会告诉它我要做什么东西,你先做一个原型出来,然后一步步跟它交互,告诉它可以这样这样搞。所以至少目前,我并不会把CtGPT当做是一个可以取代人工的东西,而是给所有的工程师都配了一个账号,告诉他们遇事不决先问一下CtGPT,搞不好效率就提升了,这是我大概的经验分享。陶芳波:我稍微插一句,我觉得东旭他们公司很厉害,已经开始使用CtGPT来提高效率了,其实很多国内的公司都可以学一下。另外他讲的第一点我感触很深,数据库公司未来一定会存在,但也一定还会很多有提供其他互联网信息服务的公司,我觉得他们可能都要去思考,是不是今天我暂时是安全的,CtGPT跟我就没有关系?我觉得可以换一种视角,现在的现实是,这个超级大脑已经在那里了,他未来一定是会跟各种各样的东西连接在一起,这里面有一个很重要的点,以前我们说信息服务的连接端口是API,还有一大堆代码之类的,但今天这个端口很可能会变掉,变成一个更加接近于人类语言的东西。所以我觉得每一个服务提供商,如果觉得你的信息服务很有价值,我觉得都可以尝试去拥抱CtGPT,看看怎么跟他建立起对话通道,越早拥抱,就越早可以让CtGPT把你的服务分发到更多的场景、更多的用户。我觉得这件事情谁做得快,谁就可能成为自己赛道里的下一代巨头企业。CtGPT广泛使用后,人类的认知能力会下降吗?
险峰:CtGPT出来以后,主流声音认为以后可能就不再需要搜索引擎了,但也有一些悲观者认为,我们将来接触的大部分信息都会由机器生成,里面会有大量的假信息,这将威胁人类的认知和判断能力,如果我们从小就依赖这样的产品,可能会是一个灾难性,对此各位怎么看?费良宏:这不是一个新问题,其实互联网从诞生之日起,就一直在改变我们使用和消费信息的习惯。比如,最开始出现的是浏览器,它让网页信息变成了一种规范的、可以被浏览的形式;之后,随着信息总量的不断增长,大量垃圾信息开始影响我们的用户体验,这时出现了雅虎的黄页,它通过人工方式去维护目录,给每个网页设置优先级。再往后,当信息量继续爆炸,黄页的维护开始跟不上数据的生产速度,人们慢慢意识到,使用搜索可能会比使用黄页更有效率,这时诞生了最早期的搜索引擎,比如AltaVista和Infoseek,但是它们的能力受限于当时的技术,还只能在一个很小的范围内能进行搜索。后来的故事大家都知道了,1998年,谷歌的两个合伙人开始创业,他们希望用计算机构建一个更广义的集群,通过大量廉价的硬件设备来满足整个互联网的搜索需求。在当时,大家认为这是不可能实现的,但后来的事实证明,技术的进步远超我们的想象,于是人类进入了关键字搜索时代,开始通过搜索引擎来使用和消费互联网信息。到了今天,互联网上的信息总量已经是一个天文数字,你的每一次搜索,结果可能有成百上千页,里面存在大量无用或者重复的信息,那我们应该如何应对这样的局面?这时CtGPT出现了,它可以帮助我们去做总结归纳,如果从信息消费的历史来看,这是一个巨大的进步,这点无可否认。而从历史来看,一旦我们养成了新的信息消费习惯,就没有办法再回到之前的时代,我们不可能用黄页去替代今天的搜索引擎,同样的,未来当我们适应了CtGPT,我们也回不到关键字搜索时代。因此,人类下一阶段的信息使用习惯一定是更高级别的,当然这里还有成本问题,比如像CtGPT的每一次搜索大概需要1.3美分,成本还是比较高的,如果再能降低10倍的话,我觉得整个搜索市场会被完全颠覆。从这个角度说,CtGPT的历史地位可以等价于浏览器的出现,或者是谷歌搜索引擎的出现,人类每一个信息消费习惯的进步都意味着一个里程碑式。龙波:非常赞同良宏的观点,CtGPT的交互方式让我们获取信息更加高效,它带来的影响是不可逆的,肯定会对搜索引擎,甚至推荐引擎都带来冲击,而且我认为冲击会很大。尽管短时间内会有些技术上的挑战,比如如何把CtGPT融入到搜索引擎中去,但我认为这些都不是问题,很快都会被解决。那么CtGPT的挑战是什么?第一个挑战是商业化,任何2C的技术应用背后一定要有商业支撑。刚才良宏谈到谷歌的巨大成功,但是其实在1999年,布林和拉里佩奇是准备以100万美元的价格把谷歌卖掉的,据说最后已经谈到了75万,如果当时交易达成,也就没有后面的故事了;到了2002年,雅虎打算收购谷歌时,开出的价格是100亿美金,等于说4年翻了一万倍。为什么形势会逆转呢?因为商业模式走通了,从display as到search as,搜索广告的收入开始有了巨大的增长,当时所有人都看到了谷歌的商业潜力,所以价值一下就不一样了。也正因为如此,谷歌才能有资源雇最好的员工,创造最好的企业文化。未来CtGPT也会面临同样的问题,比如现在的搜索引擎是靠点击量来收费,本质上卖的是用户的注意力,而如果AI一秒钟就完成了答案交付,那卖广告的模式肯定就不再work了,一定还需要寻找新的商业模式来支撑它,当然,我相信最后肯定也会找到。第二个挑战是人文方面的,刚才问题中也提到了,CtGPT会极大影响人的认知模式。在搜索引擎时代,我们每完成一次信息收集,其实都是完成一次学习的过程。举个例子,比如我们发论文,每篇文章后面一定要有一个reference(参考文献),你要先把前人做出的研究成果讲清楚,再说你在这个基础上取得什么成果,这是一种知识的传接,如果没有reference就不可以被称为学术论文。谷歌的搜索引擎,也是把它认为最相关、最高质量的链接排在最上面,最后还是需要你自己去做判断,这是人类学习的方法,你一定要有出处,要有reference,这是我们作为研究者对人类知识积累的一个基本态度。而如果AI就只给一个答案,会让信息茧房变得更严重。传统来说,我们在互联网获取信息有两种基本方式,一个是搜索,一个是推荐。搜索是说用户知道自己想找什么,我就给他什么,推荐是用户不知道自己想要什么,那我就猜你想要什么。而当CtGPT出来以后,因为它每天都会和你有交互,它会猜得更准确,更严重的是,它还会主动创造出一些让你喜欢的答案或信息,你听了会觉得那就是真实的,而且又没有reference。到那时,我们要面对的信息茧房会比推荐引擎时代大得多,每个人可能只听到自己想听到的,只理解自己能理解的,我不知道这会对人类产生什么影响,但这个影响一定是世界范围的。CtGPT 会导致哪些行业消失?
险峰:在你们看来,CtGPT的出现可能会把哪些行业冲垮?哪些公司现在急需转型?黄东旭:非常主观的个人观点,不一定对。第一我觉得是一些简单的内容编辑,或者简单的内容生成工作,比如写新闻稿、写一些简单的summary,或者一些初级分析岗位,未来可能都要想一想,但很遗憾这样的工作其实可能还挺多的。我觉得CtGPT出来以后,肯定对整个社会分工造成很大的改变,但这个改变不会马上出现,会有一定的滞后性,但是这个改变一定是很深远的。第二是程序员这个行业会被改变,你想象一下,相当于过去大家都是步行赶路,现在突然每人发辆自行车,好处是效率一定会提升,但当有一波人能够熟练使用CtGPT的时候,公司老板就会想,到底还需不需要雇这么多人了?甚至当未来AI能够自己写程序时,程序员在里面的位置又是什么?我自己会稍微有点悲观。