图片来源@视觉中国
AI再次掀起风暴以来,无论是对ChatGPT、大模型、GPT-4的讨论已经铺天盖地。但一些更实际的问题并未得到充分回答:创业公司如何抵御/拥抱GPT-4的颠覆?如何使其与现有业务相结合?传统的AI学术研究如何调整?
蓝驰创投最关注的始终是创业者的所思所想。因此,蓝驰AGI先锋俱乐部近日发起一场先锋聚会,邀请到西湖心辰创始人蓝振忠(Danny)分享了他对大模型的四个判断。上百位俱乐部成员——包括科技创业公司高管、互联网大厂技术人员、高校科研人才们与Danny共同探讨了三个实际问题。
【资料图】
「通向AGI之路」第三期不聊虚的,简单直接回答你的疑惑——
自然语言的对话是如此自然的一个界面,以后很多应用都会用自然语言解决,比如New Bing、Office全家桶。以后可能会有一个超级APP融合所有的功能,大部分的App都会隐藏在背后。
其实一两年前研究领域对大模型还是相对抵触的。在很多人看来大模型其实没有很大的创新性,只是把模型放得很大。但其实语言模型已经有几十年的历史了,本质上大部分算法都是旧的。现在随着这个潮流到来,很多人已经开始接受和拥抱这个变化。更多人的加入会加快大模型的发展速度。
一,整个研究领域都在往前推动,不只是OpenAI。OpenAI的数据飞轮已经转起来,但实际上基础模型部分是大家一起推动的。
二,大模型的优化会diminishing return(收益递减)。开始训练时提升是非常明显的,但到后面优化越来越难。所以虽然现在OpenAI还跑在前面,但我们可以很快就达到80%、甚至90%的结果。
三,学术上有一个说法:把这个模型蒸馏出来。如果我们拿真实数据去训练,优化结果会很难;但是如果我们拿GPT-3或GPT-4产生出来的结果去训练会容易很多。调用GPT-4做标注,就能把它的知识蒸馏出来。
很多人认为开源会使得大模型公司之间的壁垒减少,但其实不是。因为大部分的开源模型,都没有被充分训练;私有化的数据也很难被开源出来。可能最终相比开源模型,闭源模型会吃到更多的数据。
而且目前在很多领域里只用现有大模型范式是不行的。比如在汽车行业里做营销广告需要对数据有精准的描述,轴距、车胎等,但大家都知道GPT-3、GPT-4会一本正经说胡话。
另外就是出于数据安全的考虑。一方面是训练数据。比如一些交友应用有大量的对话数据,这些数据很难被上传到OpenAI;第二个是商业数据,如果在应用中调用GPT系列,数据可能会被API厂商拥有,对商业会有很大的威胁。
从长远来看,大模型提供商和大厂的核心竞争力是在哪?如果他们要胜出,会去做哪些事情?明确这一问题,我们能够清楚地知道到在整个链条上我们需要把专注点放在什么地方。
蓝振忠:大厂有算力,会提供更标准化的产品,比如像OpenAI的API。但是实际上在您的销售的场景中,会有很多know-how,包括客服的话术、产品宣传图的光线配置,是很难被颠覆的。初创公司可能会去做定制化模型,这些是大厂现在没有做、而且以后也不会做的事情。本身有很多数据的公司是有比较强护城河的,否则API大家都能调用。
蓝驰:很多垂直领域的模型是否以后大部分都会被通用的大模型覆盖掉?
蓝振忠:这个得看此领域是否能被通用能力覆盖到。确实,我们想到的大部分能力都会被大模型覆盖,但是它不能够做得非常精准。这一点在相当长一段时间内都会存在的。所以如果将上一代的对话系统结合这一代的,还是有很大的机会。
蓝驰:其实很多私域的数据之前都没有很好的被利用。如果去跟业务场景做一个垂直的模型,我认为还是比较有价值。
蓝驰:多模态大模型出现之后,对原来的CV领域会有什么影响?
蓝振忠:其实很多跟NLP相似的业务都会消失掉。就比如刚才GPT-4读图的例子,基本上OCR的机会就消失了。
我认为CV相对于NLP来说是较容易的,因为NLP涉及到理解。小孩子要先看到世界、对这个世界有感知,再去理解世界、产生语言能力。之后如果CV只是做图片到文字的理解这一块,就不需要像NLP这么大的模型;但如果是图片到对话的场景,可能还是需要一个理解语言生成的大模型。
蓝驰:ChatGPT和GPT-4出来之后,你觉得哪些行业可能会消失或者被颠覆?又会产生哪些新的应用出来?比如在ToB领域,原来做BI、数仓的,机会可能就变得渺小了,因为ChatGPT能力太强,之后很多BI可以用自然语言交互的方式直接做。
蓝振忠:我觉得可以做。最近很多做BI的,可以直接通过对话建立起一套很好的数据分析方式。只是说原来我们可能会花大量人力去打标,但以后不需要。
蓝驰:所以说有些行业可能是拥抱GPT,也有可能会被颠覆掉。比如,我觉得RPA、教育场景还是得结合一些AI的能力,用原来传统的方式可能会比较危险。
杨健勃(蓝驰家族成员、可以科技创始人兼CEO):我们一直在做一款家庭机器人,其实我们目前已经将ChatGPT引入到海外的应用去。它能感知人和环境之间的关系,包括环境中有哪些事物、人是如何跟其进行交互。我们在尝试如何通过积累的用户数据训练出一个维度更多的人机交互模型。
传统都是基于固定模型的交互,我们之前已经探索了一步,设计师设计出来约2000个情感内容和表达,就比其他机器人好很多了,但感觉上还是没有什么生命感。
ChatGPT可以收集到的用户数据,包括图像、人脸、肢体运动、情绪、表情、人和环境中的互动,我们也想把这些非语言模型利用起来,怎么才能让它的维度更好?
蓝振忠:ChatGPT目前还不能把语言转化成机器的动作。但如果你有很多数据的话,其实我们可以通过语言模型的训练把自然语言转成机器人动作,就像PaLM-E那样。假如我们有足够多的数据,比如几万台机器人,我们很快就可以训练出一个跟环境交互的机器人。
蓝驰:我们也在看机器人这个方向,现在比较缺的其实还是数据。在机器人领域数据是比较难收集的,或者说没有那么多高质量的数据。
任喆(蓝驰家族成员、伊对创始人):伊对是一个做恋爱社交行业的产品。从去年开始我们就尝试一些AI的应用,后来渐渐有些心得。
第一个在B端应用是降本,这主要体现在我们的专家系统、智能客服、智能审核领域里。之前需要用人工补15%-25%的误差,这是一个非常显著的成本问题。所以今年我们想让专家系统通过私有化部署模型来调优、训练。
从增效的角度,第一个是在广告投放。无论是在国内还是出海投放,现在广告投放是不智能的。如果基于第三方的服务,我们可能觉得任何一个模型都不好;而且对于自己的用户人群,只有我们自己理解。现在我们可以利用AI去训练一个适合的投放小模型。
第二是从运营、产品的角度,我们试图打通文字、语音、视频、直播等所有环境在线的反馈通道,把这个体验塑造到可以乱真的程度。这样游戏和社交的界限就会模糊了,产生的应用就会非常丰富。我们过去十年做的东西可能都会被重做一遍,它的体验也可能会产生本质性的差别。
陈华(蓝驰家族成员、唱吧创始人兼CEO):唱吧在做AI演唱方面有一些积累,比如把一个人的声音建模,可以演唱任何一首歌。我们可能拥有全球最大的干声库,唱吧也在做自己的模型。现在能想到的比较简单的场景是,未来的虚拟人肯定要说话唱歌。我们就可以基于一些特色的唱歌技巧,让他去像人一样有不一样的唱法。
蓝振忠:其实效果还好。我们之前是做心理健康方面的,发现已经有很多人在用它做对话,体验还是不错的。但它一直有一个问题,就是它缺乏长记忆功能。特别对于情感交流来说,长记忆是非常非常重要的。我不知道大家是否了解过Replika,它是一个情感陪伴的机器人,用的更多是传统的NLP技术。但它的记忆功能其实就很好,去定义了很多需要记下来的内容的点,然后将其储存。
还有一个方法:现在的GPT的总结已经做得很好了,所以我们可以把它过往的对话总结,然后压缩、存下来。当然最好还是把记忆做到“端到端”,其实有一个比较好的算法叫RAG,由Meta发布,我觉得ChatGPT接下来可能会结合RAG。如果能够解决记忆功能,那对情感类的应用将会有很大的颠覆。
蓝振忠:古希腊的苏格拉底、柏拉图,能够每天在广场上聊天、畅想,很大程度上是因为有奴隶在后面帮他们做事。所以我觉得其实AI大部分替代的还是一些重复性的工作,当AI为我们去服务的时候,我们可以解放出来,去谈哲学,去畅想未来,解放自己的脑力去探索其他的东西。
蓝振忠:大家可能会觉得现在的AI的能力离AGI很近了,已经很可怕了。但从做研究的角度来讲,我不觉得它智能程度增加了。跟原来的规则型电脑相比,AI不能说没有本质区别;但是从危险程度上来说,其实还是在可控范围内。我认为,离真正有自主意识的AGI还非常远。
蓝驰:AI现在还没有自动纠错的功能,比如我给它传了一大波的数据,让它去帮我做计算或者图表,但其实我并不知道它是不是犯了错?如果不纠正的话,它是不是会错得越来越离谱?如果放在银行或者电商的场景影响还挺大的。
蓝振忠:这的确是个问题。现在有两种解法可以提高它的准确度,但是并不能做到100%。第一种方法就是专门去做训练,让它学习关键数据。举个例子,比如在银行的场景中,对于银行账目,可以专门训练一个模型,把账目中的某些数据抽掉,再让模型通过采集资料等其他方式重新读取数据,将账目填充完整。通过这个训练,它就会关注到这些数据应该是需要准确的。第二种做法叫COT,就是让它去自证明。在它给出一个答案之后让它去解释这个答案为什么是这样的,它解释的过程中就把这个错误给改正过来了。
蓝驰:如果数据量极大的时候,我觉得还是有风险的。
蓝振忠:对,所以现在有另一种做法,就是用大模型结合上一代人工智能的方式,比如结合小爱同学的系统或其他客服系统。因为上一代可控性很强,但柔韧性、理解能力不够;这一代则相反。两者结合是比较好的方案。
蓝振忠:其实GPT-4加入视觉理解模块后对于做题是略有提升的。所以多模态会对整个语言的理解和生成有所提升。我认为接下来他们肯定会做的工作就是把生成也加到GPT里。我猜它应该是一个transformer的架构,再接入一个图片到文字的映射。也就是在模型中接入一个图片的模块,再做图片模块的解码。现在都是解码文字,之后解码图片应该很快就出现了。接下来可能是输入更多的图片、视频,然后将其解码。未来会在多模态上会走的更远一些,这对本身的语言理解和生成也会有帮助。
标签:
要文