大模型越多对垂类应用越好|对话一览科技罗江春博鱼体育
发布时间:2023-05-03 01:19

  受ChatGPT的热潮带动,近段时间大模型领域按下“狂飙”键。从互联网科技大厂到AI新秀,纷纷亮出了自己的大模型产品:百度率先发布的“文心一言”、阿里云旗下的大模型产品通义千问、华为也放出了盘古大模型,AI公司商汤和昆仑万维接连宣布了自己的大模型“日日新SenseNova”与“天工3.5”。此外如王慧文、王小川、李开复等科技大佬也亲自下场创业组局,俨然有了军备竞赛的意思。

  不管是文本、画画、还是视频生产、音乐制作,AIGC作为一种新的生产力方式进一步打开了内容创作的想象空间。AI技术与影视行业本就融合紧密,当前有了不少实际应用案例。在海外,如奈飞的《犬与少年》、影视制作团队Corridor Crew打造的《剪刀、石头、布》均是AIGC生成;国内,AI技术也成了影视公司的新跳板,光线传媒、华策影视、爱奇艺、百纳千成等先后接入百度文心一言,其中光线新动画电影《去你的岛》将由AI深度参与其中。而且受AI热的影响,影视传媒板块股价一度涨停。

  不可否认,AIGC正在改变传统的影视生产方式,在垂直应用领域,行业也涌现了第一批“吃螃蟹的人”,推出各种AI新产品工具为创作者所用。

  创业公司一览科技就是其中的代表,3月27日,一站式视频解决方案提供商一览科技推出业界首个基于GPT大模型的“文本+图片+虚拟人”视频AIGC全域工作流,搭载旗下视频存储管理工具“一览运营宝”,为影视行业、短视频行业人群提供脚本创作、AI绘图、素材管理等服务。当前专注文本的AI编剧已上线,并在之后应用到影视项目的实际生产中。

  一览科技创始人罗江春曾是国内长视频产业的开路人之一,2005年创立风行视频。此后长视频行业经历了十几年的起起伏伏,但在罗江春看来长视频的价值不只娱乐,视频将会走向商用、像水和电一样成为基础设施。带着这样的目的,2017年二次创业成立一览科技,将VaaS(Video-as-a-Service)作为主要业务,做视频离不开内容,内容的创作主体除了PGC、UGC,也会有RGC(Robotics Generated Content)、AIGC,因此如何把AI技术应用到视频生产也是一览科技的研究课题。

  2018年乌镇互联网世界大会上,罗江春曾预测未来五年RGC会成为主流。他认为,AIGC的爆发热潮特别像1995年,雅虎、3W、http开启博鱼体育了一个互联网时代,GPT也将会开启人工智能应用创新时代。但大模型的红利真的来了吗?AIGC的浪潮怎么抓?我们和罗江春详细聊了聊。

  A:2017年创立一览科技的时候就在做这件事。我在美国学的是AI与机器人专业,心里本就有AI的情结,2005年创立风行视频时也在思考视频内容和AI如何结合这件事,比如张一鸣利用AI做信息流。当时我们关注到的另一件事是,

  但视频里讲了什么,人很容易理解,机器是难以理解的,所以我当时就想用AI让机器人看清楚视频里有什么人、有怎样的场景。我希望机器能够理解。一览科技的核心是“一览无余”的意思,想看清楚视频里面有什么,希望构建一棵结构化的视频树,既能做视频搜索、也能做视频生产,这都是一个脉络想下来的事情。2018年的时候我们都知道PGC、UGC很火,但我还是认为会有RGC,那机器生产需要什么呢?AI技术、标注、数据,技术肯定会实现的,所以就一直沿着这条路做事情。

  A:我们有个很伟大的梦,想做RGC,也就是现在的AIGC。当然你回过头看五年前,

  每个公司都会越来越需要视频服务,无论厂商、银行还是本地生活App,都在向着内容化靠拢,还有些非主流化的公司/App,没有建系统,直接用云、用SaaS,所以在洞察到这个机会后我们做了另外一种服务叫VaaS。

  VaaS的核心与AIGC不冲突。VaaS是我来搭一个平台,提供不同的服务,内容是其中的一部分,包括PGC、UGC、AIGC等不同的生产形式,在内容之外,还有视频系统的点播云、视频托管、营销服务、数据服务等等一系列服务,那这些是可以商业化的,能为客户提供解决方案。

  那么我们做VaaS,可以简单理解成我们是一个视频版的声网,签下不同的作者和内容,用AI技术或者人工来处理、分析、整理视频内容,完成标签分类放到云端,客户便可以直接应用。那这个过程就涉及到源源不断的内容资源,AI便是能不断提供更多内容的底层技术。

  A:我们属于内容生产,他们属于内容替换。他们做的是比较具体的一件事,比如把视频素材里的广告提取出来安上品牌logo,比较偏向广告;那么我们生产一些像美食视频、手工视频等机器人能容易制造出来的内容,比较偏向实际生产。

  A:因为做大模型需要耗费很多的资源、人力、算力,是一场持久战,站在创业者的角度,肯定还是基于大模型做应用、做内容能有更多的机会。

  包括百度的文心一言,一些新创业的国内大模型公司也在接触,当然肯定最成熟的还是GPT。如今阿里巴巴、腾讯、华为等等都做了大模型,我们也很乐意去尝试。

  A:我觉得类比还可以再往前,手机App出来的时候行业里有了PC互联网做参照,大家已经知道怎么玩了,而现在AI的大模型和垂直应用其实更像是1995年、1996年Yahoo的时代,有了3W、http、Mozilla之后如何建网站的问题。

  做垂直应用相当于是在用户与大模型之间做了一个Gateway(网关)产品,因为用户无法直接对大模型,比如说用户直接问AI编剧很难,但如果把它产品化,那用户就可以直接跟产品去交流,至于后面我接的是文心一言还是GPT都不影响,同一个请求发过去,如果几个大模型都返回,我们还可以优中再选优。大模型越多,对做垂直应用的人是越好的。

  A:严格意义上说,像pre training的AGI大模型,GPT是唯一把这条路走通了的代表,像Google、Meta、国内百度的大模型,又是走的不同的路。我们也一直在关注GPT,只不过1和2还不算成熟,到了3就很像样,但当时国内没有炒起来。

  此外我们关注的还有Google的Tensorflow,百度的PaddlePaddle,但这都不是大模型,属于AI框架,这些框架里有一些开源模型,我们也会用。在图片方面我们用的是Stable Diffusion。

  A:现在我觉得已经到了一个拐点,之前全靠我们自己做,确实很难,比如我们要做NLP,那必须在Tensorflow的开源模型上自己去调优,无论是对算力还是标注人员,消耗都比较大。现在会好很多,ChatGPT的火爆也印证了大模型发展到了新的阶段,跟ChatGPT对话时你会感觉在和一个人、甚至是一个神在对话。

  A:我觉得还好,总得有不同的声音,AI突破拐点后,确实也有会失控的可能。在GPT之前,Google推出了一个叫LaMDA(对话应用程序的语言模型)的模型,有测试工程师给过报告说这个模型是有情绪、是有意识的,后来Google非常低调地处理了这件事。其实这件事很复杂,涉及到伦理、涉及到人类的安全,所以大家有这种担心是合理的,但我觉得不会影响垂直应用的开发。

  A:AI确实会牵扯到伦理道德、地缘政治、包括等问题,但我觉得AI技术拍视频、画图片、写脚本这件事情本身是无害的,关键还是在于如何使用。我们自己也在强化内容审查。目前的监管规范也和互联网内容监管规范一致,也可以这么理解我们人生产出来的内容和机器生产内容在审查方面,流程是一模一样的。

  从文本到视频,脚本是最核心的,就拿电影、电视剧来说,好看的前提是有优秀的剧本,所以我们先从剧本切入。当然我们的剧本不只局限于15秒的短视频,网剧、网大、电影、电视剧、短剧等情节类的内容都能用到AI编剧,还有就是垂直电商和广告创意,也可以用AI编剧去想创意、想点子。

  剧本是视频的源头,那第一步解决好之后,第二步就是素材,创作者除了自己拍之外,也可以用 AI生成想要的图片,或者想要的形象,我们还标注了大量的视频数据,在后续也会慢慢开放出来供大家使用。

  A:每个人对编剧产品的理解是不一样的,我们的AI编剧实际上是基于影视生产、视频制作的逻辑来应用的。

  在AI编剧页面,用三个步骤就能得到一个相对比较完整的剧本,第一步是创意,有了一个什么样的创意点子,在上面输入;第二步是生成情节,可以添加爱情、喜剧、恐怖等不同的元素详细描述,根据这些描述工具会“返回”三种不同的情节故事,用户选择其中一个情节故事后进入到下一步脚本生成,这一环节AI编剧直接给到的是分镜脚本。此外我们还推出了智能改稿,用户能随意去更改情节、结尾,直到改到满意为止。

  我们做AI编剧也是在还原编剧的创作过程,整体符合编剧的工作习惯,我们也找了很多编剧在用,目前从编剧得到反馈来说还是比较正向的。

  A:基本都觉得能提升效率、节约时间,提供的创意点子也有参考价值。当然也有待提升之处,一个是内容太短了,“短”其实是因为GPT大模型有token的限制,但这部分我们也在解决;再一个是AI生产出的内容如何与编剧的风格保持一致,现在AI编剧还是比较发散式的生成内容,所以这个产品后续也会持续打磨,比如编剧多提供一些语料或者之前写过的剧本,AI再进行分析理解,就能生成更靠近编剧风格的内容。

  之后我们也会把AI编剧应用到具体的影视项目里,和欢雀影业合作撰写的影视剧项目已经在筹备中,月内就会官宣。

  。A:目前是这样的,我们做东西并不是要取代编剧的工作,这是很重要的一个观点。

  A:就像我刚才列举1995年建网站的例子,雅虎是一个黄页,再建个黄页其实很容易,但是想保持持续的迭代更新就比较难。放在AI领域也是,想打造一个AI 编剧,如果看市面上的产品,看到别人的工作流挺好,想要抄下来,但只能抄表皮,抄不了核心。我怎么问GPT、怎么问文心一言,外面是看不见的,这些底层的东西别人都不知道,就只能看到冰山一角。

  A:至少是有一定的逻辑和框架在后面做支持的,但剧本不会雷同。人设、故事进度、矛盾冲突这些内容要素AI是可以做不同组合的,比如主角人设,在心理学中人的性格至少有45种,那不同性格随意组合得出的结果是足够多的,相应的产出剧本的雷同度也会低。

  A:成本大致有两部分,产研是一部分,包括产品经理、研发工程师、服务器等等,另一部分是调大模型的费用,大模型的费用现在还是比较少的。

  等到真的出了这样的标志性事件,那就意味着AIGC的路径成功跑通了,到时候商业化变现的问题也就迎刃而解了。这样来看,

  如果AI编剧参与的影视项目成为了爆款,卡司、导演、制片、编剧按照利润比例分成,AI编剧获得的回报也不会低;而且爆款项目也能带来更多的溢价,广告主、电商公司也会提出需求主动合作,AIGC的商业化空间也就进一步打开。

  A:当然,我希望有一个标志性的事件。比如说我们的AI 编剧能够打造出来爆款,不管是自己做的,还是用户用我们的产品做出来爆款,这会让整个行业对AIGC有重新的认知。

  A:如今我们的库里面已经标注了大量的视频和数据,也有很多海量的素材资源。因为技术始终在快速迭代,我们最近观察的一个新技术叫多模态,它能帮助去检索视频、比较视频相似度、抽取镜头,未来也会有更多新技术出现,我们都会积极尝试。

  借助各种新技术的加持,我们的愿景是希望以后只要有屏幕的地方都有一览的视频服务,不管是在电视上还是在手机上,或者是汽车屏、冰箱屏,以及户外的大屏,都在用我们的视频服务,这个服务包含了内容、技术、系统、数据,这其中内容是一个很重要的载体,这可能是专业机构拍出来的、有可能是用户做出来的,也有可能是机器做出来的,能满足大家的需求,无论是娱乐、商用、还是私域、营销的需求。

  想要云我们就提供云、想要数据就提供数据、想要营销就给营销,我们会把这些服务灵活地挂在App、网站、电视端、小程序,大家只要拧个开关就可以得到想要的内容。那么对于创作者来说,想要创作脚本,一览有AI编剧,想要图片美化,我们也有AI图片,后面还会推出AI虚拟人、AI音频等等工具,只要是创作相关的,我都能提供。所以我说未来的内容有可能是专业机构做出来的,也有可能用户做出来,但也有可能是AI做出来的。