编辑|石亚琼
2022年的热门词汇有什么?AIGC当之无愧位列其中,甚至将名列前茅。
从5月的DiscoDiffusion和DALLE2引起的AI作画潮流,到11月的chatGPT在一周内完成了百万用户注册,期间海内外出现了无数个AIGC的产品和创业公司,共同掀起了AI创作的热潮。
AI领域还有一个名词叫做AGI(通用人工智能),可以被理解为一个强人工智能的终极目标,其目的是系统性地解决方案,执行人类能够完成的“任何”任务。而想要实现AGI,生成式AI是不可或缺的一步。或者说,当下人类最有可能接近创造AGI的方式,就是将一个个碎片化的生成式AI能力,集成在一个智能平台上,来模拟AI的智力和高度适应性。
AGI早在几十年前的科幻作品中就已经有了很多不同的展现形式,其共同的特点是有着强大的自然语言理解(NLU)能力,这就是今天掀起生成式AI风浪的主要技术。
底层技术已经默默突破了几年,之所以生成式AI会在2022年出现在更多普罗大众面前,归根结底是背后的技术再上了一步台阶,可以向公众发布以供广泛使用。
以大语言模型(largelanguagemodels,以下简称“LLM”)为基础的text-to-X(文本到任意)技术再在2022年有了突破性进展,分别在text-to-image(文本到图片)、AI-generated-text(AI生成文字)、text-to-video(文本到视频)、generativecode(生成式代码)等领域出现了值得全球关注的应用。
技术在2022年取得突破性进展,并将其开源,将AI结果产出的时间大大缩短,产出精度更强。比如OpenAI所用的GPT技术,其GPT1在2017年就已经出现,现在chatGPT所采用的GPT3.5则是在2022年出现。
尽管从2014年AlphaGO战胜柯洁开始,人类对于AI就抱有最大的希望,此后不停出现“AI元年”的说法,但过去几年,AI的应用和底层技术都没有实现更大的突破,这又让大家对于AI心灰意冷。
到2022年,AI成为生产工具,带来了商业化价值,或许才终将迎来“AI元年”。
展开全文
生成式AI2022大事年表,36氪制图
一、创投:烧钱的未来,注定是少数人的游戏
在GPT-3发布的两年内,风投资本对AIGC的投资增长了四倍,在2022年更是达到了21亿美元。
正如前文所说,GA底层技术的突破,创造出了更多细分赛道,比如DiscoDiffuison和StableDiffusion正在加快艺术创作的速度,copy.ai和Jasper在通过AI完成文案写作,Mutable.ai和GithubCo-pilot以AICoding的方式提高编程效率。
细分赛道越多,意味着想象空间越大。而一级市场最擅长为想象空间买单。
之所以使用最新模型的GA创业公司比例不高,除了一部分公司想要“走捷径”直接偷换概念外,大模型的训练,原本就是烧钱、砸人还不一定有成效的事情。以2022年先后推出AIArt赛道明星项目DALLE2和对话式AI爆款的chatGPT的母公司openAI来说,其大模型GPT1从2017年就开始训练,直到GPT3出现才逐渐变得易用、好用。而chatGPT之所以风靡全球,是因为其背后是比GPT3更高级的GPT3.5。
根据公开资料,GPT-3训练的仅是硬件和电力成本高达1200万美元(约7500万人民币),GPT3.5只高不少。
如此高额的投入、大量的迭代时间,显然并不是初创公司能够完成的。
这就决定了,初创公司只能依靠开源的模型,进行在具体应用侧的创新。可是这样一来,壁垒变低,对于客户和用户来说,选项也变多了,那么应用创新的商业价值就会变低。技术价值和商业价值都不够的情况下,一级市场自然不会买单。
其实在2022年,就已经出现了此类现象,在国内在AIArt领域出现了不少用户量大的创业项目,但是融资情况并不容乐观。
2023年或许会延续2022年的创投趋势:创业项目层出不穷,但是一级市场只买单有技术壁垒和商业前景的个别项目;当然,总体数量会比前些年更多。
二、AIArt:从高门槛变成无门槛
2023年趋势
AIArt成为越来越多应用的“标配”,C端触达门槛降低,每个用户都可以在自己熟悉的App或平台内直接使用这项功能,与此同时,越来越普遍的AIArt也不会再成为核心竞争力或功能亮点;从创投视角来看,由于训练模型的成本更低,加上服务商的涌现与竞争,会导致用户数据和模型更分散,降低了跑出下一个独角兽的可能性,并且导致VC很难选择投资标的;从生态视角来看,将会形成更多社区,开发者、设计师、用户将共同探索需求和趋势,从而实现创作端的良性循环。
2月,DiscoDiffusion开始流行,Diffusion底层技术对GAN彻底革新
但在那时,人们尚未意识到,DiscoDiffusion的出现,是2022年一整年AIArt狂热潮的开始。
图为国内最大的平面设计师社区UISDC上首次出现关于DiscoDiffusion的科普文章
上图为国内最大的平面设计师社区UISDC上首次出现关于DiscoDiffusion的科普文章,设计师是对图像创作工具最敏感的群体之一,彼时大多数C端用户还并不知道这一“黑科技”的存在,即使知道,也会因为它复杂的调试环境失去参与测试的欲望。
但之后,随着更多AIArt模型和工具的成熟,门槛越来越低,越来越多C端用户开始了解并使用相关的工具。
AIArt在2022年以来的热度,是因为一种呈现为文字转图像(text-to-image)特性的崭新交互方式,正在向大众宣告AIArt正在进入一个“民主化”的时代。使用文字描述,或者基于画面意象和故事,或者基于艺术家风格、构图、色彩、透视方法等专业名词,就能在数十秒内生成完整的绘画作品,这让艺术创作成为了一件像跑步一样的事:人人都会跑步,只不过是专业的人跑得更快。
还原到底层技术方面,则是一场Diffusion对GAN的彻底革新。
传统AIArt的的技术原理是生成对抗网络(GAN)或VAE等,目前,GAN作为上一代AIArt工具与平台最主流的图像生成模型,在模型训练方面已经有了很大的突破,但在实际应用的过程中仍然拥有严重的结构性问题。
随着热度升温,可能会取而代之的是Diffusion。DenoisingDiffusionModels(去躁扩散模型)作为一种基于分数的生成模型,是一种非常强大的新型生成模型。其工作原理就是通过反复地向训练数据添加高斯噪声来破坏训练数据,然后通过反转添加噪声的过程来学习如何取回数据。Diffusion还提供大量样本多样性和学习数据分布的准确模式覆盖,这意味着Diffusion适用于具有大量不同和复杂数据的学习模型,从而解决了GAN的问题。Diffusion缓慢改变输入数据将数据映射到噪声的正向变换,通过学习的、参数化的反向过程来完成数据生成。该过程从随机噪声开始,一次一步地进行清理。
图源网络
Diffusion对图像生成效果的提升十分显著,数字生成的痕迹也得到了有效削弱,用户自己可选执行步数,步数越多图像越精细的特点也激起了更多的“硬核”需求。
Diffusion对图像生成步骤
这也就是为什么AIArt工具其实从很早之前就有了,但此前的图像效果经常会有“太假”或者不够完整等种种问题,甚至不如直接用Photoshop做一些风格化处理,因此这些作品也就失去了如今Diffusion时代作为艺术品的收藏与分享价值。
通过指数级爆发的帖子和作品展示,以DiscoDiffusion、StableDiffusion、DALL-E2、MidJourney这些算法和工具为代表的生成器,已经成为了AI生成向C端落地、以及更广阔的元宇宙世界的先发力量。
4月,DALLE2被推出
DALLE2可以从自然语言的描述中创建逼真的图像和艺术,上线于2022年4月6日,由OpenAI开发。
OpenAI在四月份推出了DALL-E2,DALLE2可以从自然语言的描述中创建逼真的图像和艺术,超过150万用户测试了这个模型,2022年9月,公司将它推向了市场。
微软为OpenAI提供资金,以换取其作品的独家商业版权,并将该模式整合到AzureAI-as-a-service平台中。
8月,StabilityDiffusion上线
作为解决了DiscoDifusion的技术痛点的追随者,StabilityAI也加大了赌注,于8月22日上线。并推出了开源的扩散模型(StableDiffusion)。
StabilityAI是一家创立于2019年的人工智能初创公司,总部位于伦敦,致力于构建以AI为技术载体的解决方案。
StableDiffusion是时下最先锋、也是最流行的AI绘画机器学习模型,由StabilityAI开发,Web演示版本搭载于AI开源社区Huggingface。StableDiffusion的预训练模型是一个文本至图像的AI模型。根据文本提示,StableDiffusion能够生成逼真的512x512像素的图像以描述提示中的场景。
StableDiffusion基于名为潜在扩散模型(latentdiffusionmodels,LDMs)的图像生成技术。与其他的流行的图像合成方法不同,如生成对抗网络(generativeadversarialnetworks,GANs)和DALL-E使用的自动回归技术,LDMs通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。
StableDiffusion模型支持多种操作。与DALL-E类似,它能够根据所需图像的文本描述,生成符合匹配该描述的高质量图像。它还可以根据一个简单的草图再加上所需图像的文本描述,生成一个看起来更逼真的图像。
MetaAI也发布了名为Make-A-Scene的模型,具有类似的图像至图像的功能。
10月18日,StabilityAI融资成为独角兽,更掀起热潮
上线两个月就成为独角兽,足以见得市场对于StabilityAI以及AI作画的认可。这也引发了一级市场对于AI作画的强关注。
同样在10月,微软开始将由DALLE2提供支持的生成人工智能技术,集成到其Bing搜索引擎、Edge浏览器和新的MicrosoftDesignerforOffice。
2022年的商业化进展:欲速则不达
由于AIArt在受到越来越多关注的同时,开发门槛越来越低,全球范围内AIArt的创业公司和产品也在10月、11月密集出现。
在11月初打开ProductHunt(一个发现新产品的平台,开发者可以提交自己的产品,网站会依据大众的投票数量产生每日榜单),会发现每天都有新的AI作画产品上线,并且这些AI作画产品,都在每天榜单的前几名。
2022年11月3号,ProductHunt榜单第一名就是AI作画产品
2022年11月2号,ProductHunt第二名是需要付费的AI作画产品
其中,AvatarAI推出10天以来,销售额已经突破10万美元(销量为2943,平均售价33美元)。
AvatarAI销售额
不仅美国如此,在中国也是这样,盗梦师、无界、皮卡智能、TIAMAT等也在10~11月里受到了广泛关注,盗梦师小程序甚至达到了日增5万用户的规模。
层出不穷的AI作画产品背后,是全球从业者和C端群众对于新技术的好奇和热捧。从GoogleTrends和百度指数上,在10月AI作画搜索指数的暴涨,就可见一斑。
GoogleTrends美国区“AIArt”热度
AIArt,火烧得太快、来得太突然,法规完善、生态体系、用户认知等等一个赛道长期发展所要具备的要素,在AI作画赛道都稍显空白,这或许会带来商业化短期的混乱。
一类玩家,以AvatarAI这类产品为例,30美元打包一沓头像,固然能赚到快钱,但是如何在不伤害猎奇心理消费者的情况下保持长期商业价值是AvatarAI不得不考虑的问题。
还有一类玩家,或许并没有明确的商业化目标,其出发点或许只是热爱,但部分AIArt产品已经伤害了艺术家的版权,正在全球范围内引起相关讨论。
而目前的混乱,或许是由于这个原本技术突破困难、应该有较高门槛的行业,因为开源,而变得低门槛,投机者几乎能以零成本去“追逐风口”。作为长期具有ToC价值的领域,开源一定程度上“放纵”了AIArt在商品层面的混乱。
三、AI-GeneratedText:基于真实需求,最有想象力的商业应用
2023年趋势
LaMDA:当AI有了意识,搜索引擎也可以“说人话”
2022年6月,Google的一名工程师声称LaMDA可能有自己的感觉,可能“还隐藏着一个感知的心灵”。这让LaMDA一度陷入争议。
LaMDA在2021年I/O大会上首次亮相,是Google“迄今为止最先进的对话式人工智能”,即与2022年12月红遍全球的ChatGPT有着相同的语言模型技术和原生应用场景。2022年5月11日,Google在2022年I/O大会上公布了LaMDA2。作为Google一直在研究的最先进的大数据模型之一,与GPT-3不同的是,LaMDA没有被配置为执行任何特定任务,LaMDA是“对话训练”,本质上是一个以聊天机器人为导向的LLMs。
在引起了不少社会上的讨论后,Google回应到:LaMDA和公司近几年的大型AI项目一样,都经过了多次严格的AI道德方面的审核,对其内容、质量、系统安全性等进行了多方面的考量。
2022年早些时候,Google也专门发表了一篇论文,公开了LaMDA开发过程当中的合规细节。其中提到,“在AI群体内,对于具备感知的AI/通用AI的长期可能性,确实有一些研究。然而在今天把对话模型来拟人化,这样做是没有意义的,因为这些模型是没有知觉的。不过,这些系统能够基于数以百万计的句子来模仿交流的方式,并且在任何有趣的话题上都能够扯出有意思的内容。”
在一些投资人与用户高呼ChatGPT能够“杀死传统搜索引擎”之后,另一群人寄托在LaMDA身上的希望,情节变得更加跌宕起伏。
Google和OpenAI都是全球久负盛名的AI梦工厂,区别是前者成为科技巨头已久,且在垄断用户搜索查询流量的同时,也主导了多个AI生成赛道的诞生和迭代。而后者则在2022年连续推出了DALLE2和ChatGPT两个现象级生成式AI工具,未来几年内有望做出最庞大的AI生成平台。
因此,LaMDA和ChatGPT的竞争更有可能是生态级别的。抛开前文所讨论的人工智能恐怖谷、科技伦理学等问题,从长期来看,作为“巨头之子”,LaMDA的机会很可能集中在以下几点:
目前,Google在搜索引擎中使用FeaturedSnippets(精选片段)为用户的问题引用答案,这是其商业化手段之一,也是广受用户诟病的一点。
在这个问题上,LaMDA和ChatGPT面对的商业化难题是一样的,但毫无疑问作为搜索巨头的Google,会有更完善的解决方案。
其二,MUM(MultitaskUnifiedModel,多任务统一模型)、PaLM(路径语言模型)等其他Google自研AI模型的支持和集成。ChatGPT之所以现在看起来更像是一个工具或者“写邮件神器”,是因为技术和模型已经是时下最先进的了,服务和体验却仍然是单点维度的,距离生态利器还有很长的路要走。
而在这一点上,Google已经有所考虑。比如,除了LaMDA之外,Google还强调了MUM的重要性。多模式模型允许人们“跨不同类型的信息进行提问”,也就是说,将图片、音频、视频等媒介形式结合文字来提问。
目前,Google已经将MUM技术添加到了GoogleLens,后者为Google推出的一款支持图片对象检索的现实搜索应用。
总体来说,在LaMDA始终位于技术前列的情况下,至少在搜索和对话式领域,Google将比一切竞争对手都更接近产品化和商业化。
其实,AI自然对话的能力基于对人类说话口吻的模仿,本就是为了让信息和计算从根本上更易于被人们访问和使用,这种软性提效与工业硬件升级等硬性提效的最大区别,就是它与人类的行为和语言体系是一种寄生关系。换句话说,不具备商业能力的AI模型代表着长期投入能力差,缺少时效性价值,从而损害“搜索”的核心价值。
早在2022年5月份,GoogleCEOSundarPichai就重申了对话式自然语言处理的最大价值是“数字民主化”。至少在研发转产品的目标上,LaMDA比2022年大多数生成式AI工具都要明确,那就是让Google搜索未来能够像人类一样回答问题。
“仓促行事对于搜索领域来说似乎并不明智,因为世界需要始终如一的正确。”
OpenAI的chatGPT引起全球狂热
11月30日,人工智能实验室OpenAI发布了自研的聊天机器人——ChatGPT,它比其他任何可供公众互动的聊天机器人都要先进,在聊天外,可以当成搜索引擎、论文生成器、代码生成器、翻译等多个实用角色,成为人类的生活工作助手。
其价值被广泛认可,上线5天后,注册人数突破百万,而到达这个数字,推特用了两年。
因为ChatGPT的火爆,OpenAI在大语言训练模型领域的积累也逐渐被看到——ChatGPT采用最新的GPT3.5模型,模型中首次采用RLHF(从人类反馈中强化学习)方式。
OpenAI最初于2017年提出的GPT1,其采取的是生成式预训练Transform模型(一种采用自注意力机制的深度学习模型)。GPT1的方法包含预训练和微调两个阶段,预训练遵循的是语言模型的目标,微调过程遵循的是文本生成任务的目的。2020年的GPT3,训练参数是GPT-2的10倍以上,给GPT训练读过文字和句子后可接续问题的能力,同时包含了更为广泛的主题。
图源:MediumGPT系列模型的数据集训练规模
现在的ChatGPT则是由效果比GPT3更强大的GPT-3.5系列模型提供支持,这些模型使用微软AzureAI超级计算基础设施上的文本和代码数据进行训练。
具体来说,ChatGPT在一个开源数据集上进行训练,训练参数也是前代GPT3的10倍以上,还多引入了两项功能:人工标注数据和强化学习,相当于拿回了被GPT3去掉的微调步骤,实现了在与人类互动时从反馈中强化学习。
ChatGPT自己回答与前代GPT3的能力区别
尽管目前ChatGPT还存在很多语言模型中常见的局限性和不准确问题,但毋庸置疑的是,其在语言识别、判断和交互层面存在巨大优势。
NotionAI:一个更加AGI的可能性
2022年11月,全球独角兽Notion发布了NotionAI的Alpha版本,这也是知识管理工具与生成式AI工具的进一步结合。
从功能上来说,NotionAI与ChatGPT、Jasper等工具类似,都是根植于LLM在2022年的技术爆发,服务于text-to-text应用下的重复性或创造性写作。而从应用环境来看,NotionAI的创新性在于,它完全融合于Notion文档内部,这也就意味着人工智能协作又少了一步“冷启动”的时间。
其实,无论是ChatGPT还是NotionAI,目前为止都还没有办法直接生成一篇原创且可发表的内容,但它们能够很好地帮助用户“跳过初稿阶段”,直接进入对文字的改进和完善阶段。与此同时,所有LLM的应用工具都在迅速改进,使得语义理解能够从句子到段落,再到逻辑关系更加复杂的语境,从而更好地理解和编写各种文本。
NotionAI的机会有三点:
第一,Notion的平台特性能够与LLM的技术特性更好地融合。众所周知,目前的生成式AI最需要的就是更多更详细的语境。在我们使用ChatGPT的时候,得到的文字内容经常会以“由于没有更详细的数据支持,我只能尝试理解需求”之类的声明作为开头。
作为数字协作领域的独角兽,用户量和C端口碑是Notion一直以来引以为傲的亮点。从入局时间来看,ChatGPT在11月底引发了AI写作的全球热潮,NotionAI与之基本同期,没有错过时间红利。
用NotionAI生成表格
综上,刚刚被“交到用户手中”就立刻引发了热议的NotionAI,也让我们重新想起了AGI的概念。其实,Notion本身能够从一众产品精度做得越来越“卷”的笔记应用中取得不可忽视的地位,并建立最庞大的第三方模版市场和社区,就是基于其一体化文本协作的理念和高度集成性。
四、VideoAI:创业公司层出不穷
2023年趋势
虽然文本到图像的生成式AI是2022年AI领域的最大新闻之一,但“文本到视频”无疑将会接班成为2023年的新技术焦点。目前,在AI视频领域,捕捉远程依赖关系等决定性的技术仍具有挑战性,但AI视频在2022年年底已经实现了对于部分短视频的覆盖。2023年,也许“我们将无法区分视频是由人还是AI生成的。”
虽然制作最好的视频总是需要创造力和人性化的触觉,但人工智能软件可以用来减少处理所占用的大量时间。
2月,以色列AI技术研发商HourOne宣布完成2000万美元A轮融资,该公司计划利用这笔资金扩大其自助服务平台Reals,允许企业在几分钟内从文本中自动创建以人为主导的视频。
12月,图片和视频AI编辑软件提供商runway完成5000万美元C轮融资,投后估值达到5亿美元。
同样在12月,家视频搜索和分析云基础设施提供商TwelveLabs宣布获1200万美元种子轮追加融资,该公司推出一套云原生API,可与该公司的人工智能视频搜索工具集成,使开发人员能够对海量视频进行搜索。
不过,抛去对于技术层在2023年能够实现爆发的乐观预期,如果基于文本的视频生成模型仍然需要1-2年才能达到以假乱真的效果,那么此类模型也许需要2-3年才能在商业应用和企服领域真正发挥作用。在此之前,这些模型可能适用于对保真度和可控性要求较低的场景,如C端用户在娱乐创作平台上的猎奇式创作。
五、AICoding:开始小规模应用
2023年趋势
科技互联网巨头的AI编码占比增加,因此巨头孵化的项目会增多,进而开放给中小公司使用。创投视角来看,AI编程或许没有投资前景,但是如AI代码纠错、优化等细分领域,或许会涌现针对垂直行业的创业公司。AIcoding的最大竞争对手是无代码产品,二者可能会在2023年开始抢占市场。
当今世界,毫无疑问不仅仅由物理世界组成,由代码组成的互联网世界已经成为人类赖以生存的世界之一,这从中美等各个国家互联网公司位列前沿的市值可见一斑。
因此,AI编写代码也被倾注了最大的期望。
AI对工业的“妄图染指”,开启了AI在良莠不齐的生产环境中漫长的应用过程,而这也是AI回报周期过长的原因之一。由于人类只能从已经存在的历史中去提炼参照系,在被称为“信息革命”、“数字革命”的新世纪洪流中,代码一直以来所对应的就是像蒸汽、电力一样的工业生产力新单位。
不过,与以往不同,开发在科技世界的构建中比以往的工人取得了更高的地位和经济话语权。随着数字经济的发展,编程人才逐渐被细化到各行各业、各个技术体系中去,从价值层级来分,他们的工作也可以被拆分为创造和解决需求两个部分。
近年来,随着科技门槛一再降级,每当有CRM、无代码等看似“反程序员价值”的产品出现,人们就会热议“程序员的工作很快就要被替代了”。2022年跟随LLM掀起水花的AICoding也是同理。
在过去,这种“不再被需要”也许只是一种乌托邦式的幻想或自嘲,大多数人都明白,更多的数字生产力被解放,就会有更多的创造导向型领域出现人才缺口。可直到2022年,飘荡在全球互联网上空的裁员危机,似乎是在倒逼着这一口号重新回到了从业者的焦虑范围内。
AICoding则正是在这种情况下开始小规模地应用于业界。
2022年2月,DeepMind推出了AlphaCode,这是一款用12种编程语言对8600万个程序进行预训练的Transformer,并针对编码竞赛的内容进行了微调。
通过推理,它产生了一百万种可能的解决方案,并过滤掉了不佳的解决方案。通过这种方式,它在10次编程竞赛中击败了一半以上的参赛者。
11月,“万能助手”chatGPT出现,不少用户开始尝试用chatGPT编写代码。像简单的shell脚本,makefile等,ChatGPT确实能处理,但更复杂的编程需求,chatGPT会给出错误答案。开发者可以把AI生成的代码拿来进行修改,以节省时间。
但同时,AIcoding的隐患也在随着技术门槛降低而攀升。
TheRegister的一份报告显示,斯坦福大学计算机科学家发现,与完全靠自己做事的程序员相比,使用GithubCopilot等人工智能编码工具的程序员创建的代码安全性较低。
除了已经暴露出的版权问题、安全隐患之外,AI编程还有很多已知或未知的痛点,比如提高了人才筛选难度,
比起AIArt、AI写作等领域,AI编程主要有如下三个特点:
1.其应用环境往往不是C端用户的猎奇心理和“科技民主化”的目的,而是用于实际的工作项目中,准确性要求更高,对版权等商业信息更敏感;
2.编写结果可能会涉及到复杂的函数,无法像AIArt一样让任何人都能够以肉眼判断,有较大的应用和试错成本;
3.编程本身可以说是一个比较庞大复杂的母领域,而是多个语言领域的泛概念,因此所针对的领域、需求和实现难度也不同。
这些特点决定了AICoding在短期内会更多地用于科技巨头的内部构建,并且由于代码是这些公司的主要商业资产,其内部孵化或投资的项目,可能并不会被竞争对手所接受。虽然目前以DeepMind为代表的头部服务商呼声很高,但AICoding本质来说也并不是一件具有技术壁垒的事,大公司各筑城池的局面不难想象。
此外,由于AICoding和无码化趋势的现阶段目的,同样都是为企业的IT部门解放生产力,其对于大多数业务类型的公司来说,降本增效的空间也难免会被进行对比。AICoding虽然是自动生成代码,但其商业逻辑也是主要服务于程序员,目前还很难做到离开“人脑”工作。就像AIArt在热潮退去之后,也会逐渐成为艺术家等专业人员的灵感工具一样。
但其降本矛盾在于,如果是freelancer或独立开发者,AICoding工具毫无疑问能够帮助他们提高效率,但大多数程序员作为企业员工,可能自身并不会愿意被“人工智能”间接降薪。但从长期来看,随着数字经济下的编程基础教育进一步完善,各类开发工程师的分工也趋于细化,届时AICoding将大有可为。只不过,这一点希冀很难惠及到即将到来的2023年。
相比来说,无码化工具的出现则是为了解构程序员的价值和工作属性。毕竟在程序员普遍“高薪”的情况下,在同一个业务需求下,把程序员换成业务运营人员,至少在人力方面就已经做到了降本。
不过,好消息是,2022年的最后一个季度,AlphaCode等AI编码工具似乎遭受了前所未有的业界争议。在科技和创投界,法律、商业、社会道德对于新生事物的争议通常代表着希望,虽然AI编码在2023年也不可能直接代替那些“螺丝钉型”码农,但大面积的智能优化代码服务,可能会成为另一个企业服务的热点。
六、LLM:作为底层技术,没有巨头缺席
没有一家巨头缺席LLM,更加说明了LLM进入较为成熟的阶段。
11月15日,Meta公司发布大型语言模型Galactica,并宣称它“可以总结学术论文,解决数学问题,生成维基百科文章,编写科学代码,标记分子和蛋白质,以及更多功能。”
但上线仅3天,该模型就在巨大争议中撤回。它虽然能生成一些貌似通顺的学术文本,但文本中的信息是完全错误的——貌似合理的化学方程,描述的是实际上并不会发生的化学反应;格式合规的引文参考的是子虚乌有的文献;甚而种族主义、性别歧视的观点,也能通过模型生成的文本而被包装成"科学研究"。
Google于去年推出“LaMDA”(对话应用程序语言模型)。LaMDA是Google一直在研究的最先进的LLMs之一,与GPT-3不同的是,它没有被配置为执行任何特定任务,LaMDA是“对话训练”。
它本质上是一个以聊天机器人为导向的LLMs,2022年6月,Google的一名工程师声称LaMDA可能有自己的感觉,可能“还隐藏着一个感知的心灵”。这让LaMDA一度陷入争议。
由于LaMDA仍处于封闭测试阶段,只有少数用户可以使用,因此关于它的性能几乎没有披露。但是LaMDA只有1370亿个参数,与前面讨论的GPT-3的1750亿个参数相差甚远。虽然用于训练LLMs的数据量并不是其性能和准确性的唯一驱动因素,特别是考虑到GPT-3和LaMDA是为不同的功能而创建的,但两者中参数数量的差异确实引起了人们对LaMDA是否是ChatGPT或广义上的GPT-3的有力竞争者的更大审查。
LaMDA证明了Google在LLM竞赛中并没有完全出局。
2021年10月,微软和英伟达正式推出由DeepSpeed和Megatron驱动的Megatron-Turing自然语言生成模型(MT-NLG),声称有5300亿参数,在当时宣传这是训练的最大最强的解码语言模型。不过在2022年并没有取得更新的进展。
微软在生成式AI方面始终参与度不低。2022年大火的chatGPT,其背后模型GPT3.5就是在微软AzureAI超算基础设施(由英伟达V100GPU组成的高带宽集群)上进行训练,同时微软在考虑对OpenAI进行新一轮投资。
图源网络
国内,互联网大厂也走在大模型训练的前沿,各大厂在超大规模AI模型训练的爆发主要集中在2021年,国内超大模型研发虽然比国外公司晚,但是发展却异常的迅速。在2022年,也有一些进展。
百度文心大模型已经形成“模型层+工具与平台层+产品与社区层”的整体布局,于2022年全新发布11个大模型,包括5个基础大模型、1个任务大模型、5个行业大模型;全面升级文心大模型开发套件、文心API;新发布和升级基于文心大模型的2大产品,AI作画产品“文心一格”和产业级搜索系统“文心百中”。
去年,阿里达摩院先后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破。其中使用512卡V100GPU实现全球最大规模10万亿参数多模态大模型M6,同等参数规模能耗仅为此前业界标杆的1%,极大降低大模型训练门槛。2022年9月,阿里巴巴fault最新「通义」大模型系列,其打造了国内首个AI统一底座,并构建了通用与专业模型协同的层次化人工智能体系。
近年来,大型语言模型的参数数量保持着指数增长势头。据预测,OpenAI开发中的最新大型语言模型GPT-4将包含约100万亿的参数,与人脑的突触在同一数量级。由此,出现了一个新的人工智能口号:"规模就是一切"。
大数据模型花销
七、结语:商业化,生成式AI在2023年最大的课题
在生成式AI技术取得突破性进展、应用井喷式出现、用户与其距离越来越近的2022,我们不得不关心,GA到底是未来AI进入人类生活的开始,还是如此前一样昙花一现。
目前,不少人对生成式AI的质疑主要在以下几点:
1、现在AI的生成内容大多数还达不到直接商用的标准,仍然需要大量的模型微调,以及人的行业经验的辅助、补充、加工。
2、AI生成控制方式相对普通人来说,还有一定门槛。
3、AI的生成结果在版权方面存在模糊性。
4、行业过热,会导致不成熟的AI激增,良莠不齐的应用和鱼龙混杂的市场很可能会让C端用户和企业客户失去判断信心,同时带来数据安全隐患。
但以上问题只能限制生成式AI无法在短期内成为普惠的技术,并不代表生成式AI没有价值。其评判标准应该是,AI技术能否变现,能否带来商业价值,使其成为一个成熟的产业。
在技术方面,2023年,更好的基础模型值得期待,比如能够以更高效或更紧凑的方式表示复杂数据的稀疏模型。它可以更快计算且需要更少的内存来储存,从而带来成本上的进一步普惠化。除此之外,更精准的数据收集能力也意味着在审核、消除偏见信息等方面投入更大的努力。
在2022年,技术开源尽管带来了一些不必要的混乱,但毋庸置疑,这也让更多原本没有能力的开发者加入了战场,加快了生成式AI的商业化步伐。
在目前最大的、每天更新的AI应用目录FUTUREPEDIA网站里可以发现,目前最受关注的AI应用多是文本生成和图片生成相关的应用。这和2022年的风口趋势一致。
36氪截图于2022年12月底
或许我们可以判断,生成式AI接下来一年的商业化进展,将有三条路:
一,成为用户量足够大的C端工具,如Google,依靠流量赚钱;
二,成为足够好用的细分工具,如Adobe,靠特定人群的固定需求赚钱;
无论是哪条路,在2022年都已有雏形和早期沉淀。
时间不对
是不是商业化应用没有突破更准确些?
这个点文章没有证明
特别声明
本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。