DTalk 2024 “行行出 AI” 系列开篇「点击预约 直播」

——GPT是“Generative Pre-training Transformer”的缩写,中文名称为“生成式预训练转换器”。

它是一种大型语言模型,由OpenAI开发。GPT模型使用了Transformer架构,并在大量文本数据集上进行预训练。

GPT模型可以生成类似于人类自然语言的文本,并可以用于各种自然语言处理任务,例如:

● 文本生成

● 机器翻译

● 文本摘要

● 问答

● 情感分析

GPT模型的定义如下:

GPT模型是一种基于Transformer架构的大型语言模型,该模型在大量文本数据集上进行预训练,能够生成类似于人类自然语言的文本,并可以用于各种自然语言处理任务。

GPT模型的出现,标志着自然语言处理技术取得了重大突破。它为自然语言处理任务提供了一种新的解决方案,并具有广泛的应用前景。

——来自Google Gemini【2024年3月4日 提问:GPT是什么?给一个定义】

——开篇我们先从定义上回顾下现在的AI GPT到底是什么。我相信不少人都已经用了不下半年了,但似乎已经忘了,甚至压根就不知道GPT代表什么。

我想站在产品的视角上聊聊GPT本身及其衍生产品的形态和演化。

GPT产品的形态演化过程如下:

1. GPT-1

GPT-1是GPT模型的第一个版本,于2018年发布。GPT-1模型使用了Transformer架构,并在500GB的文本数据集上进行预训练。GPT-1模型可以生成类似于人类自然语言的文本,但其性能还比较有限。

2. GPT-2

GPT-2是GPT模型的第二个版本,于2019年发布。GPT-2模型使用了Transformer架构,并在40GB的文本和代码数据集上进行预训练。GPT-2模型的性能相比GPT-1模型有了大幅提升,可以生成更加流畅和自然的文本。

3. GPT-3

GPT-3是GPT模型的第三个版本,于2020年发布。GPT-3模型使用了Transformer架构,并在1750GB的文本和代码数据集上进行预训练。GPT-3模型的性能相比GPT-2模型再次有了大幅提升,可以生成更加复杂和多样的文本。

4. GPT-4

GPT-4是GPT模型的第四个版本,于2022年发布。GPT-4模型使用了Transformer架构,并在5000GB的文本和代码数据集上进行预训练。GPT-4模型的性能相比GPT-3模型再次有了大幅提升,可以生成更加逼真和可靠的文本。

从以上简单的表述可以看到Transformer这个架构始终没变,主要的变化来自于训练集的快速扩大以及看不见的算力提升。

而我们常用到的ChatGPT是GPT模型的一个衍生版本,于2022年发布。ChatGPT模型是在GPT-3模型的基础上进行微调,使其能够更好地进行对话。ChatGPT模型可以与人类进行流畅自然的对话,并可以用于各种聊天机器人应用。

所以GPT和ChatGPT我们可以类比成内燃机和内燃机车的关系。内燃机就是一种模型,燃油的工作模型,由于内燃机的输出形式是动能,热能等。所以应用此模型可以驱动各类机械,不限于汽车,轮船,大型机械等。考虑到还有热能输出,做成烧水壶也不是不可以,如果仅仅只需要热能直接燃烧燃油显然更经济,不需要依靠爆炸产生。所以主要考虑和优化的方向自然是更高的动能转换比,而应用的方向也更多考虑动能使用。

GPT也是同样如此,本质是一种基于文本训练的转换器,自然文本输出更为直接。它的第一个衍生形式做成了Chat就顺理成章。这可以理解为是一种“资源禀赋”的体现。说的不好听实际也是它的限制。

——那GPT这个内核将会形成怎样的衍生产品形态及路径那?其实参考各类发展规律就很容易发现一些线索。环顾现在市场上的相关产品,我站在使用者视角愿意简单分成三大类:

1、以各类搜索引擎公司为代表的“搜索引擎Plus Pro Max”

例如google gemini,微软的bing chat和copilot,百度的文心一言,天工,质谱等

2、各类内容生成,整理工具

文本生成类:

Jasper:一款可以生成各种文本内容的AI写作工具,包括文章、广告、博客、邮件等。

Bard:一款可以生成各种文本内容的AI写作工具,可以根据用户的指示生成不同风格和格式的文本。

ChatGPT:一款可以生成各种文本内容的AI聊天机器人,可以与用户进行对话并生成各种文本内容。

代码生成类:

Github Copilot:一款可以帮助开发人员写代码的AI工具,可以自动生成代码片段、函数、类等。

Kite:一款可以帮助开发人员写代码的AI工具,可以提供代码补全、错误提示等功能。

其他类

Notion AI:一款可以帮助用户完成各种任务的AI工具,可以生成文本、翻译语言、写代码等。

Rephrase.ai:一款可以帮助用户改写文本的AI工具,可以将文本改写成不同的风格或格式。

Writesonic:一款可以帮助用户生成各种文案的AI工具,可以生成广告文案、产品文案、博客文章等。

图片生成类:

DALL-E 2: 由 OpenAI 开发,可以根据文本描述生成逼真的图像,支持多种风格和格式,例如风景、物体、人物等。

Imagen: 由 Google AI 开发,可以生成高质量的图像,并支持根据文本描述生成图像,以及根据草图或低分辨率图像进行修复和增强。

Midjourney: 由 Midjourney AI 开发,可以生成风格化的图像,支持多种艺术风格,例如油画、水彩画、漫画等。

Disco Diffusion: 由 Google AI 和 RunwayML 合作开发,可以生成具有梦幻效果的图像,支持多种控制参数,例如颜色、形状、纹理等。

视频生成类:

Synthesia: 由 Synthesia AI 开发,可以生成真人视频,支持多种控制参数,例如表情、动作、背景等。

RunwayML: 由 RunwayML Inc. 开发,是一个提供多种 AI 工具的平台,其中包括视频生成工具,例如 DALL-E 2、Imagen 等。

当然还有现在大杀四方的sora。可以参考https://www.youtube.com/watch?v=HK6y8DAPN_0

3、助手类工具

比如微软的Copilot,没错虽然bing chat和copilot是一个东西,但就产品形态而言我更愿意将他们分成两个。Copilot已经完全融入微软生态和各类软件中,你可以直接用语音操作office干活。说到这个不免想到当年的“李姐万岁”。当然还有钉钉,飞书也在快速集成GPT的能力。这部分较为杂,而且初期toB较多。

通过对以上一些产品的观察和使用,我可以初步认定现在以GPT为核心的衍生产品仍然处于“资源驱动”阶段。就比如中东地区拥有丰富的石油资源,因此发展了石油产业。中国拥有丰富的人力资源,因此发展了劳动密集型产业。也就是开发的公司拥有哪些便利的资源就自然的形成了相对应的产品形态和服务,本质是对于已有资源的开发和利用,那问题也就随之而来了。新得模型提供了更强的能力,这没错。但下游使用方是否能够承接得住?

回到内燃机的例子,从蒸汽机的燃料燃烧,烧水推送机械,跨越到爆炸输出动能。曾经的材料,传动方式,控制方法等全部都需要调整。马车时代需要的是马夫,汽车时代需要的难道仅仅是将马夫换成司机吗?雨刮器,保险带,安全气囊,红绿灯,斑马线哪个不是用大量的“损失”换来的。汽车刚发明的时候,车祸死亡率非常高。

根据美国国家公路交通安全管理局 (NHTSA) 的数据,1900 年至 1929 年间,美国每年每 1 亿英里行驶里程的交通死亡人数为 12.5 人。这意味着当时每行驶 800 万公里就会发生 1 人死亡。到 2020 年,美国每 1 亿英里行驶里程的交通死亡人数已经下降到 1.13 人,比 1900 年下降了91%。回到GPT也是同样的问题,现阶段各类生成的内容的准确性,可靠性都存疑,对于使用者而言的要求反而变得出奇的高。

——所以从使用者的视角,现有的GPT工具,更多不是对于原有解决方案的革新和替代。而仅仅只是多了一种暂时还不太好用的“扳手”而已。

我以搜索引擎类的为例,现在大部分人连搜索引擎都玩不明白,我不指望他们能用好“搜索引擎Plus Pro Max”。核心的问题就在于GPT,别忘了它是一种自然语言模型,而语言交流天生就有很大的弊端。比如:

● 语言障碍:由于不同语言之间存在着差异,人们在进行跨语言交流时,往往会遇到语言障碍,例如听不懂对方说的话,或者无法用对方能够理解的语言表达自己的意思。文言一心刚出来的时候内部是要先把中文翻译成英文再做处理的,闹出不少热搜。

● 文化差异:由于不同文化背景的人们有着不同的思维方式和行为方式,在进行语言交流时,往往会由于文化差异而产生误解,例如对某些词语或行为的理解存在偏差。

● 表达能力:由于个人的表达能力不同,在进行语言交流时,往往会出现表达不清、逻辑混乱等问题,导致对方无法理解自己的意思。做过SEO/SEM的人都知道,有大量的搜索流量实际是一个问题,而非关键词。用户自然的提问,而搜索引擎天然的看不懂提问,更何况大部分人连个正常问题也无法问出来。

● 情绪因素:由于个人的情绪状态不同,在进行语言交流时,往往会出现情绪会左右个人的表达。当面对机器的时候,情绪往往无法纳入考量。

那GPT产品的下一站是哪?我们回到汽车的例子,汽车是在1886年由德国人卡尔·奔驰发明的。而最早的驾照考试制度是在1886年由德国颁布的,也就是说,汽车发明同年就有了驾照考试。

所以,汽车发明之后,几乎立刻就有了驾照考试。这是因为汽车是一种危险的交通工具,如果不经过培训和考试,就允许驾驶汽车,将会对道路交通安全造成很大的威胁。突然就想通了为啥李一舟能卖个199的课就赚了快一个小目标了。

我所能想到的下一站就是类比1904年,亨利·福特在福特汽车公司生产出了第一辆自动挡汽车,名为“福特T型车”。

● 根据美国国家公路交通安全管理局 (NHTSA) 的数据,自动挡车的交通事故发生率比手动挡车低 10% 左右。

● 根据德国汽车俱乐部 (ADAC) 的数据,自动挡车的交通事故死亡率比手动挡车低 20% 左右。

所以GPT产品的下一站,就是需要一个成熟的“自动变速箱”,以降低用户的使用门槛。让用户能够专注在自己要处理的事务上,而不是分散精力在如何组织更有效的Prompt,并且反复重试。这就像让用户使用搜索引擎的时候学会使用关键词加空格的模式,并且能够准确分辨出百度第一第二页上哪些是广告从而能避开点击那些链接,从而提高搜索效率。

我相信知道福特T型车的人显然比知道“奔驰专利汽车一号”(Benz Patent Motorwagen)的人多。而后者才是世界上的第一辆车的名称。

本系列第一期 「金融行业」即将在3 月 31日开播

相关观点