为了更好的使用ChatGPT,掌握它的特点和功能,我们还需要简单了解一下它的底层原理。

一.LLM:ChatGPT背后的人

顾名思义,ChatGPT,它是基于“GPT模型”开发的,而“GPT模型”就是基于传说中的“LLM(大语言模型)”开发的。

“LLM”的逻辑就是将一系列内容作为输入,输入内容的延续就是输出。例如你输入1,2,3,4,那么按照自然数的序列,下一个就应该是5,所以当你输入1234,ChatGPT就会告诉你后面的数字是5。

这里解释一下LLM,它是基于Transformer神经网络开发的,“Transformer神经网络”神经网络模型的其中一种,它连接了大量的输入和计算笔记,通过复杂层次进行组织,然后产生输出。

上述专业名词的结构关系如下图。

二.神经网络模型:Transformer

为了掌握ChatGPT的行为和逻辑,以便更好的跟它聊天,我们还需要简单理解下神经网络模型”这一层面的概念。

1.ChatGPT的逻辑:它并不会真正理解你

“Transformer神经网络”是需要人工通过数据训练,它会将输出的内容和输入的内容进行对比,最终目的是让输入和输出内容变成逻辑通顺的一句话。

例如:你输入“太阳是”?神经网络便会以“太阳是”作为输入,它不会说”太阳是草“,因为逻辑不通,但是它找到了“刺眼”这个词,它认为“太阳是刺眼的”这句话比较通顺,所以就会输出。

ChatGPT输出的每一个字,都是基于前面的字进行预测的,它不断的查看已经输出的内容,然后生成下一个字,它会判断这个字出现在这个句子里是否会使句子更通顺。

所以,它看起来好像真的在明白我们说什么,实际上它只是根据上下文进行预测。但是由于GPT足够复杂,因此它能非常好的预测这些内容。

2.ChatGPT的“token”:内容数量的限制

之前说过,“Transformer神经网络”是需要通过数据进行训练的,而这些用于训练的数据,基本上是互联网上所有公开可用的数据,当然,不会把一些恶意的数据放入训练中。

所以,这也是为什么我们可以用非英文向ChatGPT提问或者用ChatGPT进行翻译。

用于训练的数据,是要先将数据内容转换成令牌(token),每个令牌都有自己的ID,75个单词大约能分成100个令牌,而最终,是这些令牌被输入到训练中。

令牌的个数在一个聊天记录中是有限制的,因此在同一个聊天框中,我们不能一次性发送大量文本或者整体聊天的内容太多,否则就会出错。