
ChatGPT的内部是什么?
ChatGPT是一个网页应用程序,你可以在浏览器中与它互动,提问并获得回答。
GPT模型是ChatGPT这个应用程序使用的基础程序,每当我们对ChatGPT进行提问的时候,是这些GPT模型在识别我们说的内容,然后给出相应的答案。
因此,必须区分ChatGPT作为应用程序的外部界面和GPT模型作为内部生成回应的引擎之间的关系。
所以,ChatGPT的内部,是基于GPT模型,GPT代表生成式预训练转换器(什么是生成式预训练转换器?)。
OpenAI创建了这个令人惊叹的AI模型:GPT模型,而ChatGPT正是在幕后使用这个模型。
LLM的输入和输出
这个GPT AI模型是一个所谓的大型语言模型(LLM),而LLM现在已经成为一个普遍的事物,不再是OpenAI独有的。
ChatGPT和那些由OpenAI训练的GPT模型归OpenAI所有。
LLM则是一个通用概念,而GPT模型恰好是这样的大型语言模型。
大型语言模型在执行自然语言处理任务时,通过机器学习进行构建和优化,以理解和处理人类可理解的文本,
具体而言,大型语言模型通过训练学会了语言的概率规律,根据前面的词语来预测和推荐后续的词语。
也就是说,它能通过提供前面的词语,来生成完整的词语序列。
LLM的核心理念
大型语言模型的整个理念基于所谓的转换神经网络。
这种大型语言模型背后的整个思想是:将文本作为输入,利用转换神经网络产生输出,完成一系列单词的序列。这个输出可以是数字序列或其他类型的序列。
文本输入的例子包括提出问题并在序列中延续,而序列的延续则可能是对该问题的回答。这就是大型语言模型的能力,通过上下文理解和生成语言序列。
文本可以是任何类型的序列,甚至包括数字。
大型语言模型序列不仅仅是简单的数字序列,而且还可以是更复杂的序列,一开始可能看起来不像序列,但如果你仔细思考,它们也是逻辑序列。
ChatGPT,GPT模型和LLM
现在,在ChatGPT的内部,它基于GPT模型,GPT代表生成式预训练转换器。现在,这个GPT模型最终是一个AI模型,一个由OpenAI创建和拥有的人工智能模型,顺便提一下,尽管它的名字是“开放AI”,但并不太开放。它最初是一家专注于进行公共人工智能研究的公司。现在它更多是一家盈利的封闭公司,但这只是一个旁注。无论如何,OpenAI创建了这个令人惊叹的AI模型GPT模型,而ChatGPT正是在幕后使用这个模型。ChatGPT是一个网页应用程序,您可以在浏览器中与它互动,提问并获得回答。 GPT模型是该网络应用程序使用的基础程序,可以说是用于生成和产生这些回应的。因此,我们必须区分这两个事物。
值得注意的是,这些GPT API,这些GPT工具不仅仅被ChatGPT使用,而且也可以被您使用。事实上,在本课程的后面部分,将有一个完整的章节介绍如何使用这些API,你将学习到不同的API,以及如何使用这些API,包括最后由ChatGPT在你自己的代码中使用的API,来构建利用这些GPT API的自己的程序,因为这样,当然,可以让你构建出令人惊叹的应用程序,将这个由OpenAI创建和拥有的GPT AI模型融入和实现其中。如果你愿意的话,你可以基于这些GPT API构建自己的ChatGPT。
这就是ChatGPT的内容。现在,这个GPT AI模型是一个所谓的大型语言模型,而大型语言模型现在已经成为一个普遍的事物,不再是OpenAI独有的。ChatGPT和那些由OpenAI训练的GPT模型归OpenAI所有。大型语言模型是一个通用概念,而GPT模型恰好是这样的大型语言模型。现在,大型语言模型最终是执行自然语言处理任务的机器学习模型。所以最终,机器学习模型被构建和优化,以理解和处理人类可以理解和阅读的文本,并且这些模型可以利用该文本进行各种操作。大型语言模型最终是通过训练来计算概率,根据前面的词语来推荐词语。所以要完成词语的序列,你可以这样说。
所以大型语言模型的整个理念基于所谓的转换神经网络,我稍后会详细解释。这种大型语言模型背后的整个思想最终是将一些输入,一些文本作为输入,然后产生一些输出来完成一系列单词的序列。这可能是一串数字,但它可以是任何类型的序列,包括你可能提出一个问题然后继续这个序列,然后,这个序列的延续就是对那个问题的回答。因此,大型语言模型序列不仅仅是简单的数字序列,而且还可以是更复杂的序列,一开始可能看起来不像序列,但如果你仔细思考,它们也是逻辑序列。
LLM和神经网络
现在,正如前面提到的,大型语言模型最终是神经网络,而神经网络最终只是机器学习模型,可以说它们连接了大量的输入和计算笔记,通过多个层次进行组织,然后产生输出。现在,有不同种类的神经网络用于不同的目的。例如,如果您要训练某个用于处理图像的AI模型,通常会使用所谓的卷积神经网络。但是对于处理文本来说,最先进的神经网络类型是所谓的Transformer或Transformer神经网络。现在,这个大型语言模型神经网络的理念是,最终你训练这个网络,这个模型,以便对于给定的输入,给定的文本,它能够产生输出,即能够产生逻辑上合理的单词序列。这是通过一个非常长的迭代训练过程完成的,其中单词被输入,然后将输出与输入单词进行比较,以查看整个序列是否合理。
现在,就GPT 3.5模型而言,这是通过ChatGPT提供的一个模型,该神经网络使用了超过1700亿个参数,分布在96个层中,用于创建这个GPT模型。现在,确切的技术细节对于这门课程并不重要,也不重要以便使用ChatGPT。重要的是要简单地理解并意识到这些GPT模型是非常复杂的模型,它们根据数十亿个参数完成单词序列的补全和预测单词。
ChatGPT的训练数据与理解令牌
所以正如你所看到的,这些大型语言模型确实很大,它们使用复杂的神经网络,但正如我之前提到的,这种神经网络的理念是输入数据然后得到输出数据。然后通过简单地检查输出数据是否合理来优化神经网络。这就引出了我们的一个问题,那些用于训练的数据到底是什么?答案是,嗯,一切。基本上,来自整个互联网的所有公开可用的文本数据。所以不仅仅是英语,而是各种语言,这也解释了为什么ChatGPT可以用于翻译文本或用非英语语言提问。因此,当然,由于基本上使用了整个互联网文本,ChatGPT当然知道很多模式并接收了大量的输入数据。
当然,我会说互联网上的一些文本部分已经从训练数据中删除,以减少这些GPT模型产生或生成恶意或危险内容的风险。所以使用了大量的训练数据,但值得知道的是,用于训练这些模型的实际上并不是人类可读的单词。但是相反,这些词被翻译成所谓的令牌,每个令牌都有自己独特的ID。
现在,这些标记不一定总是完整的单词。相反,你可以大致说75个单词可以分成大约100个标记。这些令牌及其ID被用作这些神经网络的输入。所以要训练这些模型,这些大型语言模型。从技术上讲,背后有更多的转换和事情正在进行,但对于这门课程来说并不是太重要,而对于使用ChatGPT来说,正如您稍后也会看到的,只需要了解这个“标记概念”就足够
单词预测
所以这些GPT模型,这些大型语言模型相当复杂。
他们收到了大量的输入数据,这就是使他们如此强大的原因。
但最终,这真的很重要。
他们是关于预测词语的。
他们正在完成序列,例如,预测对于这样一个句子,”nice”可能是应该添加的下一个词。
所以,ChatGPT输出的每个词都是基于该词前面的词进行预测的。
现在,这里的事情发生得非常快,但最终,这是一个逐字逐句的过程。
所以最终,在幕后,ChatGPT不断地查看它迄今为止输出的单词或用户输入的单词,并生成可能的下一个单词。
它为这些单词分配可能性,然后通常选择概率最高的单词,所以例如,在这里它可以确定“nice”对这个句子来说是有意义的,但“rich”和“close”可能没有太多意义。
这些可能在其他句子中更有意义,但在这个句子中不合适。
现在,重要的是要理解ChatGPT进行的这种单词预测,并不仅仅是基于被预测单词前面的直接单词,而是这些GPT模型能够理解更复杂的序列和关系。
例如,GPT模型能够理解在这里使用”nice”是因为它与天气有关,而不是与”very”这个词有关。
如果只是看这个词“very”,“rich”或“close”可能会有意义。
但是如果你考虑整个句子,”nice”当然更有意义,因为正如在这里提到的,它与天气有关。
所以GPT模型能够理解这样的复杂关系,因为这些模型非常复杂,具有很多输入参数。
因此,这些模型不仅仅与单个句子相关,而且可以根据多个句子之间的关系或更复杂的词组组合来预测单词。
这就是为什么ChatGPT看起来如此神奇。
它看起来好像真的理解我们在说什么,但最重要的是要记住,它只是根据可用的上下文预测单词。
基于用户输入和生成的所有单词,直到当前正在预测的单词,它都是关于单词预测的。
但由于这些GPT模型的复杂性,它能够非常好地预测这些词,并能够产生像这个一样复杂的输出和文本。
