当前位置:首页-文章-AI学习-正文

AI 重要概念之 Token

关注启职鹿公众号
从 OpenAI 2023 年 11 月开发者大会发布的 GPT - 4 Turbo 切入,介绍其以 Token 衡量的价格与强大文本处理能力,对比 GPT - 4,凸显新模型进步。通过向 ChatGPT 提问,深入阐释 Token 的定义及 Tokenization 过程,以多语种例子生动说明其含义。

大家好!欢迎来到启职鹿AI 知识分享。今天,我们的主题是关于 AI 的重要概念之 Token。

AI 重要概念之 Token - 第1张

先来看看这张极具历史意义的图片,它源自 2023 年 11 月举行的 OpenAI 首次开发者大会。在这个盛会上,OpenAI 震撼发布了新模型——GPT4 Turbo。此模型在当时堪称世界上最先进的 GPT 模型。就拿成本价格来说吧,如图所示,这个新模型每 1000 个输入 Token 的费用是 0.01 美元,也就是仅仅 1 美分;而每 1000 个输出 Token 的费用则是 0.03 美元,大约为 3 美分。作为行业领先的大模型,其价格自然备受瞩目。这个 AI 模型的价格是以 Token 为单位标注的。 除此之外,发布会上还对 GPT 4 Turbo 与之前的模型 GPT 4 的价格进行了对比。并且强调,新的模型中,输入 Token 仅为原来的 1/3,输出 Token 只有原来的 1/2。

另外,发布会上还着重提出了一个概念。GPT4 Turbo 这个模型最高支持 12.8 万个 Token,这相当于一本标准大小、300 页的纸质书所包含的文本量。也就是说,它能够处理相当于 300 页纸质书的文本输入呢!而在此之前的标准版 GPT4 模型,最多只能支持 8192 个 Token。从 GPT4 到 GPT4 Turbo,其能够支持的文本量从 8192 个 Token 大幅增加到了 12.8 万个 Token。

大家可以明显感受到这个进步之快。 说到这里,我们不难发现,无论是人工智能的定价,还是它的文本处理能力,都是以 Token 为单位来进行衡量的。所以,Token 的重要性不言而喻。

那么,究竟什么是 Token 呢?为了探寻这个问题的答案,我向 AI 助手 ChatGPT 发出了询问:

“你好,在人工智能的处理领域,什么是 Token?”

ChatGPT 给出了一个非常精彩的回答。接下来,我就把这个答案念给大家听。

ChatGPT 回复道:“你好,如今的人工智能都是基于自然语言处理(NLP)领域。Token 的中文翻译叫词元。词元,也就是 Token,是文本处理的基本单位。简单来说,Token 就是将文本分割成更小的部分。这些部分可以是单词,可以是字符,也可以是符号。还有一个动词叫 Tokenization,即词元化,指的就是这个分割的过程。比如句子‘我爱北京天安门’,这句话可以被分割成‘我爱’‘北京’‘天安门’这样的 Token。由此可见,Token 并不等于字。在英文中,‘I love New York’这句话可以被分割成‘I’、‘love’、‘New York’这样的 Token。Tokenization 是自然语言处理中非常重要的一步,它能帮助人工智能模型理解和分析文本。而且,不同的语言和不同的处理任务可能需要不同的 Tokenization 方法。同一句话在不同的场合,分割的方法可能会不一样。有时候,标点符号和空格会被当作独立的 Token 来处理。此外,在一些高级的 NLP 模型中,比如 GPT -3,Token 还可以包含语义上的片段,它不一定是一个词,可能是一个词组,或者说是一个短句。”

大家可以看到,人工智能的回答非常详尽,举了各种各样的例子,既有中文的,又有英文的,深入浅出。如果你还是不清楚,可以自己继续去问。 我接着又问了它一个问题,我给出了一个例子‘Hello World!’,也就是‘你好世界’这句话的英文。我问它这句话里面包含了哪些 Token,让它用中文回答。

ChatGPT 非常友好地回复道:“在像 GPT 这样的人工智能模型里面,文本会被分割成一系列的 Token。Token 可以翻译成词元,其实也可以翻译成标记。这个过程称为 Tokenization,也就是词元化。对于句子‘Hello World!’,基于 GPT 使用的字节对编码的算法,也就是 BPE 算法。在 GPT 中,这句话至少会被分为以下几个 Token:一个是‘Hello’,作为一个常见单词,GPT 会认识它,所以会把它作为一个单独的 Token;然后逗号也会被认识成一个独立的 Token;接着是‘World’,包含空格在内的词元,即使你在‘World’后面不小心打了一个空格,它也会把它认识成一个单词;最后就是一个叹号,一个标点符号,又会作为一个独立的 Token。所以总的来讲,‘Hello World!’这句话在 GPT 模型里面通常会被分割成四个 Token。这就是我们用数据去训练人工智能的时候,它理解复杂话语的方式,实际上跟我们人理解一个句子非常类似,都是把句子拆分成不同的词组、不同的单词,通过对单词的理解,进而理解由这些单词组成的句子。"

我们又一次见识了人工智能的学习方法与我们人类的学习方法有着极大的类似之处。 最后,我想提醒大家,基于大模型的 AI 的训练成本非常高。比如 OpenAI,它是用十几万亿甚至是几十万亿的 Token 才训练出了 GPT3 和 GPT4。所以,其成本之高可想而知。这也正是为什么现在能够做大模型 AI 的一定是大公司,普通人、普通公司没有这个能力去做。我们用户在使用人工智能的时候,也是要花钱的,就像我们使用手机也要花钱一样。有时候,它是按月按年来收费的,即便如此,通常也会对每一次的输入文本大小有限制。有的时候呢,它会按次数来收费,或者说按 Token 的数目来收费,也就是根据你问的问题的复杂程度收费。

举个例子,我们在美国使用 GPT - 4 的 API,每个月大约收取 20 美元。 好啦,下一节课,我们会讲另外一个非常重要的概念,叫 Prompt。下次再见!

本文“AI 重要概念之 Token”为本站原创作品,发布者:鹿小编,其版权均为启职鹿所有。
严禁任何未经授权的转载行为,若需转载,请与service@qizhietd.com联系并取得授权确认后。请清晰标明文章来源出处以及原作者署名,共同维护良好的创作环境。
同时,启职鹿诚邀您加入我们的平台,共享您的见解与思考,携手促进职场技能的提升。