九九视频一区,国产女同网站,一级电影网站,天天在线视频色,欧美国产亚洲一区二区,欧美综合网站,六月丁香网站

大模型的token究竟是什么?一文讀懂!

摘要:在大模型的語境中,token是一個基本的數(shù)據(jù)處理單元,它可以是一個單詞、一個字符,或者是一個子詞等,以下從其定義、作用及常見的token劃分方式等方面進行具體介紹:

公眾號/招文袋  作者/龍只

在大模型的語境中,token是一個基本的數(shù)據(jù)處理單元,它可以是一個單詞、一個字符,或者是一個子詞等,以下從其定義、作用及常見的token劃分方式等方面進行具體介紹:

定義:簡單來說,token是對文本進行分割后的最小單元。大模型在處理文本時,無法直接處理人類自然語言中的文字,需要將文本拆分成一個個的token,以便模型能夠理解和處理。例如,對于句子 “歡迎關注訂閱招文袋公眾號”,可以將其拆分成多個token:“歡迎”“關注”“訂閱”“招文袋”“公眾號”。

作用將文本數(shù)字化:把自然語言文本轉(zhuǎn)化為模型可以處理的數(shù)字向量形式。每個token會被映射為一個唯一的數(shù)字編號,模型通過處理這些數(shù)字來學習語言的模式和規(guī)律。如在一個簡單的詞匯表中,“歡迎”可能被編碼為1,“關注”編碼為2,“訂閱”編碼為3,“招文袋”編碼為4,“公眾號”編碼為5。這樣句子 “歡迎關注訂閱招文袋公眾號”就可以表示為 [1, 2, 3,4,5],便于模型進行計算和分析。

控制模型輸入輸出長度:模型處理的token數(shù)量是有限制的,通過對文本進行token化,可以將輸入文本截斷或補齊到合適的長度,使模型能夠有效地處理。例如,某模型的輸入長度限制為512個token,對于較長的文本,就需要截斷多余部分;對于較短的文本,可能需要添加特殊的填充token,使其達到規(guī)定長度。

提高語言理解精度:將文本細分為token后,模型可以更精確地捕捉語言中的語義和語法信息。比如,對于一些具有多種含義的詞,通過上下文的其他 token,模型能更準確地判斷其在具體語境中的意思。

常見的token劃分方式單詞級別:將文本按照空格等分隔符拆分成多個單獨的詞匯作為token。如 “加入招文袋知識星球一起學習AI” 會被拆分為 “加入”“招文袋”“知識星球”“一起” “學習”“AI”六個token。這種方式簡單直接,但對于一些復雜的語言現(xiàn)象,如復合詞、詞的變形等處理可能不夠精細。

字符級別:把文本中的每個字符都作為一個token。例如,“關注招文袋” 會被拆分為“關”“注”“招”“文”“袋”五個token。字符級別的token化可以處理任何未知的詞匯,但會導致輸入序列過長,增加模型的計算量和訓練難度。

子詞級別:結(jié)合了單詞級別和字符級別的優(yōu)點,將單詞拆分成更小的子詞單元。例如,“招文袋知識星球” 可能被拆分成 “招文”“袋”“知識”“星球”四個token。這種方式既能處理一些罕見詞和復合詞,又能保持相對合理的token數(shù)量和序列長度。

如何計算token的數(shù)量?

計算token數(shù)量的方法會因tokenization的方式不同而有所差異,常見的有基于空格或標點符號的簡單統(tǒng)計、基于預訓練模型的工具包統(tǒng)計、基于字符的統(tǒng)計等方法,以下是具體介紹:

基于空格和標點符號的簡單統(tǒng)計

對于以單詞為token的情況,可以通過統(tǒng)計文本中的空格和標點符號來大致計算token數(shù)量。例如,對于文本 “知識星球名:招文袋 星球號:75873546。”,可以通過計算空格和標點符號的數(shù)量來確定 token 的數(shù)量。一般來說,空格將單個詞匯分隔開,標點符號也可以作為分隔的標志。在這個例子中,有四個token,分別是“知識星球名”“招文袋”“星球號”“75873546”。不過這種方法對于一些復雜的語言現(xiàn)象可能會不準確。

基于預訓練模型的工具包統(tǒng)計

使用Hugging Face(一個專注于自然語言處理的開源社區(qū))的tokenizers庫:許多預訓練語言模型都有相應的tokenizer工具,以Hugging Face的transformers庫為例,它提供了各種預訓練模型的tokenizer,可以方便地對文本進行token化并計算token數(shù)量。如對于BERT模型(一種語言表示模型),可以使用BertTokenizer(對文本進行分詞和編碼的工具)來處理文本。

使用AllenNLP(一個自然語言處理的模型框架)的tokenizers:AllenNLP也提供了豐富的自然語言處理工具,包括tokenizer??梢允褂肧pacyTokenizer或WordTokenizer等對文本進行處理和 token 數(shù)量計算。

基于字符的統(tǒng)計

如果是基于字符的tokenization,那么直接統(tǒng)計文本中的字符數(shù)量即可。例如,對于文本 “知識星球名:招文袋”,字符數(shù)量為8,即token數(shù)量為8。但需要注意一些特殊情況,如是否將空格、標點符號等也算作token。如果要將空格也算作token,那么 “知識星球名:招文袋” 的token數(shù)量就是9。

基于特定規(guī)則的統(tǒng)計

對于一些特定的領域或任務,可能會有自定義的token定義和計算規(guī)則。例如,在處理代碼時,可以將每個關鍵字、變量名、運算符等作為一個 token(小白不用處理代碼,了解即可)。

最后,簡單直白總結(jié)如下:

- token定義:大語言模型接收到文字后,分詞器將其切成的小塊就是token,它可以是單個漢字、詞語、短語、標點符號、單詞或詞綴等。大模型輸出文字時也是逐個token生成,所以看起來像打字。

- token存在的原因:類比人腦處理信息方式,為提高效率、節(jié)省腦力,人腦常把有意義的詞語或短語作為整體對待,人工智能也借鑒了這一思路,通過分詞器把大段文字拆解成大小合適的token。

- 分詞器分詞方法:分詞器通過統(tǒng)計大量文字,把經(jīng)常一起出現(xiàn)的組合(如“招文袋” )、單個常用字(如“請”)、常見字母組合(如“ing” )、標點符號等,分別打包成token,配上編號,形成龐大的token表。大模型輸入和輸出時,處理的是token編號,再由分詞器轉(zhuǎn)換為人類可看懂的內(nèi)容。

- token的作用及計費方式:token是大模型理解和生成文字的基礎,大模型通過計算token之間的關系推算下一個可能的token。幾乎所有大模型公司按token數(shù)量計費,因為其對應背后的計算量。

這里有些AI大模型說是免費,其實是免費一部分token,超過后就要收費。比如,有平臺就出了政策,說新注冊或者拉新會員注冊就免費送你50萬token。看著數(shù)字好像很多都用不完的樣子,但其實如果天天用的話,幾天也就用沒了。

- 不同模型分詞差異:不同模型分詞結(jié)果不同,如“請關注訂閱招文袋公眾號”在DeepSeek和其他模型里分詞結(jié)果不同,所以分詞的數(shù)量也就不同了。此外,token在人工智能領域外也有出現(xiàn),但含義不同。

就說到這里,如果耐心看完,也就對token的概念基本清晰無誤了。

#誠意推薦#需要下載和及時了解學習人工智能的小伙伴們,可以加入我們的招文袋知識星球社群,最新最全的學習資料,我們會優(yōu)先分享至星球社群內(nèi),加入即可下載閱覽全部報告。AI時代,加入我們,一起學習,共同進步!

640 (1)

星球內(nèi)部分學習資料(持續(xù)更新中)

北京大學AI教程第一版-DeepSeek提示詞工程和落地場景.pdf-頁面提取.pdf

北京大學AI教程第二版-DeepSeek與AIGC應用.pdf

北京大學AI教程第三版-DeepSeek-R1及類強推理模型開發(fā)解讀.pdf

北京大學:DeepSeek-R1、Kimi 1.5及類強推理模型開發(fā)解讀報告.pdf

清華大學第一版:DeepSeek從入門到精通.pdf

清華大學第二版:DeepSeek如何賦能職場應用.pdf

清華大學第三版:普通人如何抓住DeepSeek紅利.pdf

清華大學第四版:DeepSeek+DeepResearch 讓科研像聊天一樣簡單.pdf

清華大學第五版:DeepSeek與AI幻覺.pdf

清華大學第六版:AIGC發(fā)展研究3.0版.pdf

清華大學:AIGC理論與實踐2025-AIGC如何幫助工作和學習.pdf

普通人的AI通識課-第一章(1)什么是 AI? 

普通人的AI通識課-第一章(2)AI發(fā)展簡史 

普通人的AI通識課-第一章(3)輕松讀懂 AI 技術(shù):開啟智能世界大門  ...

50 個常用的 DeepSeek提示詞

湖南大學:我們該如何看待DeepSeek.pdf

DeepSeek_VL2_paper.pdf

DeepSeek_V3.pdf

DeepSeek_R1.pdf

112頁!DeepSeek+7大場景+50大案例+全套提示詞+從入門到精通干貨-覺醒學院xAI流量坊

詳解DeepSeek:+模型訓練、優(yōu)化及數(shù)據(jù)處理的技術(shù)精髓-km

浙江大學2025年DeepSeek行業(yè)應用案例集解鎖智能變革密碼153頁

DeepSeek模型優(yōu)勢:算力、成本角度解讀報告.pdf

大模型的token究竟是什么?一文讀懂!

給小伙伴們推薦幾個適合AI初學者的學習平臺

2024年AI工具類應用盤點報告.pdf

DeepSeek核心十問十答.pdf

DeepSeek自學手冊:從理論到實踐.pdf

浙江大學:DeepSeek行業(yè)應用案例集.pdf

DeepSeek中小學生使用手冊.pdf

DeepSeek入門寶典-行業(yè)應用篇.pdf

DeepSeek入門寶典-個人使用篇.pdf

DeepSeek入門寶典-技術(shù)解析篇.pdf

廈門大學科普 PPT:大模型概念、技術(shù)與應用實踐(140頁)

100種利用AI賺錢的方法!

AI-R-SDLayer AI就緒的安全數(shù)據(jù)通層白皮書

14個好用且低門檻的工具,涵蓋音頻、視頻、字幕、簡歷、摳圖、搜索等領域,均為自用推薦

穩(wěn)定使用 DeepSeek 的工具

吳偉:進階版提示詞更能提高效果, 怎么讓DeepSeek更好用?

吳偉:用AI做副業(yè),有這幾個大的方向

DeepSeek 加剪映,做出個人的專屬數(shù)字人

吳飛教授《回望AI三大主義與加強通識教育》

陳文智教授《Chatting or Acting?——DeepSeek 的突破邊界與 “浙大先生” 的未來圖景》

13個自媒體平臺的區(qū)別及三大流量平臺現(xiàn)狀

怎樣增強我們對AI生成內(nèi)容真實性和可靠性的辨別能力?

怎樣平衡AI幻覺創(chuàng)意靈感的利弊?

如何利用AI幻覺帶來的創(chuàng)意靈感?

普通人究竟有沒有必要本地部署AI?

馬斯克發(fā)布的 AI 模型Grok3和國產(chǎn)大模型DeepSeek究竟誰更厲害?

ChatGPT究竟有沒有中文版本的官方應用下載?

DeepSeek 最常用九大類提示詞及典型示例(覆蓋全行業(yè)主流應用場景)

AI創(chuàng)作短視頻、數(shù)字人合成、語音合成的方法(保姆級教程)

DeepSeek、Kimi和豆包三個AI軟件的優(yōu)缺點和使用區(qū)別

通過AI生成視頻短片的幾種方法

AI輔助EXCEL做數(shù)據(jù)分析的方法

AI直接或輔助生成各類短中長文案的方法

微信接入deepseek后,將對我們的工作生活帶來什么變化

人工智能大模型賦能數(shù)字化轉(zhuǎn)型新范式.pdf

九紫離火運來臨,投資哪些行業(yè)前景最被看好?

AIGC (生成式人工智能) 的基本概念及實用價值

deepseek最常用的七種提示詞樣例

抖音快速起號,年入百萬的方法秘籍!

30張可以直接拿去用的情感美文小紅書封面

新媒體領域最容易持續(xù)爆火的內(nèi)容是什么?

如何使用deepseek高效提問?

怎么認識即將全面到來的AI時代?

AI會取代哪些行業(yè)?

DeepSeek 為什么總是顯示服務器繁忙,請稍后再試?

編輯/趙俊陽
未標明由印象慶陽網(wǎng)(www.thefrenchpixie.com)原創(chuàng)的文章,均為公益轉(zhuǎn)載或由網(wǎng)民自行上傳發(fā)布。網(wǎng)站所有文章均不代表我站任何觀點,請大家自行判斷閱讀。文章內(nèi)容包括圖片、音視頻等如有侵犯您的合法權(quán)益,請及時聯(lián)系我站刪除。感謝理解,致敬原創(chuàng)!站務郵箱:931548454@qq.com

您可能感興趣的文章