Glossary

什麼是 Tokenizer

Tokenizer - AI and technology concept illustration
© 2025 / unsplash.com

Tokenizer 是自然語言處理(NLP)和程式語言解析中的一個重要組成部分。它負責將輸入文本分解為更小的單元,通常是單詞、子詞或符號,以便進行進一步處理。


Tokenization 是文本處理的第一步,為各種演算法和模型奠定基礎,尤其是在機器學習和深度學習的上下文中。不同的語言和應用需要不同類型的 tokenizer;例如,基於空格的 tokenizer 適用於英文,而基於字符的 tokenizer 在處理中文時則更為有效。


Tokenization 的重要性在於它為文本數據的分析和處理提供結構化的信息。透過將文本分解為 token,演算法能夠更容易地識別模式、提取特徵並生成預測。因此,選擇合適的 tokenizer 對於確保模型性能至關重要。


隨著人工智慧和機器學習的持續發展,tokenization 方法也在持續演變。許多現代模型使用了基於子詞的 tokenization 方法,如字節對編碼(BPE)或 WordPiece,這些方法能夠有效應對稀有詞和新詞,提高模型的泛化能力。