Token Tahmini

Canlı belirteç tahminleri için istekleri veya makaleleri yapıştırın; model bağlam sınırları içinde kalın. Karışık CJK ve İngilizce destekliyor.

Gizlilik: yerel olarak işlenir, asla yüklenmez.

Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın

在此粘贴 Prompt 或文本

实时统计字符、词数与 Token 估算,适合控制 LLM 上下文长度。

Çıktı

字符数

81

词数

10

行数

1

中日韩字符

17

GPT 估算 Token

31

Claude 估算 Token

30

Notlar

Token 估算说明

以下为启发式估算,与 OpenAI tiktoken 等官方计数器可能略有偏差,但足以做上下文预算与 Prompt 长度规划。 ~31 GPT tokens estimated.

Canlı belirteç tahminleri için istekleri veya makaleleri yapıştırın; model bağlam sınırları içinde kalın. Karışık CJK ve İngilizce destekliyor.

Hızlı başlangıç

  1. Metni yapıştır

    Çok satırlı istekler, kod blokları, karışık diller.

  2. İstatistikleri görüntüle

    Karakterleri, kelimeleri ve CJK sayımlarını bir bakışta görün.

  3. Model bütçesini kontrol et

    Bağlam planlaması için GPT / Claude tahmin sütunlarını kullanın.

Bir token nedir

LLM'ler, metni faturalandırma ve limitler için belirteçlere böler.İngilizce, token başına ~ 4 karakterdir; CJK, tokenizere göre değişir.

Bu ne kadar doğru

Heuristik formüller; resmi tiktoken 'den biraz farklı olabilir, ancak bütçe oluşturma ve kesim için iyi.

Tipik iş akışı

LLM istemleri oluştururken, gerçek zamanlı olarak belirteç kullanımını izlemek için metnizi buraya yapıştırın. Araç model sınırlarına yaklaşırken uyarıları vurgular (örneğin, GPT-4'in 8k bağlamı). Tam mesaj teslimini sağlamak için bu aşamada yedeklilikleri veya bölünmüş istekleri kırpın.

Teknik çeviriler gibi uzun metinler için, bölüm bölüm inceleme için paragraf modunu kullanın. Başlıkları ve anahtar paragrafları önceliklendirin, yanıtlar için% 20 belirtilen heyet bırakın. Not: Çince karakterler karma dil metinlerde her biri ~1.5 token tüketir.

Örnekler

Kısa bir prompt

Input

Summarize this article in 3 bullet points.

Kısa bir İngilizce satırı yaklaşık bir düzine jeton.

FAQ

ChatGPT sayımlarıyla eşleşir mi?

Her zaman aynı değil, aynı beyzbol sahası; uçuş öncesi kontroller için iyi.

Peki ya kod?

Karakter heuristics; sembol ağır kod yüksek eğim olabilir.

Neden benzer kelime sayıları olan metinler için belirteç sayımı önemli ölçüde değişir?

Tokenleştirme dilde farklılık gösterir: İngilizce kelimeler / alt kelimeler kullanırken Çince karakterler / kelimeler kullanır.Örneğin, 'derin öğrenme' 2-4 token'e bölünebilir. Araç, API uyumlu faturalandırma için OpenAI'nin tiktoken kütüphanesini kullanır.