Cách sử dụng các token của OpenAI GPT?

Các token của OpenAI GPT là gì?

Token là đơn vị cơ bản mà các mô hình OpenAI GPT (bao gồm ChatGPT) sử dụng để tính độ dài của một văn bản. Chúng là các nhóm ký tự, đôi khi trùng với từ, nhưng không phải lúc nào cũng như vậy. Đặc biệt, điều này phụ thuộc vào số lượng ký tự và bao gồm các dấu chấm câu hoặc biểu tượng cảm xúc. Đây là lý do tại sao số lượng token thường khác với số lượng từ.

Làm thế nào để đếm số lượng token trong văn bản?

Để biết chính xác, bạn cần phân đoạn văn bản của mình, có nghĩa là chạy một thuật toán phân đoạn hóa sẽ đếm tất cả các token. Nghe có vẻ khó khăn? Thực ra nó lại rất đơn giản như sao chép/dán. Bạn có thể sử dụng tokenizer chính thức của OpenAI.

Quy tắc để tính tỷ lệ từ sang token

Do tất cả các ký tự đều được tính, tỷ lệ từ sang token phụ thuộc vào ngôn ngữ.

Thông thường, một số tỷ lệ từ sang token tốt là:

Trong tiếng Anh: 1 từ ≈ 1,3 token Trong tiếng Tây Ban Nha: 1 từ ≈ 2 token Trong tiếng Pháp: 1 từ ≈ 2 token Trong tiếng Việt: 1 từ ≈ 2, 3 từ

Bao nhiêu token cho các dấu chấm câu, ký tự đặc biệt và biểu tượng cảm xúc?

Dấu chấm câu (,:;?!) = 1 token

Ký tự đặc biệt (∝√∅°¬) = 1 đến 3 token

Biểu tượng cảm xúc (😁🙂🤩) = 2 đến 3 token

Giá của một token là bao nhiêu?

Giá của một token phụ thuộc vào mô hình. Giá là cho mỗi 1000 token. Tìm bảng giá dưới đây:

Tên mô hình Tên kỹ thuật Giá cho 1000 token (prompt) Giá cho 1000 token (completion)
GPT-4 32k context gpt-4-32k-0314 USD 0.0600 USD 0.1200
GPT-4 8k context gpt-4-0314 USD 0.0300 USD 0.0600
ChatGPT gpt-3.5-turbo USD 0.0020 USD 0.0020
Davinci text-davinci-003 USD 0.0200 USD 0.0200
Curie text-curie-001 USD 0.0020 USD 0.0020
Babbage text-babbage-001 USD 0.0005 USD 0.0005
Ada text-ada-001 USD 0.0004 USD 0.0004

Tham số max_tokens là gì?

max_tokens là số lượng token tối đa phải được tạo ra trong bất kỳ yêu cầu nào đến API OpenAI ChatGPT và GPT-3. Điều này áp dụng cho các yêu cầu được thực hiện thông qua GPT cho Sheets và Docs. Nó luôn tuân theo ràng buộc sau đây: prompt_tokens + max_tokens ≤ giới hạn của mô hình Trong trường hợp của Davinci, điều đó có nghĩa là prompt_tokens + max_tokens ≤ 4096

Tên mô hình Tên kỹ thuật Max tokens
GPT-4 32k context gpt-4-32k-0314 32768
GPT-4 8k context gpt-4-0314 8192
ChatGPT gpt-3.5-turbo 4096
Davinci text-davinci-003 4096
Curie text-curie-001 2049
Babbage text-babbage-001 2049
Ada text-ada-001 2049