Cách sử dụng các token của OpenAI GPT?

Các token của OpenAI GPT là gì?

Token là đơn vị cơ bản mà các mô hình OpenAI GPT (bao gồm ChatGPT) sử dụng để tính độ dài của một văn bản. Chúng là các nhóm ký tự, đôi khi trùng với từ, nhưng không phải lúc nào cũng như vậy. Đặc biệt, điều này phụ thuộc vào số lượng ký tự và bao gồm các dấu chấm câu hoặc biểu tượng cảm xúc. Đây là lý do tại sao số lượng token thường khác với số lượng từ.

Làm thế nào để đếm số lượng token trong văn bản?

Để biết chính xác, bạn cần phân đoạn văn bản của mình, có nghĩa là chạy một thuật toán phân đoạn hóa sẽ đếm tất cả các token. Nghe có vẻ khó khăn? Thực ra nó lại rất đơn giản như sao chép/dán. Bạn có thể sử dụng tokenizer chính thức của OpenAI.

Quy tắc để tính tỷ lệ từ sang token

Do tất cả các ký tự đều được tính, tỷ lệ từ sang token phụ thuộc vào ngôn ngữ.

Thông thường, một số tỷ lệ từ sang token tốt là:

Trong tiếng Anh: 1 từ ≈ 1,3 token Trong tiếng Tây Ban Nha: 1 từ ≈ 2 token Trong tiếng Pháp: 1 từ ≈ 2 token Trong tiếng Việt: 1 từ ≈ 2, 3 từ

Bao nhiêu token cho các dấu chấm câu, ký tự đặc biệt và biểu tượng cảm xúc?

Dấu chấm câu (,:;?!) = 1 token

Ký tự đặc biệt (∝√∅°¬) = 1 đến 3 token

Biểu tượng cảm xúc (😁🙂🤩) = 2 đến 3 token

Giá của một token là bao nhiêu?

Giá của một token phụ thuộc vào mô hình. Giá là cho mỗi 1000 token. Tìm bảng giá dưới đây:

Tên mô hình	Tên kỹ thuật	Giá cho 1000 token (prompt)	Giá cho 1000 token (completion)
GPT-4 32k context	gpt-4-32k-0314	USD 0.0600	USD 0.1200
GPT-4 8k context	gpt-4-0314	USD 0.0300	USD 0.0600
ChatGPT	gpt-3.5-turbo	USD 0.0020	USD 0.0020
Davinci	text-davinci-003	USD 0.0200	USD 0.0200
Curie	text-curie-001	USD 0.0020	USD 0.0020
Babbage	text-babbage-001	USD 0.0005	USD 0.0005
Ada	text-ada-001	USD 0.0004	USD 0.0004

Tham số max_tokens là gì?

max_tokens là số lượng token tối đa phải được tạo ra trong bất kỳ yêu cầu nào đến API OpenAI ChatGPT và GPT-3. Điều này áp dụng cho các yêu cầu được thực hiện thông qua GPT cho Sheets và Docs. Nó luôn tuân theo ràng buộc sau đây: prompt_tokens + max_tokens ≤ giới hạn của mô hình Trong trường hợp của Davinci, điều đó có nghĩa là prompt_tokens + max_tokens ≤ 4096

Tên mô hình	Tên kỹ thuật	Max tokens
GPT-4 32k context	gpt-4-32k-0314	32768
GPT-4 8k context	gpt-4-0314	8192
ChatGPT	gpt-3.5-turbo	4096
Davinci	text-davinci-003	4096
Curie	text-curie-001	2049
Babbage	text-babbage-001	2049
Ada	text-ada-001	2049

Cách sử dụng các token của OpenAI GPT?

Quick Links

Resources

Support