wolfecameron · April 4, 2025 07:12 · ChanduTadanki · Apr 4, 2025
diff --git a/tokenizer_example.py b/tokenizer_example.py
 import torch
 from transformers import AutoTokenizer

 # load the llama-3.2 tokenizer
 tokenizer = AutoTokenizer.from_pretrained('meta-llama/Llama-3.1-8B')

 # raw text
 text = "This raw text will be tokenized"

 # create tokens using tokenizer
 tokens = tokenizer.tokenize(text)
 token_ids = tokenizer.convert_tokens_to_ids(tokens)
 # token_ids = tokenizer.encode(text)  # directly create token ids

 # view the results
 print("Original Text:", text)
 print("Tokens:", tokens)
 print("Token IDs:", token_ids)

 # create token embedding layer
 VOCABULARY_SIZE: int = 128000
 EMBEDDING_DIM: int = 768
 token_embedding_layer = torch.nn.Embedding(
    num_embeddings=VOCABULARY_SIZE,
    embedding_dim=EMBEDDING_DIM,
 )

 # get token embeddings (IDs must be passed as a tensor, not a list)
 token_emb = token_embedding_layer(torch.tensor(token_ids))
 print(f'Token Embeddings Shape: {token_emb.shape}')
	import torch
	from transformers import AutoTokenizer

	# load the llama-3.2 tokenizer
	tokenizer = AutoTokenizer.from_pretrained('meta-llama/Llama-3.1-8B')

	# raw text
	text = "This raw text will be tokenized"

	# create tokens using tokenizer
	tokens = tokenizer.tokenize(text)
	token_ids = tokenizer.convert_tokens_to_ids(tokens)
	# token_ids = tokenizer.encode(text) # directly create token ids

	# view the results
	print("Original Text:", text)
	print("Tokens:", tokens)
	print("Token IDs:", token_ids)

	# create token embedding layer
	VOCABULARY_SIZE: int = 128000
	EMBEDDING_DIM: int = 768
	token_embedding_layer = torch.nn.Embedding(
	num_embeddings=VOCABULARY_SIZE,
	embedding_dim=EMBEDDING_DIM,
	)

	# get token embeddings (IDs must be passed as a tensor, not a list)
	token_emb = token_embedding_layer(torch.tensor(token_ids))
	print(f'Token Embeddings Shape: {token_emb.shape}')