abhijeet-talaulikar · September 5, 2023 15:46
diff --git a/gpt-gmm-embeddings.py b/gpt-gmm-embeddings.py
 import numpy as np
 import pandas as pd
 import openai

 # Enter your own key in here
 openai.api_key = ""

 # Load data
 data = pd.read_csv("complaints.csv")

 # Basic cleaning to remove empty texts and downsample to top 10 focus areas
 data = data[~data['Consumer complaint narrative'].isna()]
 focus_areas = data['Issue'].value_counts().head(10).index.to_list()
 data = data[data['Issue'].isin(focus_areas)]
 review_data = data.groupby('Issue').apply(lambda x: x.sample(frac=0.01))

 # Fetch Open AI's text embeddings for our texts
 def get_embedding(text, model="text-embedding-ada-002"):
    text = text.replace("\n", " ")
    return openai.Embedding.create(input = [text], model=model)['data'][0]['embedding']

 review_data['ada_embedding'] = review_data['Consumer complaint narrative'].apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))
	import numpy as np
	import pandas as pd
	import openai

	# Enter your own key in here
	openai.api_key = ""

	# Load data
	data = pd.read_csv("complaints.csv")

	# Basic cleaning to remove empty texts and downsample to top 10 focus areas
	data = data[~data['Consumer complaint narrative'].isna()]
	focus_areas = data['Issue'].value_counts().head(10).index.to_list()
	data = data[data['Issue'].isin(focus_areas)]
	review_data = data.groupby('Issue').apply(lambda x: x.sample(frac=0.01))

	# Fetch Open AI's text embeddings for our texts
	def get_embedding(text, model="text-embedding-ada-002"):
	text = text.replace("\n", " ")
	return openai.Embedding.create(input = [text], model=model)['data'][0]['embedding']

	review_data['ada_embedding'] = review_data['Consumer complaint narrative'].apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))