George GeorgeSeif

GeorgeSeif / faiss_cluster_gpu.py

Created January 30, 2021 18:15

	k = 10
	n_init = 10
	max_iter = 300
	kmeans = faiss.Kmeans(d=data.shape[1], k=k, niter=max_iter, nredo=n_init, gpu=True)
	kmeans.train(data.astype(np.float32))

	e = time.time()
	print("Training time = {}".format(e - s))

GeorgeSeif / sklearn_cluster_benchmark_2.py

Created January 30, 2021 18:14

	clf = KMeans(n_clusters=10)

	s = time.time()
	clf.fit(data)
	e = time.time()
	print("Training time = {}".format(e - s))


	s = time.time()
	clf.predict(data)

GeorgeSeif / generate_cluster_data.py

Created January 30, 2021 18:12

	import numpy as np

	data_size = 1000

	data = np.random.normal((100, 100, 100), (20, 20, 20), (data_size, 3))

GeorgeSeif / faiss_cluster_cpu.py

Created January 30, 2021 18:00

	s = time.time()

	k = 10
	n_init = 10
	max_iter = 300
	kmeans = faiss.Kmeans(d=x_train.shape[1], k=k, niter=max_iter, nredo=n_init)
	kmeans.train(x_train.astype(np.float32))

	e = time.time()
	print("Training time = {}".format(e - s))

GeorgeSeif / sklearn_cluster_benchmark.py

Created January 30, 2021 17:49

	clf = KMeans(n_clusters=10)

	s = time.time()
	clf.fit(x_train)
	e = time.time()
	print("Training time = {}".format(e - s))


	s = time.time()
	clf.predict(x_test)

GeorgeSeif / setup_sklearn_cluster.py

Created January 30, 2021 17:46

	import numpy as np
	import time

	from sklearn.cluster import KMeans
	from keras.datasets import mnist

	(x_train, y_train), (x_test, y_test) = mnist.load_data()

	x_train = x_train.reshape(len(x_train), -1).astype(float) / 255.
	x_test = x_test.reshape(len(x_test), -1).astype(float) / 255.

GeorgeSeif / install_faiss_2

Last active January 30, 2021 18:39

	# CPU version only
	conda install faiss-cpu -c pytorch

	# Additional Python packages
	pip3 install numpy
	pip3 install scikit-learn
	pip3 install tensorflow
	pip3 install keras

GeorgeSeif / install_faiss

Created January 30, 2021 17:34

	conda create --name faiss
	conda activate faiss

GeorgeSeif / scikit_learn_2.py

Created December 28, 2019 17:13

	from sklearn.decomposition import LatentDirichletAllocation as LDA

	NUM_TOPICS = 3

	# Here we create and fit the LDA model
	# The "document_word_matrix" is a 2D array where each row is a document
	# and each column is a word. The cells contain the count of the word within
	# each document
	lda = LDA(n_components=NUM_TOPICS, n_jobs=-1)
	lda.fit(document_word_matrix)

GeorgeSeif / scikit_learn_1.py

Last active December 28, 2019 16:48

	import pandas as pd
	from sklearn.feature_extraction.text import TfidfVectorizer

	def get_tf_idf(vectorizer):
	feature_names = vectorizer.get_feature_names()
	dense_vec = vectors.todense()
	dense_list = dense_vec.tolist()
	tfidf_data = pd.DataFrame(dense_list, columns=feature_names)
	return tfidf_data