jamesthomson · July 12, 2016 09:45 · rajacsp · Sep 23, 2018
diff --git a/word2vec tweets example.py b/word2vec tweets example.py
 import pandas as pd
 import re
 import numpy as np
 import nltk 
 import gensim


 #import data. contains identifier and tweet

 tweets=pd.DataFrame.from_csv('tweets.txt', sep='\t', index_col=False)

 #data prep
 #cleaning

 #lower case
 clean= tweets['tweet'].str.lower()

 #untranslated symbols
 clean = clean.str.replace('amp', ' ')
 clean = clean.str.replace('quot', ' ')

 #keep words whitespace and '
 clean = clean.str.replace(r'[^\w\s\']','')

 #remove numerics
 clean=clean.str.replace(r'[\d]','')

 sentences = clean.tolist()

 tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
 model = gensim.models.Word2Vec(tokenized_sentences, min_count=10)


 model.most_similar(positive=['moon'], topn=1)
 model.most_similar(positive=['moon'], negative=['poor'], topn=5)
 model.most_similar(positive=['moon', 'bench'], topn=5)

 model.similarity('john', 'lewis')
 model.similarity('bench', 'moon')
	import pandas as pd
	import re
	import numpy as np
	import nltk
	import gensim


	#import data. contains identifier and tweet

	tweets=pd.DataFrame.from_csv('tweets.txt', sep='\t', index_col=False)

	#data prep
	#cleaning

	#lower case
	clean= tweets['tweet'].str.lower()

	#untranslated symbols
	clean = clean.str.replace('amp', ' ')
	clean = clean.str.replace('quot', ' ')

	#keep words whitespace and '
	clean = clean.str.replace(r'[^\w\s\']','')

	#remove numerics
	clean=clean.str.replace(r'[\d]','')

	sentences = clean.tolist()

	tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
	model = gensim.models.Word2Vec(tokenized_sentences, min_count=10)


	model.most_similar(positive=['moon'], topn=1)
	model.most_similar(positive=['moon'], negative=['poor'], topn=5)
	model.most_similar(positive=['moon', 'bench'], topn=5)

	model.similarity('john', 'lewis')
	model.similarity('bench', 'moon')