Skip to content

Instantly share code, notes, and snippets.

@subhadarship
Created January 31, 2020 01:10
Show Gist options
  • Save subhadarship/2c7bdab4b11a1b92799fefffe96b0909 to your computer and use it in GitHub Desktop.
Save subhadarship/2c7bdab4b11a1b92799fefffe96b0909 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Byte Pair Encoding"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Steps"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n",
"**Step 0** Initialize vocabulary.\n",
"\n",
"**Step 1** Represent each word in the corpus as a combination of the characters along with the special end of word token `</w>`.\n",
"\n",
"**Step 2** Iteratively count character pairs in all tokens of the vocabulary.\n",
"\n",
"**Step 3** Merge every occurrence of the most frequent pair, add the new character n-gram to the vocabulary.\n",
"\n",
"**Step 4** Repeat step 3 until the desired number of merge operations are completed or the desired vocabulary size is achieved (which is a hyperparameter)."
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"import re\n",
"from collections import Counter, defaultdict\n",
"from tqdm import tqdm"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"def build_vocab(corpus: str) -> dict:\n",
" \"\"\"Step 1. Build vocab from text corpus\"\"\"\n",
"\n",
" # Separate each char in word by space and add mark end of token\n",
" tokens = [\" \".join(word) + \" </w>\" for word in corpus.split()]\n",
" \n",
" # Count frequency of tokens in corpus\n",
" vocab = Counter(tokens) \n",
"\n",
" return vocab"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"def get_stats(vocab: dict) -> dict:\n",
" \"\"\"Step 2. Get counts of pairs of consecutive symbols\"\"\"\n",
"\n",
" pairs = defaultdict(int)\n",
" for word, frequency in vocab.items():\n",
" symbols = word.split()\n",
"\n",
" # Counting up occurrences of pairs\n",
" for i in range(len(symbols) - 1):\n",
" pairs[symbols[i], symbols[i + 1]] += frequency\n",
"\n",
" return pairs"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"def merge_vocab(pair: tuple, v_in: dict) -> dict:\n",
" \"\"\"Step 3. Merge all occurrences of the most frequent pair\"\"\"\n",
" \n",
" v_out = {}\n",
" bigram = re.escape(' '.join(pair))\n",
" p = re.compile(r'(?<!\\S)' + bigram + r'(?!\\S)')\n",
" \n",
" for word in v_in:\n",
" # replace most frequent pair in all vocabulary\n",
" w_out = p.sub(''.join(pair), word)\n",
" v_out[w_out] = v_in[word]\n",
"\n",
" return v_out"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [],
"source": [
"# data\n",
"from sklearn.datasets import fetch_20newsgroups\n",
"categories = [\n",
" 'alt.atheism',\n",
" 'talk.religion.misc',\n",
"]\n",
"data = fetch_20newsgroups(categories=categories)"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [],
"source": [
"corpus = ''.join(data.data)"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [],
"source": [
"vocab = build_vocab(corpus) # Step 1"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Counter({'F r o m : </w>': 861,\n",
" 'm a n g o e @ c s . u m d . e d u </w>': 36,\n",
" '( C h a r l e y </w>': 26,\n",
" 'W i n g a t e ) </w>': 26,\n",
" 'S u b j e c t : </w>': 878,\n",
" 'B e n e d i k t i n e </w>': 3,\n",
" 'M e t a p h y s i c s </w>': 2,\n",
" 'L i n e s : </w>': 869,\n",
" '2 4 </w>': 35,\n",
" 'B e n e d i k t </w>': 34,\n",
" 'R o s e n a u </w>': 6,\n",
" 'w r i t e s , </w>': 5,\n",
" 'w i t h </w>': 1308,\n",
" 'g r e a t </w>': 84,\n",
" 'a u t h o r i t y : </w>': 2,\n",
" '> </w>': 3326,\n",
" 'I F </w>': 7,\n",
" 'I T </w>': 15,\n",
" 'I S </w>': 55,\n",
" 'C O N T R A D I C T O R Y </w>': 9,\n",
" 'C A N N O T </w>': 7,\n",
" 'E X I S T . </w>': 3,\n",
" '\" C o n t r a d i c t o r y \" </w>': 1,\n",
" 'i s </w>': 5183,\n",
" 'a </w>': 5072,\n",
" 'p r o p e r t y </w>': 14,\n",
" 'o f </w>': 7673,\n",
" 'l a n g u a g e . </w>': 6,\n",
" 'I f </w>': 461,\n",
" 'I </w>': 3525,\n",
" 'c o r r e c t </w>': 40,\n",
" 't h i s </w>': 1455,\n",
" 't o </w>': 7114,\n",
" 'T H I N G S </w>': 7,\n",
" 'D E F I N E D </w>': 3,\n",
" 'B Y </w>': 7,\n",
" 'L A N G U A G E </w>': 6,\n",
" 'D O </w>': 11,\n",
" 'N O T </w>': 89,\n",
" 'E X I S T </w>': 6,\n",
" 'w i l l </w>': 714,\n",
" 'o b j e c t </w>': 25,\n",
" 'd e f i n i t i o n s </w>': 20,\n",
" 'a s </w>': 1646,\n",
" 'r e a l i t y . </w>': 18,\n",
" 'y o u </w>': 2651,\n",
" 't h e n </w>': 437,\n",
" 'a m e n d </w>': 3,\n",
" 'i t </w>': 2204,\n",
" 'D E S C R I B E D </w>': 3,\n",
" \"w e ' v e </w>\": 11,\n",
" 'c o m e </w>': 165,\n",
" 's o m e t h i n g </w>': 242,\n",
" 'w h i c h </w>': 579,\n",
" 'p l a i n l y </w>': 4,\n",
" 'f a l s e . </w>': 17,\n",
" 'F a i l u r e s </w>': 3,\n",
" 'i n </w>': 3712,\n",
" 'd e s c r i p t i o n </w>': 20,\n",
" 'a r e </w>': 2049,\n",
" 'm e r e l y </w>': 44,\n",
" 'f a i l u r e s </w>': 3,\n",
" 'd e s c r i p t i o n . </w>': 4,\n",
" \"( I ' m </w>\": 5,\n",
" 'n o t </w>': 2305,\n",
" 'a n </w>': 1038,\n",
" 'o b j e c t i v i s t , </w>': 6,\n",
" 'r e m e m b e r . ) </w>': 3,\n",
" '- - </w>': 570,\n",
" 'C . </w>': 28,\n",
" 'W i n g a t e </w>': 19,\n",
" '+ </w>': 60,\n",
" '\" T h e </w>': 98,\n",
" 'p e a c e </w>': 40,\n",
" 'G o d , </w>': 88,\n",
" 'n o </w>': 688,\n",
" 'p e a c e , </w>': 12,\n",
" 'b u t </w>': 1050,\n",
" 's t r i f e </w>': 12,\n",
" 'c l o s e d </w>': 19,\n",
" 't h e </w>': 12184,\n",
" 's o d . </w>': 11,\n",
" 'Y e t , </w>': 16,\n",
" 'b r o t h e r s , </w>': 12,\n",
" 'p r a y </w>': 24,\n",
" 'f o r </w>': 1845,\n",
" 'o n e </w>': 809,\n",
" 't h i n g : </w>': 12,\n",
" 't o v e ! m a n g o e </w>': 10,\n",
" \"m a r v ' l o u s </w>\": 11,\n",
" 'G o d . \" </w>': 18,\n",
" 'R e : </w>': 833,\n",
" 'T h e r e </w>': 231,\n",
" 'm u s t </w>': 281,\n",
" 'b e </w>': 2061,\n",
" 'c r e a t o r ! </w>': 2,\n",
" '( M a y b e ) </w>': 2,\n",
" 'h a l a t @ p o o h . b e a r s </w>': 32,\n",
" '( J i m </w>': 56,\n",
" 'H a l a t ) </w>': 32,\n",
" 'R e p l y - T o : </w>': 81,\n",
" 'I n </w>': 853,\n",
" 'a r t i c l e </w>': 693,\n",
" '< 1 6 B A 1 E 9 2 7 . D R P O R T E R @ S U V M . S Y R . E D U > , </w>': 1,\n",
" 'D R P O R T E R @ S U V M . S Y R . E D U </w>': 1,\n",
" '( B r a d </w>': 1,\n",
" 'P o r t e r ) </w>': 1,\n",
" 'w r i t e s : </w>': 870,\n",
" 'S c i e n c e </w>': 46,\n",
" 'w o n d e r f u l </w>': 12,\n",
" 'a t </w>': 697,\n",
" 'a n s w e r i n g </w>': 5,\n",
" 'm o s t </w>': 244,\n",
" 'o u r </w>': 243,\n",
" 'q u e s t i o n s . </w>': 3,\n",
" \"I ' m </w>\": 277,\n",
" 't y p e </w>': 24,\n",
" '> t o </w>': 63,\n",
" 'q u e s t i o n </w>': 127,\n",
" 's c i e n t i f i c </w>': 32,\n",
" 'f i n d i n g s </w>': 2,\n",
" 'v e r y </w>': 281,\n",
" 'o f t e n , </w>': 2,\n",
" 'b u t . . . </w>': 3,\n",
" 'P e r s o n a l l y , </w>': 5,\n",
" 'f i n d </w>': 187,\n",
" '> t h e o r y </w>': 1,\n",
" 'e v o l u t i o n </w>': 22,\n",
" 'u n f a t h o m a b l e . </w>': 1,\n",
" 'C o u l d </w>': 24,\n",
" 'h u m a n s , </w>': 6,\n",
" 'h i g h l y </w>': 26,\n",
" 'e v o l v e d , </w>': 1,\n",
" '> c o m p l e x </w>': 1,\n",
" 'o r g a n i s m </w>': 7,\n",
" 't h a t </w>': 4925,\n",
" 't h i n k s , </w>': 1,\n",
" 'l e a r n s , </w>': 1,\n",
" 'a n d </w>': 4839,\n",
" 'd e v e l o p s </w>': 1,\n",
" 't r u l y </w>': 22,\n",
" '> t h a t </w>': 57,\n",
" 'r e s u l t e d </w>': 11,\n",
" 'f r o m </w>': 907,\n",
" 'r a n d o m </w>': 12,\n",
" 'g e n e t i c </w>': 14,\n",
" 'm u t a t i o n s </w>': 1,\n",
" 'n a t u r a l </w>': 74,\n",
" 's e l e c t i o n ? </w>': 1,\n",
" '[ . . . s t u f f </w>': 2,\n",
" 'd e l e t e d . . . ] </w>': 7,\n",
" 'C o m p u t e r s </w>': 1,\n",
" 'e x c e l l e n t </w>': 7,\n",
" 'e x a m p l e . . . o f </w>': 1,\n",
" 'w i t h o u t </w>': 150,\n",
" '\" a \" </w>': 1,\n",
" 'c r e a t o r . </w>': 3,\n",
" 'W e </w>': 169,\n",
" 'd i d </w>': 225,\n",
" '\" c r e a t e \" </w>': 4,\n",
" 'c o m p u t e r s . </w>': 2,\n",
" 'c r e a t e </w>': 22,\n",
" 's a n d </w>': 1,\n",
" 'g o e s </w>': 36,\n",
" 'i n t o </w>': 262,\n",
" 's i l i c o n </w>': 1,\n",
" 'i n t e g r a t e d </w>': 2,\n",
" 'c i r c u i t s </w>': 1,\n",
" 'g o </w>': 121,\n",
" 'p r o c e s s o r </w>': 1,\n",
" 'b o a r d . </w>': 1,\n",
" 't o o k </w>': 43,\n",
" 't h e s e </w>': 283,\n",
" 't h i n g s </w>': 206,\n",
" 'p u t </w>': 101,\n",
" 't h e m </w>': 334,\n",
" 't o g e t h e r </w>': 16,\n",
" 'i n t e r e s t i n g </w>': 39,\n",
" 'w a y . </w>': 29,\n",
" 'J u s t </w>': 64,\n",
" 'l i k e </w>': 435,\n",
" 'p l a n t s </w>': 3,\n",
" 'o x y g e n </w>': 1,\n",
" 'u s i n g </w>': 71,\n",
" 'l i g h t </w>': 46,\n",
" 't h r o u g h </w>': 110,\n",
" 'p h o t o s y n t h e s i s . </w>': 1,\n",
" \"I t ' s </w>\": 80,\n",
" 'm u c h </w>': 225,\n",
" 'b i g g e r </w>': 5,\n",
" 'l e a p </w>': 11,\n",
" 't a l k </w>': 35,\n",
" 'a b o u t </w>': 813,\n",
" 'c r e a t e d </w>': 92,\n",
" '\" e v e r y t h i n g \" </w>': 1,\n",
" 'n o t h i n g . </w>': 11,\n",
" 'u n f a t h o m a b l e </w>': 1,\n",
" 'r e s o r t </w>': 5,\n",
" 'b e l i e v i n g </w>': 42,\n",
" 'c r e a t o r </w>': 13,\n",
" 'w h e n </w>': 399,\n",
" 's i m p l e r </w>': 4,\n",
" 'a l t e r n a t i v e </w>': 24,\n",
" 'e x i s t s : </w>': 2,\n",
" 'w e </w>': 917,\n",
" 's i m p l y </w>': 106,\n",
" 'i n c a p a b l e </w>': 7,\n",
" 'u n d e r s t a n d i n g </w>': 35,\n",
" 'b e g i n n i n g s </w>': 4,\n",
" 'i f </w>': 774,\n",
" 't h e r e </w>': 687,\n",
" 'e v e n </w>': 371,\n",
" 'w e r e </w>': 590,\n",
" 'a l l . </w>': 43,\n",
" 'A n d </w>': 350,\n",
" \"t h a t ' s </w>\": 79,\n",
" 'o k </w>': 6,\n",
" 'm e . </w>': 83,\n",
" 'T h e </w>': 1162,\n",
" 'p r e s e n t </w>': 49,\n",
" 'k e e p s </w>': 11,\n",
" 'm e </w>': 465,\n",
" 'p e r f e c t l y </w>': 26,\n",
" 'b u s y . </w>': 1,\n",
" '- j i m </w>': 10,\n",
" 'h a l a t </w>': 14,\n",
" 'M A N D T B A C K A @ F I N A B O . A B O . F I </w>': 9,\n",
" '( M a t s </w>': 9,\n",
" 'A n d t b a c k a ) </w>': 9,\n",
" 'A n </w>': 57,\n",
" 'A n e c d o t e </w>': 17,\n",
" 'I s l a m </w>': 134,\n",
" 'I n - R e p l y - T o : </w>': 33,\n",
" \"j a e g e r @ b u p h y . b u . e d u ' s </w>\": 1,\n",
" 'm e s s a g e </w>': 50,\n",
" '5 </w>': 24,\n",
" 'A p r </w>': 85,\n",
" '9 3 </w>': 49,\n",
" '1 6 : 4 9 : 1 4 </w>': 1,\n",
" 'G M T </w>': 37,\n",
" 'O r g a n i z a t i o n : </w>': 817,\n",
" 'U n o r g a n i z e d </w>': 4,\n",
" 'U s e n e t </w>': 10,\n",
" 'P o s t i n g s </w>': 6,\n",
" 'U n I n c . </w>': 4,\n",
" 'X - N e w s - R e a d e r : </w>': 9,\n",
" 'V M S </w>': 9,\n",
" 'N E W S </w>': 9,\n",
" '1 . 2 4 </w>': 4,\n",
" '< 1 1 4 1 2 7 @ b u . e d u > </w>': 2,\n",
" 'j a e g e r @ b u p h y . b u . e d u </w>': 45,\n",
" '[ d e l e t i a ] </w>': 1,\n",
" \"d o n ' t </w>\": 633,\n",
" 'u n d e r s t a n d </w>': 110,\n",
" 'p o i n t </w>': 196,\n",
" 'p e t t y </w>': 5,\n",
" 's a r c a s m . </w>': 4,\n",
" 'I t </w>': 480,\n",
" 'b a s i c </w>': 30,\n",
" 'p r i n c i p l e </w>': 23,\n",
" 'b o r n </w>': 34,\n",
" 'm u s l i m </w>': 24,\n",
" 'o r </w>': 1298,\n",
" 's a y s </w>': 122,\n",
" '\" I </w>': 72,\n",
" 't e s t i f y </w>': 9,\n",
" 'g o d </w>': 139,\n",
" 'G o d </w>': 479,\n",
" 'M o h a m m a d </w>': 4,\n",
" 'p r o p h e t </w>': 25,\n",
" 'G o d \" </w>': 24,\n",
" 't h a t , </w>': 80,\n",
" 's o </w>': 539,\n",
" 'l o n g </w>': 141,\n",
" 'd o e s </w>': 430,\n",
" 'e x p l i c i t l y </w>': 35,\n",
" 'r e j e c t </w>': 32,\n",
" 'b y </w>': 1167,\n",
" 'w o r d </w>': 143,\n",
" '_ m u s t _ </w>': 6,\n",
" 'c o n s i d e r e d </w>': 80,\n",
" 'a l l </w>': 776,\n",
" 'm u s l i m s . </w>': 6,\n",
" 'S o </w>': 174,\n",
" 'p h e n o m e n o n </w>': 11,\n",
" \"y o u ' r e </w>\": 101,\n",
" 'a t t e m p t i n g </w>': 13,\n",
" 'm a k e </w>': 265,\n",
" 'g e n e r a l </w>': 59,\n",
" 'r u l e </w>': 32,\n",
" 'p s y c h o l o g y </w>': 6,\n",
" 'd i r e c t </w>': 38,\n",
" 'o d d s </w>': 5,\n",
" 'I s l a m i c </w>': 114,\n",
" 'p r i n c i p l e s . </w>': 10,\n",
" 'w a n t </w>': 198,\n",
" 'a t t a c k </w>': 25,\n",
" 'c o u l d </w>': 301,\n",
" 'd o </w>': 873,\n",
" 'b e t t e r </w>': 134,\n",
" 't h a n </w>': 490,\n",
" 'a r g u e </w>': 50,\n",
" 'a g a i n s t </w>': 152,\n",
" 'c o n t r a d i c t s . </w>': 4,\n",
" 'd e l e t i o n s </w>': 1,\n",
" 's o m e w h e r e , </w>': 10,\n",
" 'm e n t i o n e d </w>': 51,\n",
" 'c h o p p i n g </w>': 2,\n",
" 'o f f </w>': 111,\n",
" 'h a n d s </w>': 15,\n",
" 'b e i n g </w>': 345,\n",
" 'p u n i s h m e n t </w>': 39,\n",
" 't h e f t </w>': 1,\n",
" 'S a u d i </w>': 7,\n",
" 'A r a b i a . </w>': 3,\n",
" 'A s s u m i n g </w>': 6,\n",
" '( I </w>': 59,\n",
" \"w o u l d n ' t </w>\": 69,\n",
" 'k n o w ) , </w>': 1,\n",
" 'a s s u m i n g </w>': 20,\n",
" 'd o n e </w>': 66,\n",
" 'p e o p l e </w>': 756,\n",
" 'f i t t i n g </w>': 5,\n",
" 'y o u r </w>': 953,\n",
" 'r e q u i r e m e n t </w>': 4,\n",
" '\" m u s l i m \" </w>': 1,\n",
" '( w h i c h </w>': 26,\n",
" 'l i k e l y ) , </w>': 1,\n",
" 'w o u l d </w>': 823,\n",
" 'p l e a s e </w>': 63,\n",
" 't r y </w>': 115,\n",
" 'c o n v i n c e </w>': 32,\n",
" 'B o b b y </w>': 40,\n",
" 'M o z u m d e r </w>': 54,\n",
" 'm u s l i m s </w>': 6,\n",
" 'c h o p </w>': 1,\n",
" \"p e o p l e ' s </w>\": 15,\n",
" 'o f f ? </w>': 2,\n",
" 'C o m e </w>': 6,\n",
" 'b a c k </w>': 106,\n",
" \"y o u ' v e </w>\": 42,\n",
" 's u c c e e d e d . </w>': 1,\n",
" 'D i s c l a i m e r ? </w>': 4,\n",
" '\" I t \\' s </w>': 10,\n",
" 'y o u n g </w>': 23,\n",
" 'i n s a n e ! \" </w>': 4,\n",
" 'r o y c @ r b d c . w s n c . o r g </w>': 9,\n",
" '( R o y </w>': 10,\n",
" 'C r a b t r e e ) </w>': 9,\n",
" 'A </w>': 275,\n",
" 'M e s s a g e </w>': 19,\n",
" 'M r . </w>': 61,\n",
" 'P r e s i d e n t : </w>': 17,\n",
" 'H o w </w>': 138,\n",
" 'k n o w </w>': 419,\n",
" 'w h a t </w>': 933,\n",
" 'h a p p e n e d ? </w>': 17,\n",
" 'R e d </w>': 10,\n",
" 'B a r n </w>': 8,\n",
" 'D a t a </w>': 9,\n",
" 'C e n t e r </w>': 23,\n",
" '5 0 </w>': 12,\n",
" '< 1 q v v 7 u $ k c 1 @ m o r r o w . s t a n f o r d . e d u > </w>': 1,\n",
" 's a l e m @ p a n g e a . S t a n f o r d . E D U </w>': 2,\n",
" '( B r u c e </w>': 3,\n",
" 'S a l e m ) </w>': 2,\n",
" '. . . </w>': 67,\n",
" 't h i n k </w>': 561,\n",
" 'c o n s e n s u s </w>': 6,\n",
" 'b e c o m e </w>': 73,\n",
" 'F B I / A T F </w>': 4,\n",
" 'm u f f e d </w>': 1,\n",
" 'i t , </w>': 146,\n",
" '> n o t </w>': 17,\n",
" 'b e c a u s e </w>': 404,\n",
" 't h e y </w>': 1059,\n",
" 'w a l k e d </w>': 5,\n",
" 'a m b u s h </w>': 1,\n",
" 'o n </w>': 1308,\n",
" 'F e b </w>': 5,\n",
" '2 8 , </w>': 2,\n",
" 'K o r e s h </w>': 109,\n",
" '> g o t </w>': 2,\n",
" 'h i s </w>': 626,\n",
" 'p r o p h e s y </w>': 8,\n",
" 't o d a y , </w>': 16,\n",
" 't h e i r </w>': 618,\n",
" 's t a t e d </w>': 46,\n",
" 'i n t e n t i o n s , </w>': 1,\n",
" '> t h e y </w>': 16,\n",
" 'p l a y e d </w>': 11,\n",
" 'r i g h t </w>': 126,\n",
" 'p o l a r i z i n g </w>': 1,\n",
" 's i t u a t i o n </w>': 39,\n",
" 'd i f f u s i n g </w>': 1,\n",
" '> i t . </w>': 3,\n",
" 'h a d </w>': 317,\n",
" 's e t </w>': 101,\n",
" 'u p </w>': 284,\n",
" 'c o n d i t i o n s </w>': 7,\n",
" 'c l a s s i c </w>': 10,\n",
" 'c u l t </w>': 24,\n",
" '> c o n f r o n t a t i o n </w>': 1,\n",
" 'p u b l i c a l l y </w>': 4,\n",
" 'o u t c o m e </w>': 4,\n",
" 'b e c o m e . </w>': 1,\n",
" 'B e f o r e </w>': 7,\n",
" 'a f t e r </w>': 153,\n",
" 'k i d s </w>': 16,\n",
" 's h o t ? </w>': 1,\n",
" '> T h e </w>': 58,\n",
" 'g o v e r n m e n t </w>': 40,\n",
" 'u p p e d </w>': 1,\n",
" 'a n t e </w>': 1,\n",
" 'p a r c i p i t a t e d </w>': 1,\n",
" 'c o n c l u s i o n </w>': 65,\n",
" 't o d a y . </w>': 12,\n",
" '> I t </w>': 18,\n",
" 's e e m </w>': 118,\n",
" 'f i r e s </w>': 2,\n",
" 'w i t h i n </w>': 47,\n",
" 'c o m p o u n d </w>': 7,\n",
" '> m e m b e r s </w>': 1,\n",
" 'g r o u p </w>': 80,\n",
" 'c a u s e d </w>': 34,\n",
" 'C S </w>': 4,\n",
" 'g a s </w>': 32,\n",
" 'w a y </w>': 261,\n",
" 'w a s </w>': 1317,\n",
" '> d e l i v e r e d . </w>': 1,\n",
" 'L e t </w>': 27,\n",
" 's u b s e q u e n t </w>': 6,\n",
" 'i n v e s t i g a t i o n </w>': 3,\n",
" 's h e d </w>': 6,\n",
" 't h a t . </w>': 72,\n",
" 'S u p p o s e </w>': 8,\n",
" 'T h e n </w>': 41,\n",
" 'w h y </w>': 248,\n",
" 'c o m m e n t ? </w>': 3,\n",
" 'u s e d </w>': 150,\n",
" 'p y r o t e c h n i c s </w>': 1,\n",
" 's t a r t e d </w>': 44,\n",
" 'f i r e . </w>': 11,\n",
" '> D i v i d i a n s </w>': 1,\n",
" 's t i l l </w>': 175,\n",
" 'd e c i s i o n </w>': 19,\n",
" 's t a y </w>': 16,\n",
" 'l e a v e . </w>': 2,\n",
" 'T h e y </w>': 207,\n",
" 'n e v e r </w>': 157,\n",
" 'i n t e n d e d </w>': 25,\n",
" 'A s </w>': 132,\n",
" 'J e w s </w>': 63,\n",
" 'N a z i s </w>': 22,\n",
" 'W W </w>': 1,\n",
" 'I I : </w>': 1,\n",
" 's a y </w>': 459,\n",
" 'd i e . </w>': 12,\n",
" '> > T h e </w>': 14,\n",
" 'b u i l d i n g </w>': 20,\n",
" 'b u r n s , </w>': 1,\n",
" 'a l m o s t </w>': 68,\n",
" 'e v e r y o n e </w>': 76,\n",
" 'd i e s . </w>': 1,\n",
" 'p r o b a b l y </w>': 96,\n",
" \"d o e s n ' t </w>\": 183,\n",
" 'b o t h e r </w>': 11,\n",
" '> > y o u </w>': 3,\n",
" 'm u c h , </w>': 4,\n",
" 'b o t h e r s </w>': 7,\n",
" 'm a n y </w>': 345,\n",
" 'o t h e r </w>': 496,\n",
" 'p e o p l e . . . . . m o s t </w>': 1,\n",
" 'w h o m </w>': 42,\n",
" 'd o n t </w>': 6,\n",
" 'b e l i e v e </w>': 351,\n",
" '> > p a r t i c u l a r l y </w>': 1,\n",
" 'm e s s a g e . </w>': 5,\n",
" 'A L l </w>': 1,\n",
" 'h o p e . </w>': 3,\n",
" 'Y e s , </w>': 48,\n",
" 'f i n g e r </w>': 3,\n",
" 'p o i n t i n g </w>': 15,\n",
" 'h a s </w>': 655,\n",
" 'b e g u n . </w>': 1,\n",
" '> > </w>': 596,\n",
" 'F o u r </w>': 3,\n",
" 'A T F </w>': 6,\n",
" 'a g e n t s </w>': 12,\n",
" '9 0 </w>': 4,\n",
" 'b r a n c h </w>': 4,\n",
" 'D a v i d i a n s </w>': 26,\n",
" 'n o w </w>': 113,\n",
" 'd e a d </w>': 32,\n",
" '> > c r a z y </w>': 1,\n",
" 't a c t i c s </w>': 1,\n",
" 'p a r t </w>': 146,\n",
" 'F B I . </w>': 5,\n",
" 'Y e a h , </w>': 12,\n",
" 'b l e w </w>': 26,\n",
" 'i t . </w>': 254,\n",
" 't o o </w>': 104,\n",
" '\" r a t i o n a l \" </w>': 1,\n",
" '> s i t u a t i o n </w>': 1,\n",
" 'o r d i a n r y </w>': 1,\n",
" 'c r i m i n a l </w>': 17,\n",
" 'g a m e . </w>': 8,\n",
" \"h a v e n ' t </w>\": 50,\n",
" 'l e a r n e d </w>': 20,\n",
" 'J o n e s t o w n , </w>': 1,\n",
" 'M o v e </w>': 1,\n",
" 'H o u s e , </w>': 1,\n",
" 'S L A </w>': 1,\n",
" 's h o o t o u t . </w>': 1,\n",
" 'O r </w>': 77,\n",
" 'p e r h a p s </w>': 67,\n",
" 'h a v e : </w>': 1,\n",
" 'k i l l </w>': 65,\n",
" 'f i r s t , </w>': 16,\n",
" 'b l a m e </w>': 24,\n",
" 'o n e s , </w>': 5,\n",
" 'd e s t r o y </w>': 28,\n",
" 'e v i d e n c e . </w>': 30,\n",
" 'r o y c </w>': 4,\n",
" '\" I m a g i n a r y \" </w>': 2,\n",
" 'F r i e n d s </w>': 6,\n",
" '- </w>': 388,\n",
" 'I n f o </w>': 5,\n",
" 'E x p e r i e n c e s </w>': 1,\n",
" 'p a t b @ b n r . c o . u k </w>': 1,\n",
" '( P a t r i c k </w>': 6,\n",
" 'B r o s n a n ) </w>': 1,\n",
" 'B N R </w>': 1,\n",
" 'E u r o p e , </w>': 2,\n",
" 'N e w </w>': 89,\n",
" 'S o u t h g a t e , </w>': 1,\n",
" 'L o n d o n . </w>': 1,\n",
" 'N N T P - P o s t i n g - H o s t : </w>': 234,\n",
" 'b n s g s 1 9 5 . b n r . c o . u k </w>': 1,\n",
" '2 1 </w>': 32,\n",
" '< 1 9 9 3 A p r 2 . 0 4 1 9 2 9 . 2 4 3 2 0 @ m n e m o s y n e . c s . d u . e d u > </w>': 1,\n",
" 'k d i t t o @ n y x . c s . d u . e d u </w>': 1,\n",
" '( K i m b o r l y </w>': 1,\n",
" 'D i t t o ) </w>': 1,\n",
" '> C o n c e r n i o n g </w>': 1,\n",
" 't h r e a d . . . </w>': 1,\n",
" '> H a s </w>': 2,\n",
" 'a n y o n e </w>': 114,\n",
" 'e v e r </w>': 79,\n",
" 's e e n </w>': 91,\n",
" '\" D r o p </w>': 2,\n",
" 'D e a d </w>': 2,\n",
" 'F r e d \" </w>': 1,\n",
" '? ? </w>': 8,\n",
" 'T H i s </w>': 1,\n",
" 'm o v i e </w>': 7,\n",
" 's e e m s </w>': 183,\n",
" 't i p i f y </w>': 1,\n",
" '> \" i m a g i n a r y </w>': 1,\n",
" 'f r i e n d \" </w>': 1,\n",
" 't h e m e </w>': 3,\n",
" 'r a t h e r </w>': 162,\n",
" 'w e l l . </w>': 44,\n",
" 'L O V E D </w>': 1,\n",
" 'm o v i e , </w>': 1,\n",
" 'i </w>': 31,\n",
" '> i m a g i n a r y </w>': 1,\n",
" 'f r i e n d </w>': 8,\n",
" 'k i d </w>': 6,\n",
" 'b o r u g h t </w>': 1,\n",
" 'm e m o r i e s . </w>': 1,\n",
" '> S e r i o u s l y , </w>': 1,\n",
" 'h a v e </w>': 1858,\n",
" 'c h a n c e , </w>': 5,\n",
" 's e e </w>': 318,\n",
" 'F r e d \" . </w>': 1,\n",
" \"I t ' l l </w>\": 1,\n",
" 'y a </w>': 1,\n",
" '> t h i n k . </w>': 1,\n",
" 'e s p e c i a l l y </w>': 40,\n",
" 'e n d . </w>': 7,\n",
" '> B l e s s i n g s ! </w>': 1,\n",
" '> - - K i m </w>': 1,\n",
" 'P a t r i c k </w>': 7,\n",
" 'B r o s n a n . </w>': 1,\n",
" '< p a t b @ b n r . c o . u k > </w>': 1,\n",
" '| | </w>': 11,\n",
" '. . . ! m c s u n ! u k c ! s t c ! p a t b </w>': 1,\n",
" 'N o r t h e r n </w>': 2,\n",
" 'T e l e c o m m , </w>': 1,\n",
" 'O a k l e i g h </w>': 1,\n",
" 'R d </w>': 1,\n",
" 'S o u t h , </w>': 1,\n",
" 'L o n d o n </w>': 5,\n",
" 'N 1 1 </w>': 1,\n",
" '1 H B . </w>': 1,\n",
" 'P h o n e </w>': 1,\n",
" ': </w>': 689,\n",
" '+ 4 4 </w>': 2,\n",
" '8 1 </w>': 3,\n",
" '9 4 5 </w>': 2,\n",
" '2 1 3 5 </w>': 1,\n",
" '4 0 0 0 </w>': 1,\n",
" 'x 2 1 3 5 </w>': 1,\n",
" '\" O h , </w>': 8,\n",
" 'F l a s h , </w>': 1,\n",
" 'l o v e </w>': 82,\n",
" 'o n l y </w>': 450,\n",
" 'g o t </w>': 87,\n",
" '1 4 </w>': 54,\n",
" 'h o u r s </w>': 9,\n",
" 's a v e </w>': 36,\n",
" 'u n i v e r s e . \" </w>': 2,\n",
" 'h o w l a n d . r e s t o n . a n s . n e t ! e u r o p a . e n g . g t e f s d . c o m ! u u n e t ! m c s u n ! G e r m a n y . E U . n e t ! n e w s . d f n . d e ! t u b s i b r ! d b s t u 1 . r z . t u - b s . d e ! I 3 1 5 0 1 0 1 </w>': 1,\n",
" 'G o s p e l </w>': 18,\n",
" 'D a t i n g </w>': 12,\n",
" 'I 3 1 5 0 1 0 1 @ d b s t u 1 . r z . t u - b s . d e </w>': 39,\n",
" '( B e n e d i k t </w>': 39,\n",
" 'R o s e n a u ) </w>': 39,\n",
" 'T e c h n i c a l </w>': 26,\n",
" 'U n i v e r s i t y </w>': 268,\n",
" 'B r a u n s c h w e i g , </w>': 24,\n",
" 'G e r m a n y </w>': 44,\n",
" '3 5 </w>': 12,\n",
" '< 6 6 0 1 5 @ m i m s y . u m d . e d u > </w>': 1,\n",
" '( D e l e t i o n ) </w>': 26,\n",
" '> I </w>': 144,\n",
" 'c a n n o t </w>': 166,\n",
" 'a n y </w>': 536,\n",
" 'e v i d e n c e </w>': 203,\n",
" 'V . </w>': 5,\n",
" 'B . </w>': 28,\n",
" 'c y n i c s </w>': 2,\n",
" '> e v e r </w>': 2,\n",
" 'a c c e p t . </w>': 10,\n",
" 's e c o n d , </w>': 6,\n",
" 'f o u n d a t i o n </w>': 12,\n",
" 'r e l i g i o n . </w>': 41,\n",
" '> A n y o n e </w>': 1,\n",
" 'w h o </w>': 840,\n",
" 'c l a i m s </w>': 54,\n",
" 'r i s e n </w>': 5,\n",
" 'J e s u s </w>': 413,\n",
" '( b a c k </w>': 2,\n",
" '4 0 </w>': 18,\n",
" 'd a y </w>': 79,\n",
" 'p e r i o d ) </w>': 2,\n",
" '> i s </w>': 30,\n",
" 'b e l i e v e r , </w>': 4,\n",
" 't h e r e f o r e </w>': 56,\n",
" 'd i s c o u n t e d </w>': 2,\n",
" 't h o s e </w>': 325,\n",
" 'g r o u p ; </w>': 2,\n",
" 's i n c e </w>': 160,\n",
" '> t h e s e </w>': 5,\n",
" 'a n c i e n t s </w>': 3,\n",
" 'a n y w a y , </w>': 6,\n",
" 'a g a i n </w>': 48,\n",
" 'c h o o s e </w>': 44,\n",
" 'd i s m i s s </w>': 3,\n",
" 'w h o l e </w>': 98,\n",
" '> t h i n g . </w>': 1,\n",
" 't h i r d </w>': 18,\n",
" 'm e t a p h y s i c a l </w>': 13,\n",
" 'r e l a t i o n s h i p </w>': 18,\n",
" 'a n y t h i n g </w>': 108,\n",
" 'e l s e - - </w>': 3,\n",
" '> e v e n </w>': 5,\n",
" 'a g r e e </w>': 133,\n",
" 'a r g u e d </w>': 19,\n",
" 'l e n g t h </w>': 11,\n",
" 'o v e r </w>': 184,\n",
" '* m e a n s * , </w>': 2,\n",
" '> a g a i n </w>': 2,\n",
" 'h o w </w>': 318,\n",
" 'p o s s i b l e . </w>': 25,\n",
" 'N o </w>': 56,\n",
" 'c o o k i e s , </w>': 1,\n",
" 'C h a r l i e . </w>': 1,\n",
" 'b e e n </w>': 439,\n",
" 'd i s c r e d i t e d </w>': 2,\n",
" 'e x t r a o r d i n a r y </w>': 4,\n",
" 'm a t c h </w>': 11,\n",
" 'c a s e , </w>': 40,\n",
" 'g o s p e l s </w>': 14,\n",
" 's e e n . </w>': 6,\n",
" 'F u r t h e r , </w>': 12,\n",
" 'z i l l i o n s </w>': 2,\n",
" 's p o o k </w>': 1,\n",
" 's t o r i e s , </w>': 6,\n",
" 'h a r d l y </w>': 30,\n",
" 'c o n s i d e r </w>': 96,\n",
" 'o t h e r s </w>': 90,\n",
" 'r e l i g i o u s </w>': 183,\n",
" 'c o n t e x t </w>': 55,\n",
" 's o m e </w>': 595,\n",
" 'r e s u r r e c t i o n . </w>': 2,\n",
" 'm o r e </w>': 544,\n",
" 'e l a b o r a t e </w>': 5,\n",
" 'a r g u m e n t s </w>': 63,\n",
" 'm a d e , </w>': 9,\n",
" 'l o o k s </w>': 22,\n",
" 'p a s s e d </w>': 9,\n",
" 'p o s t </w>': 89,\n",
" 'f i l t e r i n g . </w>': 1,\n",
" 't h u s </w>': 35,\n",
" 'i n t e r p r e t </w>': 22,\n",
" '\" e x t r a o r d i n a r y </w>': 2,\n",
" 'c l a i m s \" </w>': 2,\n",
" 'c l a i m </w>': 131,\n",
" 's t a t e m e n t </w>': 79,\n",
" '> s p e a k e r </w>': 1,\n",
" 'a c c e p t </w>': 105,\n",
" '* a n y * </w>': 5,\n",
" 'm a t t e r . </w>': 19,\n",
" 's t r i c t </w>': 4,\n",
" 'm e a n i n g . </w>': 13,\n",
" 'a c t u a l </w>': 18,\n",
" 'n o t h i n g </w>': 164,\n",
" 'c l a i m s . </w>': 9,\n",
" 'C h a r l i e , </w>': 1,\n",
" 'I n v i s i b l e </w>': 2,\n",
" 'P i n k </w>': 4,\n",
" 'U n i c o r n s ! </w>': 4,\n",
" 'B y </w>': 59,\n",
" 's t a n d a r d s </w>': 24,\n",
" 'I P U s </w>': 1,\n",
" 'n o w . </w>': 28,\n",
" 'A m e r i c a n s </w>': 22,\n",
" 'E v o l u t i o n </w>': 11,\n",
" '6 7 </w>': 4,\n",
" '< 1 p q 4 7 t I N N 8 l p @ s e n a t o r - b e d f e l l o w . M I T . E D U > </w>': 2,\n",
" 'b o b s @ t h n e x t . m i t . e d u </w>': 6,\n",
" '( R o b e r t </w>': 69,\n",
" 'S i n g l e t o n ) </w>': 4,\n",
" 'l a t t e r </w>': 24,\n",
" 's t a t e m e n t , </w>': 10,\n",
" 'g o d s </w>': 36,\n",
" 'e x i s t \" </w>': 10,\n",
" '> d o e s </w>': 3,\n",
" 'r e s t </w>': 56,\n",
" 'u p o n </w>': 78,\n",
" 'f a i t h </w>': 99,\n",
" 'i s , </w>': 142,\n",
" 'm a k i n g </w>': 79,\n",
" 'P O S I T I V E </w>': 6,\n",
" '\" n o </w>': 6,\n",
" '( s t r o n g </w>': 3,\n",
" 'a t h e i s m ) </w>': 4,\n",
" 's a y i n g </w>': 118,\n",
" '> k n o w </w>': 4,\n",
" '> ( w e a k </w>': 2,\n",
" 'a t h e i s m ) . </w>': 3,\n",
" 'O n c e </w>': 19,\n",
" 'a g a i n , </w>': 37,\n",
" 'd i f f e r e n t </w>': 159,\n",
" 'B E L I E V E </w>': 4,\n",
" 'e x i s t . </w>': 64,\n",
" 'm a i n t a i n </w>': 20,\n",
" 'p o s i t i o n , </w>': 15,\n",
" '> a f t e r </w>': 3,\n",
" 'r e a d i n g </w>': 53,\n",
" 'F A Q s , </w>': 4,\n",
" 's t r o n g </w>': 61,\n",
" 'a t h e i s m </w>': 96,\n",
" 'r e q u i r e s </w>': 24,\n",
" 'f a i t h . </w>': 31,\n",
" 'u s u a l l y </w>': 50,\n",
" 'u s e d . </w>': 13,\n",
" 'm y </w>': 694,\n",
" 'v i e w , </w>': 19,\n",
" 'h e r e </w>': 122,\n",
" 'd r i v i n g </w>': 12,\n",
" 'c a r </w>': 21,\n",
" 'd r i v e s . </w>': 2,\n",
" 'F o r </w>': 206,\n",
" 'c o n c l u s i o n , </w>': 5,\n",
" 'p r e m i s e s </w>': 24,\n",
" 'a r g u m e n t </w>': 141,\n",
" '> B u t </w>': 14,\n",
" 'f i r s t </w>': 152,\n",
" 'l e t </w>': 78,\n",
" 'f o l l o w i n g . </w>': 6,\n",
" '> W e </w>': 10,\n",
" 'm i g h t </w>': 186,\n",
" 'l a n g u a g e </w>': 27,\n",
" 'p r o b l e m </w>': 77,\n",
" 'r e g a r d s </w>': 7,\n",
" '\" f a i t h \" </w>': 3,\n",
" '> \" e x i s t e n c e \" . </w>': 2,\n",
" 'I , </w>': 24,\n",
" 'C h r i s t i a n , </w>': 17,\n",
" '> T o </w>': 6,\n",
" 'e x i s t </w>': 35,\n",
" 'm e a n s </w>': 119,\n",
" 's p a c e </w>': 10,\n",
" 't i m e . </w>': 46,\n",
" 'H A V E </w>': 8,\n",
" '> b e i n g </w>': 6,\n",
" 'B e i n g . </w>': 4,\n",
" 'K i e r k e g a a r d </w>': 3,\n",
" 'o n c e </w>': 64,\n",
" 's a i d </w>': 260,\n",
" '> e x i s t , </w>': 2,\n",
" 'H e </w>': 257,\n",
" 'e t e r n a l . </w>': 19,\n",
" 'W i t h </w>': 30,\n",
" 's a i d , </w>': 40,\n",
" 'f e e l </w>': 83,\n",
" \"i t ' s </w>\": 257,\n",
" 'p o i n t l e s s </w>': 5,\n",
" 'd e b a t e </w>': 13,\n",
" 'c a l l e d </w>': 84,\n",
" '\" e x i s t e n c e \" </w>': 5,\n",
" \"> I ' m </w>\": 26,\n",
" 'd o i n g </w>': 89,\n",
" 'h e r e . </w>': 55,\n",
" 's o u r c e </w>': 29,\n",
" 'g r o u n d </w>': 14,\n",
" '> b e i n g . </w>': 2,\n",
" 'W h e n </w>': 87,\n",
" '\" g o d </w>': 7,\n",
" 'e x i s t \" , </w>': 5,\n",
" 'a l s o </w>': 276,\n",
" '> s t a t e m e n t </w>': 4,\n",
" 'o b v i o u s l y </w>': 36,\n",
" 'm e a n </w>': 176,\n",
" 't w o </w>': 170,\n",
" 'H o w e v e r , </w>': 95,\n",
" '> i n </w>': 35,\n",
" 'f o l l o w s </w>': 10,\n",
" 'u s e </w>': 149,\n",
" 'p h r a s e </w>': 14,\n",
" '\" t h e </w>': 42,\n",
" 'e x i s t e n c e </w>': 93,\n",
" \"> ' u s u a l </w>\": 2,\n",
" \"s e n s e ' </w>\": 3,\n",
" 's e n s e </w>': 81,\n",
" 'c l a r i f i c a t i o n </w>': 9,\n",
" '> G o d \" . </w>': 2,\n",
" 'N o , </w>': 39,\n",
" 't e r m </w>': 39,\n",
" 'u s u a l l y . </w>': 1,\n",
" 'd e f i n i t i o n </w>': 56,\n",
" 't h i n g , </w>': 18,\n",
" 'u n t i l </w>': 73,\n",
" 'c o m m o n l y </w>': 10,\n",
" 'a c c e p t e d </w>': 30,\n",
" 'd e f i n e </w>': 42,\n",
" 'e x i s t , </w>': 33,\n",
" 'i t s e l f , </w>': 17,\n",
" 'I n t e r e s t i n g l y , </w>': 1,\n",
" '\" e x i s t e n c e </w>': 2,\n",
" 'e x i s t s \" </w>': 5,\n",
" 'i n d u b i t a b l e </w>': 1,\n",
" 's t a t e m e n t s </w>': 40,\n",
" 'e i t h e r </w>': 86,\n",
" 'w a s t e </w>': 14,\n",
" 't i m e , </w>': 47,\n",
" 'a l r e a d y </w>': 55,\n",
" 'n e e d </w>': 100,\n",
" 'r e p l a c e </w>': 6,\n",
" 'g o d , </w>': 31,\n",
" 'i m p l y i n g </w>': 5,\n",
" 'c a s e </w>': 88,\n",
" 'f a r </w>': 109,\n",
" 'i n c o m p l e t e , </w>': 3,\n",
" 'f a l l a c y . </w>': 9,\n",
" '> O n e </w>': 10,\n",
" 'c a n </w>': 840,\n",
" 'p r o v e </w>': 64,\n",
" 'o p i n i o n </w>': 51,\n",
" '> \" b a s e d </w>': 2,\n",
" 'o b s e r v a t i o n \" , </w>': 3,\n",
" 'a s k </w>': 60,\n",
" '\" w h a t </w>': 6,\n",
" 'o b s e r v t i o n s </w>': 3,\n",
" '> y o u </w>': 18,\n",
" 'r e f e r i n g </w>': 3,\n",
" 't o ? \" </w>': 3,\n",
" 'N O </w>': 18,\n",
" 'o b s e r v a t i o n s </w>': 18,\n",
" 'p r o </w>': 4,\n",
" 'c o n </w>': 7,\n",
" '> a r e </w>': 16,\n",
" 'v a l i d </w>': 41,\n",
" 'e s t a b l i s h i n g </w>': 5,\n",
" 'b e l i e f . </w>': 21,\n",
" 'W h e r e </w>': 30,\n",
" 'f o l l o w ? </w>': 5,\n",
" \"A r e n ' t </w>\": 4,\n",
" 'b a s e d </w>': 89,\n",
" 'a s s u m p t i o n </w>': 33,\n",
" 'e x i s t s ? </w>': 2,\n",
" 'l e v e l </w>': 29,\n",
" 'i s \" </w>': 4,\n",
" 'm e a n i n g f u l . </w>': 2,\n",
" 'n o t , </w>': 51,\n",
" 'c o n c e p t </w>': 42,\n",
" 'a n y w a y . </w>': 18,\n",
" 'S o , </w>': 49,\n",
" 'w h e r e </w>': 181,\n",
" 'm e a n i n g f u l </w>': 8,\n",
" 'l e v e l ? </w>': 2,\n",
" 'A f t e r </w>': 85,\n",
" '2 0 0 0 </w>': 63,\n",
" 'y e a r s , </w>': 70,\n",
" 'C h r i s t i a n </w>': 292,\n",
" 'M o r a l i t y </w>': 77,\n",
" '4 5 </w>': 8,\n",
" '< 1 r 3 q a b $ o 1 v @ h o r u s . a p . m c h p . s n i . d e > , </w>': 1,\n",
" 'f r a n k @ D 0 1 2 S 6 5 8 . u u c p </w>': 51,\n",
" '( F r a n k </w>': 58,\n",
" \"O ' D w y e r ) </w>\": 47,\n",
" '> I n </w>': 130,\n",
" '< 9 3 0 4 2 1 . 1 0 2 5 2 5 . 9 Y 9 . r u s n e w s . w 1 6 5 w @ m a n t i s . c o . u k > </w>': 1,\n",
" 'm a t h e w </w>': 52,\n",
" '< m a t h e w @ m a n t i s . c o . u k > </w>': 32,\n",
" '> # f r a n k @ D 0 1 2 S 6 5 8 . u u c p </w>': 2,\n",
" '> # > </w>': 11,\n",
" '< 9 3 0 4 2 0 . 1 0 0 5 4 4 . 6 n 0 . r u s n e w s . w 1 6 5 w @ m a n t i s . c o . u k > </w>': 1,\n",
" '# T h i s </w>': 2,\n",
" 'c o m p l e t e </w>': 28,\n",
" 'n o n s e n s e . </w>': 6,\n",
" 'R e l a t i v i s m </w>': 1,\n",
" 'a b s o l u t </w>': 1,\n",
" '# s t a n d a r d </w>': 1,\n",
" 'm o r a l i t y ; </w>': 1,\n",
" 'm o r a l i t y </w>': 171,\n",
" '# a r e </w>': 3,\n",
" 'e q u a l l y </w>': 12,\n",
" 'g o o d . </w>': 23,\n",
" 'P r e s u m a b l y </w>': 1,\n",
" 'm o r a l </w>': 220,\n",
" 's y s t e m s </w>': 30,\n",
" 'o t h e r s ? </w>': 9,\n",
" 's o ? </w>': 12,\n",
" 'm a n a g e </w>': 2,\n",
" 'o b j e c t i v e </w>': 165,\n",
" 'f r a m e </w>': 7,\n",
" 'r e f e r e n c e ? </w>': 3,\n",
" '> # </w>': 6,\n",
" 'E i t h e r </w>': 6,\n",
" 'F r a n k </w>': 22,\n",
" \"O ' D w y e r </w>\": 12,\n",
" 's a i d : </w>': 21,\n",
" '[ . . . s t i f f </w>': 2,\n",
" '> # W h i c h </w>': 1,\n",
" 'f a s t e r , </w>': 1,\n",
" 'b u l l e t </w>': 5,\n",
" 's n a i l ? </w>': 1,\n",
" 'a n s w e r </w>': 77,\n",
" '> # E i n s t e i n </w>': 1,\n",
" 'p r o v e d </w>': 12,\n",
" \"i s n ' t </w>\": 119,\n",
" 'S p e e d </w>': 1,\n",
" 'q u a n t i f i a b l e </w>': 1,\n",
" 'm e a s u r e </w>': 13,\n",
" 'r e s u l t i n g </w>': 1,\n",
" 'm e t h o d s </w>': 3,\n",
" 'r e s u l t </w>': 40,\n",
" 's a m e </w>': 211,\n",
" 'v a l u e </w>': 56,\n",
" 'm e a s u r e d </w>': 3,\n",
" 'm a t t e r </w>': 70,\n",
" 'r e f e r e n c e . </w>': 2,\n",
" 'z e r o </w>': 3,\n",
" 'v e l o c i t y </w>': 1,\n",
" 's i t t i n g </w>': 5,\n",
" 't a b l e </w>': 5,\n",
" 't r a i n </w>': 4,\n",
" 'm o v i n g </w>': 7,\n",
" '6 0 m p h </w>': 2,\n",
" 's p e e d </w>': 3,\n",
" '( a ) </w>': 8,\n",
" '0 m p h </w>': 1,\n",
" 's o m e o n e </w>': 162,\n",
" 't r a i n . </w>': 2,\n",
" '( b ) </w>': 11,\n",
" 's t a t i o n a r y </w>': 2,\n",
" 'n e x t </w>': 46,\n",
" 'r e f e r e n c e </w>': 35,\n",
" 'm a k e s </w>': 101,\n",
" 'r e l a t i v e . </w>': 5,\n",
" 'B u t </w>': 310,\n",
" \"w h a t ' s </w>\": 17,\n",
" 'e v e r y </w>': 129,\n",
" 'p e r s o n </w>': 156,\n",
" 'b u l l e t . </w>': 1,\n",
" 'E v e r y </w>': 6,\n",
" 'o f f , </w>': 9,\n",
" '6 0 m p h . </w>': 1,\n",
" 't i m e </w>': 238,\n",
" 'f i l l e d , </w>': 1,\n",
" 'e x a c t l y </w>': 45,\n",
" 'j i m </w>': 2,\n",
" 'h a l a t @ b e a r . c o m </w>': 2,\n",
" 'b e a r - s t e a r n s </w>': 2,\n",
" '- - w h a t e v e r </w>': 2,\n",
" 's e r v e </w>': 16,\n",
" ...})"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"vocab"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"100%|██████████| 50/50 [00:17<00:00, 2.81 merges/s, vocab_size=37415]\n"
]
}
],
"source": [
"num_merges = 50 # Hyperparameter\n",
"progress_bar = tqdm(range(num_merges), unit=' merges')\n",
"for i in progress_bar:\n",
"\n",
" pairs = get_stats(vocab) # Step 2\n",
"\n",
" if not pairs:\n",
" break\n",
"\n",
" # step 3\n",
" best = max(pairs, key=pairs.get)\n",
" vocab = merge_vocab(best, vocab)\n",
" progress_bar.set_postfix(vocab_size=len(vocab))\n",
" progress_bar.update()"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"{'F r om :</w>': 861,\n",
" 'm an g o e @ c s . u m d . e d u </w>': 36,\n",
" '( C h ar l e y</w>': 26,\n",
" 'W ing at e ) </w>': 26,\n",
" 'S u b j ec t :</w>': 878,\n",
" 'B en e d i k t in e</w>': 3,\n",
" 'M e t a p h y s ic s</w>': 2,\n",
" 'L in es :</w>': 869,\n",
" '2 4 </w>': 35,\n",
" 'B en e d i k t</w>': 34,\n",
" 'R o s en a u </w>': 6,\n",
" 'w r it es ,</w>': 5,\n",
" 'w i th </w>': 1308,\n",
" 'g re at</w>': 84,\n",
" 'a u th or it y :</w>': 2,\n",
" '></w>': 3326,\n",
" 'I F </w>': 7,\n",
" 'I T </w>': 15,\n",
" 'I S </w>': 55,\n",
" 'C O N T R A D I C T O R Y </w>': 9,\n",
" 'C A N N O T </w>': 7,\n",
" 'E X I S T .</w>': 3,\n",
" '\" C on t r a d ic t or y \" </w>': 1,\n",
" 'is</w>': 5183,\n",
" 'a</w>': 5072,\n",
" 'p r o p er t y</w>': 14,\n",
" 'of</w>': 7673,\n",
" 'l an g u a g e .</w>': 6,\n",
" 'I f</w>': 461,\n",
" 'I </w>': 3525,\n",
" 'c or re c t</w>': 40,\n",
" 'th is</w>': 1455,\n",
" 'to</w>': 7114,\n",
" 'T H I N G S </w>': 7,\n",
" 'D E F I N E D </w>': 3,\n",
" 'B Y </w>': 7,\n",
" 'L A N G U A G E </w>': 6,\n",
" 'D O </w>': 11,\n",
" 'N O T </w>': 89,\n",
" 'E X I S T </w>': 6,\n",
" 'w i l l </w>': 714,\n",
" 'o b j ec t</w>': 25,\n",
" 'd e f in i tion s</w>': 20,\n",
" 'a s</w>': 1646,\n",
" 're al it y .</w>': 18,\n",
" 'y ou </w>': 2651,\n",
" 'th en </w>': 437,\n",
" 'a m en d</w>': 3,\n",
" 'i t</w>': 2204,\n",
" 'D E S C R I B E D </w>': 3,\n",
" \"w e ' v e</w>\": 11,\n",
" 'c om e</w>': 165,\n",
" 's om e th ing</w>': 242,\n",
" 'wh ic h </w>': 579,\n",
" 'p l a in l y</w>': 4,\n",
" 'f al s e .</w>': 17,\n",
" 'F a i l u re s</w>': 3,\n",
" 'in</w>': 3712,\n",
" 'd es c r i p tion </w>': 20,\n",
" 'ar e</w>': 2049,\n",
" 'm er el y</w>': 44,\n",
" 'f a i l u re s</w>': 3,\n",
" 'd es c r i p tion .</w>': 4,\n",
" \"( I ' m </w>\": 5,\n",
" 'no t</w>': 2305,\n",
" 'an</w>': 1038,\n",
" 'o b j ec ti v is t ,</w>': 6,\n",
" 're m e m b er . ) </w>': 3,\n",
" '-- </w>': 570,\n",
" 'C .</w>': 28,\n",
" 'W ing at e</w>': 19,\n",
" '+ </w>': 60,\n",
" '\" T h e</w>': 98,\n",
" 'p e a c e</w>': 40,\n",
" 'G o d ,</w>': 88,\n",
" 'n o</w>': 688,\n",
" 'p e a c e ,</w>': 12,\n",
" 'b u t</w>': 1050,\n",
" 'st r i f e</w>': 12,\n",
" 'c l o s ed</w>': 19,\n",
" 'the</w>': 12184,\n",
" 's o d .</w>': 11,\n",
" 'Y e t ,</w>': 16,\n",
" 'b r o th er s ,</w>': 12,\n",
" 'p r a y</w>': 24,\n",
" 'f or </w>': 1845,\n",
" 'on e</w>': 809,\n",
" 'th ing :</w>': 12,\n",
" 't o v e ! m an g o e</w>': 10,\n",
" \"m ar v ' l ou s</w>\": 11,\n",
" 'G o d . \" </w>': 18,\n",
" 'R e :</w>': 833,\n",
" 'T h er e</w>': 231,\n",
" 'm u s t</w>': 281,\n",
" 'b e</w>': 2061,\n",
" 'c re at or ! </w>': 2,\n",
" '( M a y b e ) </w>': 2,\n",
" 'h al at @ p o o h . b e ar s</w>': 32,\n",
" '( J i m </w>': 56,\n",
" 'H al at ) </w>': 32,\n",
" 'R e p l y - T o :</w>': 81,\n",
" 'I n </w>': 853,\n",
" 'ar ti c l e</w>': 693,\n",
" '< 1 6 B A 1 E 9 2 7 . D R P O R T E R @ S U V M . S Y R . E D U > ,</w>': 1,\n",
" 'D R P O R T E R @ S U V M . S Y R . E D U </w>': 1,\n",
" '( B r a d</w>': 1,\n",
" 'P or t er ) </w>': 1,\n",
" 'w r it es :</w>': 870,\n",
" 'S c i en c e</w>': 46,\n",
" 'w on d er f u l </w>': 12,\n",
" 'at</w>': 697,\n",
" 'an s w er ing</w>': 5,\n",
" 'm o s t</w>': 244,\n",
" 'ou r </w>': 243,\n",
" 'q u es tion s .</w>': 3,\n",
" \"I ' m </w>\": 277,\n",
" 't y p e</w>': 24,\n",
" '> to</w>': 63,\n",
" 'q u es tion </w>': 127,\n",
" 's c i en ti f ic </w>': 32,\n",
" 'f in d ing s</w>': 2,\n",
" 'v er y</w>': 281,\n",
" 'o f t en ,</w>': 2,\n",
" 'b u t . . .</w>': 3,\n",
" 'P er s on al l y ,</w>': 5,\n",
" 'f in d</w>': 187,\n",
" '> th e or y</w>': 1,\n",
" 'e v o l u tion </w>': 22,\n",
" 'u n f a th om a b l e .</w>': 1,\n",
" 'C ou l d</w>': 24,\n",
" 'h u m an s ,</w>': 6,\n",
" 'h i g h l y</w>': 26,\n",
" 'e v o l v e d ,</w>': 1,\n",
" '> c om p l e x </w>': 1,\n",
" 'or g an is m </w>': 7,\n",
" 'that</w>': 4925,\n",
" 'th in k s ,</w>': 1,\n",
" 'l e ar n s ,</w>': 1,\n",
" 'and</w>': 4839,\n",
" 'd e v el o p s</w>': 1,\n",
" 't r u l y</w>': 22,\n",
" '> that</w>': 57,\n",
" 'r es u l t ed</w>': 11,\n",
" 'f r om </w>': 907,\n",
" 'r an d om </w>': 12,\n",
" 'g en e ti c </w>': 14,\n",
" 'm u t a tion s</w>': 1,\n",
" 'n at u r al </w>': 74,\n",
" 's el ec tion ? </w>': 1,\n",
" '[ . . . st u f f</w>': 2,\n",
" 'd el e t e d . . . ] </w>': 7,\n",
" 'C om p u t er s</w>': 1,\n",
" 'e x c el l en t</w>': 7,\n",
" 'e x a m p l e . . . of</w>': 1,\n",
" 'w i th ou t</w>': 150,\n",
" '\" a \" </w>': 1,\n",
" 'c re at or .</w>': 3,\n",
" 'W e</w>': 169,\n",
" 'd i d</w>': 225,\n",
" '\" c re at e \" </w>': 4,\n",
" 'c om p u t er s .</w>': 2,\n",
" 'c re at e</w>': 22,\n",
" 's and</w>': 1,\n",
" 'g o e s</w>': 36,\n",
" 'in to</w>': 262,\n",
" 's i l ic on </w>': 1,\n",
" 'in t e g r at ed</w>': 2,\n",
" 'c i r c u it s</w>': 1,\n",
" 'g o</w>': 121,\n",
" 'p r o c es s or </w>': 1,\n",
" 'b o ar d .</w>': 1,\n",
" 't o o k </w>': 43,\n",
" 'th es e</w>': 283,\n",
" 'th ing s</w>': 206,\n",
" 'p u t</w>': 101,\n",
" 'th e m </w>': 334,\n",
" 't o g e th er</w>': 16,\n",
" 'in t er es t ing</w>': 39,\n",
" 'w a y .</w>': 29,\n",
" 'J u s t</w>': 64,\n",
" 'l i k e</w>': 435,\n",
" 'p l an t s</w>': 3,\n",
" 'o x y g en </w>': 1,\n",
" 'u s ing</w>': 71,\n",
" 'l i g h t</w>': 46,\n",
" 'th r ou g h </w>': 110,\n",
" 'p h o t o s y n th es is .</w>': 1,\n",
" \"I t ' s</w>\": 80,\n",
" 'm u c h </w>': 225,\n",
" 'b i g g er</w>': 5,\n",
" 'l e a p </w>': 11,\n",
" 't al k </w>': 35,\n",
" 'a b ou t</w>': 813,\n",
" 'c re at ed</w>': 92,\n",
" '\" e v er y th ing \" </w>': 1,\n",
" 'no th ing .</w>': 11,\n",
" 'u n f a th om a b l e</w>': 1,\n",
" 'r es or t</w>': 5,\n",
" 'b el i e v ing</w>': 42,\n",
" 'c re at or </w>': 13,\n",
" 'wh en </w>': 399,\n",
" 's i m p l er</w>': 4,\n",
" 'al t er n a ti v e</w>': 24,\n",
" 'e x is t s :</w>': 2,\n",
" 'w e</w>': 917,\n",
" 's i m p l y</w>': 106,\n",
" 'in c a p a b l e</w>': 7,\n",
" 'u n d er st an d ing</w>': 35,\n",
" 'b e g in n ing s</w>': 4,\n",
" 'i f</w>': 774,\n",
" 'th er e</w>': 687,\n",
" 'e v en </w>': 371,\n",
" 'w er e</w>': 590,\n",
" 'al l .</w>': 43,\n",
" 'A n d</w>': 350,\n",
" \"th at ' s</w>\": 79,\n",
" 'o k </w>': 6,\n",
" 'm e .</w>': 83,\n",
" 'T h e</w>': 1162,\n",
" 'p r es en t</w>': 49,\n",
" 'k e e p s</w>': 11,\n",
" 'm e</w>': 465,\n",
" 'p er f ec t l y</w>': 26,\n",
" 'b u s y .</w>': 1,\n",
" '- j i m </w>': 10,\n",
" 'h al at</w>': 14,\n",
" 'M A N D T B A C K A @ F I N A B O . A B O . F I </w>': 9,\n",
" '( M at s</w>': 9,\n",
" 'A n d t b a c k a ) </w>': 9,\n",
" 'A n </w>': 57,\n",
" 'A n ec d o t e</w>': 17,\n",
" 'I s l a m </w>': 134,\n",
" 'I n - R e p l y - T o :</w>': 33,\n",
" \"j a e g er @ b u p h y . b u . e d u ' s</w>\": 1,\n",
" 'm es s a g e</w>': 50,\n",
" '5 </w>': 24,\n",
" 'A p r </w>': 85,\n",
" '9 3 </w>': 49,\n",
" '1 6 : 4 9 : 1 4 </w>': 1,\n",
" 'G M T </w>': 37,\n",
" 'O r g an i z a tion :</w>': 817,\n",
" 'U n or g an i z ed</w>': 4,\n",
" 'U s en e t</w>': 10,\n",
" 'P o st ing s</w>': 6,\n",
" 'U n I n c .</w>': 4,\n",
" 'X - N e w s - R e a d er :</w>': 9,\n",
" 'V M S </w>': 9,\n",
" 'N E W S </w>': 9,\n",
" '1 . 2 4 </w>': 4,\n",
" '< 1 1 4 1 2 7 @ b u . e d u ></w>': 2,\n",
" 'j a e g er @ b u p h y . b u . e d u </w>': 45,\n",
" '[ d el e ti a ] </w>': 1,\n",
" \"d on ' t</w>\": 633,\n",
" 'u n d er st and</w>': 110,\n",
" 'p o in t</w>': 196,\n",
" 'p e t t y</w>': 5,\n",
" 's ar c a s m .</w>': 4,\n",
" 'I t</w>': 480,\n",
" 'b a s ic </w>': 30,\n",
" 'p r in c i p l e</w>': 23,\n",
" 'b or n </w>': 34,\n",
" 'm u s l i m </w>': 24,\n",
" 'or </w>': 1298,\n",
" 's a y s</w>': 122,\n",
" '\" I </w>': 72,\n",
" 't es ti f y</w>': 9,\n",
" 'g o d</w>': 139,\n",
" 'G o d</w>': 479,\n",
" 'M o h a m m a d</w>': 4,\n",
" 'p r o p h e t</w>': 25,\n",
" 'G o d \" </w>': 24,\n",
" 'th at ,</w>': 80,\n",
" 's o</w>': 539,\n",
" 'l on g </w>': 141,\n",
" 'd o e s</w>': 430,\n",
" 'e x p l ic it l y</w>': 35,\n",
" 're j ec t</w>': 32,\n",
" 'b y</w>': 1167,\n",
" 'w or d</w>': 143,\n",
" '_ m u st _ </w>': 6,\n",
" 'c on s i d er ed</w>': 80,\n",
" 'al l </w>': 776,\n",
" 'm u s l i m s .</w>': 6,\n",
" 'S o</w>': 174,\n",
" 'p h en om en on </w>': 11,\n",
" \"y ou ' r e</w>\": 101,\n",
" 'at t e m p t ing</w>': 13,\n",
" 'm a k e</w>': 265,\n",
" 'g en er al </w>': 59,\n",
" 'r u l e</w>': 32,\n",
" 'p s y c h o l o g y</w>': 6,\n",
" 'd i re c t</w>': 38,\n",
" 'o d d s</w>': 5,\n",
" 'I s l a m ic </w>': 114,\n",
" 'p r in c i p l es .</w>': 10,\n",
" 'w an t</w>': 198,\n",
" 'at t a c k </w>': 25,\n",
" 'c ou l d</w>': 301,\n",
" 'd o</w>': 873,\n",
" 'b e t t er</w>': 134,\n",
" 'th an</w>': 490,\n",
" 'ar g u e</w>': 50,\n",
" 'a g a in s t</w>': 152,\n",
" 'c on t r a d ic t s .</w>': 4,\n",
" 'd el e tion s</w>': 1,\n",
" 's om e wh er e ,</w>': 10,\n",
" 'm en tion ed</w>': 51,\n",
" 'c h o p p ing</w>': 2,\n",
" 'o f f</w>': 111,\n",
" 'h an d s</w>': 15,\n",
" 'b e ing</w>': 345,\n",
" 'p u n is h m en t</w>': 39,\n",
" 'th e f t</w>': 1,\n",
" 'S a u d i </w>': 7,\n",
" 'A r a b i a .</w>': 3,\n",
" 'A s s u m ing</w>': 6,\n",
" '( I </w>': 59,\n",
" \"w ou l d n ' t</w>\": 69,\n",
" 'k no w ) ,</w>': 1,\n",
" 'a s s u m ing</w>': 20,\n",
" 'd on e</w>': 66,\n",
" 'p e o p l e</w>': 756,\n",
" 'f it t ing</w>': 5,\n",
" 'y ou r </w>': 953,\n",
" 're q u i re m en t</w>': 4,\n",
" '\" m u s l i m \" </w>': 1,\n",
" '( wh ic h </w>': 26,\n",
" 'l i k el y ) ,</w>': 1,\n",
" 'w ou l d</w>': 823,\n",
" 'p l e a s e</w>': 63,\n",
" 't r y</w>': 115,\n",
" 'c on v in c e</w>': 32,\n",
" 'B o b b y</w>': 40,\n",
" 'M o z u m d er</w>': 54,\n",
" 'm u s l i m s</w>': 6,\n",
" 'c h o p </w>': 1,\n",
" \"p e o p l e ' s</w>\": 15,\n",
" 'o f f ? </w>': 2,\n",
" 'C om e</w>': 6,\n",
" 'b a c k </w>': 106,\n",
" \"y ou ' v e</w>\": 42,\n",
" 's u c c e e d e d .</w>': 1,\n",
" 'D is c l a i m er ? </w>': 4,\n",
" '\" I t \\' s</w>': 10,\n",
" 'y ou n g </w>': 23,\n",
" 'in s an e ! \" </w>': 4,\n",
" 'r o y c @ r b d c . w s n c . or g </w>': 9,\n",
" '( R o y</w>': 10,\n",
" 'C r a b t re e ) </w>': 9,\n",
" 'A </w>': 275,\n",
" 'M es s a g e</w>': 19,\n",
" 'M r .</w>': 61,\n",
" 'P r es i d en t :</w>': 17,\n",
" 'H o w </w>': 138,\n",
" 'k no w </w>': 419,\n",
" 'wh at</w>': 933,\n",
" 'h a p p en e d ? </w>': 17,\n",
" 'R ed</w>': 10,\n",
" 'B ar n </w>': 8,\n",
" 'D at a</w>': 9,\n",
" 'C en t er</w>': 23,\n",
" '5 0 </w>': 12,\n",
" '< 1 q v v 7 u $ k c 1 @ m or r o w . st an f or d . e d u ></w>': 1,\n",
" 's al e m @ p an g e a . S t an f or d . E D U </w>': 2,\n",
" '( B r u c e</w>': 3,\n",
" 'S al e m ) </w>': 2,\n",
" '. . .</w>': 67,\n",
" 'th in k </w>': 561,\n",
" 'c on s en s u s</w>': 6,\n",
" 'b ec om e</w>': 73,\n",
" 'F B I / A T F </w>': 4,\n",
" 'm u f f ed</w>': 1,\n",
" 'it ,</w>': 146,\n",
" '> no t</w>': 17,\n",
" 'b ec a u s e</w>': 404,\n",
" 'th e y</w>': 1059,\n",
" 'w al k ed</w>': 5,\n",
" 'a m b u s h </w>': 1,\n",
" 'on </w>': 1308,\n",
" 'F e b </w>': 5,\n",
" '2 8 ,</w>': 2,\n",
" 'K or es h </w>': 109,\n",
" '> g o t</w>': 2,\n",
" 'h is</w>': 626,\n",
" 'p r o p h es y</w>': 8,\n",
" 't o d a y ,</w>': 16,\n",
" 'th e i r </w>': 618,\n",
" 'st at ed</w>': 46,\n",
" 'in t en tion s ,</w>': 1,\n",
" '> th e y</w>': 16,\n",
" 'p l a y ed</w>': 11,\n",
" 'r i g h t</w>': 126,\n",
" 'p o l ar i z ing</w>': 1,\n",
" 's it u a tion </w>': 39,\n",
" 'd i f f u s ing</w>': 1,\n",
" '> it .</w>': 3,\n",
" 'h a d</w>': 317,\n",
" 's e t</w>': 101,\n",
" 'u p </w>': 284,\n",
" 'c on d i tion s</w>': 7,\n",
" 'c l a s s ic </w>': 10,\n",
" 'c u l t</w>': 24,\n",
" '> c on f r on t a tion </w>': 1,\n",
" 'p u b l ic al l y</w>': 4,\n",
" 'ou t c om e</w>': 4,\n",
" 'b ec om e .</w>': 1,\n",
" 'B e f or e</w>': 7,\n",
" 'a f t er</w>': 153,\n",
" 'k i d s</w>': 16,\n",
" 's h o t ? </w>': 1,\n",
" '> T h e</w>': 58,\n",
" 'g o v er n m en t</w>': 40,\n",
" 'u p p ed</w>': 1,\n",
" 'an t e</w>': 1,\n",
" 'p ar c i p it at ed</w>': 1,\n",
" 'c on c l u s i on </w>': 65,\n",
" 't o d a y .</w>': 12,\n",
" '> I t</w>': 18,\n",
" 's e e m </w>': 118,\n",
" 'f i re s</w>': 2,\n",
" 'w i th in</w>': 47,\n",
" 'c om p ou n d</w>': 7,\n",
" '> m e m b er s</w>': 1,\n",
" 'g r ou p </w>': 80,\n",
" 'c a u s ed</w>': 34,\n",
" 'C S </w>': 4,\n",
" 'g a s</w>': 32,\n",
" 'w a y</w>': 261,\n",
" 'w a s</w>': 1317,\n",
" '> d el i v er e d .</w>': 1,\n",
" 'L e t</w>': 27,\n",
" 's u b s e q u en t</w>': 6,\n",
" 'in v es ti g a tion </w>': 3,\n",
" 's h ed</w>': 6,\n",
" 'th at .</w>': 72,\n",
" 'S u p p o s e</w>': 8,\n",
" 'T h en </w>': 41,\n",
" 'wh y</w>': 248,\n",
" 'c om m en t ? </w>': 3,\n",
" 'u s ed</w>': 150,\n",
" 'p y r o t ec h n ic s</w>': 1,\n",
" 'st ar t ed</w>': 44,\n",
" 'f i re .</w>': 11,\n",
" '> D i v i d i an s</w>': 1,\n",
" 's ti l l </w>': 175,\n",
" 'd ec is i on </w>': 19,\n",
" 'st a y</w>': 16,\n",
" 'l e a v e .</w>': 2,\n",
" 'T h e y</w>': 207,\n",
" 'n e v er</w>': 157,\n",
" 'in t en d ed</w>': 25,\n",
" 'A s</w>': 132,\n",
" 'J e w s</w>': 63,\n",
" 'N a z is</w>': 22,\n",
" 'W W </w>': 1,\n",
" 'I I :</w>': 1,\n",
" 's a y</w>': 459,\n",
" 'd i e .</w>': 12,\n",
" '> > T h e</w>': 14,\n",
" 'b u i l d ing</w>': 20,\n",
" 'b u r n s ,</w>': 1,\n",
" 'al m o s t</w>': 68,\n",
" 'e v er y on e</w>': 76,\n",
" 'd i es .</w>': 1,\n",
" 'p r o b a b l y</w>': 96,\n",
" \"d o es n ' t</w>\": 183,\n",
" 'b o th er</w>': 11,\n",
" '> > y ou </w>': 3,\n",
" 'm u c h ,</w>': 4,\n",
" 'b o th er s</w>': 7,\n",
" 'm an y</w>': 345,\n",
" 'o th er</w>': 496,\n",
" 'p e o p l e . . . . . m o s t</w>': 1,\n",
" 'wh om </w>': 42,\n",
" 'd on t</w>': 6,\n",
" 'b el i e v e</w>': 351,\n",
" '> > p ar ti c u l ar l y</w>': 1,\n",
" 'm es s a g e .</w>': 5,\n",
" 'A L l </w>': 1,\n",
" 'h o p e .</w>': 3,\n",
" 'Y es ,</w>': 48,\n",
" 'f ing er</w>': 3,\n",
" 'p o in t ing</w>': 15,\n",
" 'h a s</w>': 655,\n",
" 'b e g u n .</w>': 1,\n",
" '> ></w>': 596,\n",
" 'F ou r </w>': 3,\n",
" 'A T F </w>': 6,\n",
" 'a g en t s</w>': 12,\n",
" '9 0 </w>': 4,\n",
" 'b r an c h </w>': 4,\n",
" 'D a v i d i an s</w>': 26,\n",
" 'no w </w>': 113,\n",
" 'd e a d</w>': 32,\n",
" '> > c r a z y</w>': 1,\n",
" 't a c ti c s</w>': 1,\n",
" 'p ar t</w>': 146,\n",
" 'F B I .</w>': 5,\n",
" 'Y e a h ,</w>': 12,\n",
" 'b l e w </w>': 26,\n",
" 'it .</w>': 254,\n",
" 't o o</w>': 104,\n",
" '\" r a tion al \" </w>': 1,\n",
" '> s it u a tion </w>': 1,\n",
" 'or d i an r y</w>': 1,\n",
" 'c r i m in al </w>': 17,\n",
" 'g a m e .</w>': 8,\n",
" \"h a v en ' t</w>\": 50,\n",
" 'l e ar n ed</w>': 20,\n",
" 'J on es t o w n ,</w>': 1,\n",
" 'M o v e</w>': 1,\n",
" 'H ou s e ,</w>': 1,\n",
" 'S L A </w>': 1,\n",
" 's h o o t ou t .</w>': 1,\n",
" 'O r </w>': 77,\n",
" 'p er h a p s</w>': 67,\n",
" 'h a v e :</w>': 1,\n",
" 'k i l l </w>': 65,\n",
" 'f i r st ,</w>': 16,\n",
" 'b l a m e</w>': 24,\n",
" 'on es ,</w>': 5,\n",
" 'd es t r o y</w>': 28,\n",
" 'e v i d en c e .</w>': 30,\n",
" 'r o y c </w>': 4,\n",
" '\" I m a g in ar y \" </w>': 2,\n",
" 'F r i en d s</w>': 6,\n",
" '- </w>': 388,\n",
" 'I n f o</w>': 5,\n",
" 'E x p er i en c e s</w>': 1,\n",
" 'p at b @ b n r . c o . u k </w>': 1,\n",
" '( P at r ic k </w>': 6,\n",
" 'B r o s n an ) </w>': 1,\n",
" 'B N R </w>': 1,\n",
" 'E u r o p e ,</w>': 2,\n",
" 'N e w </w>': 89,\n",
" 'S ou th g at e ,</w>': 1,\n",
" 'L on d on .</w>': 1,\n",
" 'N N T P - P o st ing - H o st :</w>': 234,\n",
" 'b n s g s 1 9 5 . b n r . c o . u k </w>': 1,\n",
" '2 1 </w>': 32,\n",
" '< 1 9 9 3 A p r 2 . 0 4 1 9 2 9 . 2 4 3 2 0 @ m n e m o s y n e . c s . d u . e d u ></w>': 1,\n",
" 'k d it t o @ n y x . c s . d u . e d u </w>': 1,\n",
" '( K i m b or l y</w>': 1,\n",
" 'D it t o ) </w>': 1,\n",
" '> C on c er n i on g </w>': 1,\n",
" 'th re a d . . .</w>': 1,\n",
" '> H a s</w>': 2,\n",
" 'an y on e</w>': 114,\n",
" 'e v er</w>': 79,\n",
" 's e en </w>': 91,\n",
" '\" D r o p </w>': 2,\n",
" 'D e a d</w>': 2,\n",
" 'F re d \" </w>': 1,\n",
" '? ? </w>': 8,\n",
" 'T H is</w>': 1,\n",
" 'm o v i e</w>': 7,\n",
" 's e e m s</w>': 183,\n",
" 'ti p i f y</w>': 1,\n",
" '> \" i m a g in ar y</w>': 1,\n",
" 'f r i en d \" </w>': 1,\n",
" 'th e m e</w>': 3,\n",
" 'r a th er</w>': 162,\n",
" 'w el l .</w>': 44,\n",
" 'L O V E D </w>': 1,\n",
" 'm o v i e ,</w>': 1,\n",
" 'i </w>': 31,\n",
" '> i m a g in ar y</w>': 1,\n",
" 'f r i en d</w>': 8,\n",
" 'k i d</w>': 6,\n",
" 'b or u g h t</w>': 1,\n",
" 'm e m or i es .</w>': 1,\n",
" '> S er i ou s l y ,</w>': 1,\n",
" 'h a v e</w>': 1858,\n",
" 'c h an c e ,</w>': 5,\n",
" 's e e</w>': 318,\n",
" 'F re d \" .</w>': 1,\n",
" \"I t ' l l </w>\": 1,\n",
" 'y a</w>': 1,\n",
" '> th in k .</w>': 1,\n",
" 'es p ec i al l y</w>': 40,\n",
" 'en d .</w>': 7,\n",
" '> B l es s ing s ! </w>': 1,\n",
" '> -- K i m </w>': 1,\n",
" 'P at r ic k </w>': 7,\n",
" 'B r o s n an .</w>': 1,\n",
" '< p at b @ b n r . c o . u k ></w>': 1,\n",
" '| | </w>': 11,\n",
" '. . . ! m c s u n ! u k c ! st c ! p at b </w>': 1,\n",
" 'N or th er n </w>': 2,\n",
" 'T el ec om m ,</w>': 1,\n",
" 'O a k l e i g h </w>': 1,\n",
" 'R d</w>': 1,\n",
" 'S ou th ,</w>': 1,\n",
" 'L on d on </w>': 5,\n",
" 'N 1 1 </w>': 1,\n",
" '1 H B .</w>': 1,\n",
" 'P h on e</w>': 1,\n",
" ':</w>': 689,\n",
" '+ 4 4 </w>': 2,\n",
" '8 1 </w>': 3,\n",
" '9 4 5 </w>': 2,\n",
" '2 1 3 5 </w>': 1,\n",
" '4 0 0 0 </w>': 1,\n",
" 'x 2 1 3 5 </w>': 1,\n",
" '\" O h ,</w>': 8,\n",
" 'F l a s h ,</w>': 1,\n",
" 'l o v e</w>': 82,\n",
" 'on l y</w>': 450,\n",
" 'g o t</w>': 87,\n",
" '1 4 </w>': 54,\n",
" 'h ou r s</w>': 9,\n",
" 's a v e</w>': 36,\n",
" 'u n i v er s e . \" </w>': 2,\n",
" 'h o w l an d . r es t on . an s . n e t ! e u r o p a . en g . g t e f s d . c om ! u u n e t ! m c s u n ! G er m an y . E U . n e t ! n e w s . d f n . d e ! t u b s i b r ! d b st u 1 . r z . t u - b s . d e ! I 3 1 5 0 1 0 1 </w>': 1,\n",
" 'G o s p el </w>': 18,\n",
" 'D at ing</w>': 12,\n",
" 'I 3 1 5 0 1 0 1 @ d b st u 1 . r z . t u - b s . d e</w>': 39,\n",
" '( B en e d i k t</w>': 39,\n",
" 'R o s en a u ) </w>': 39,\n",
" 'T ec h n ic al </w>': 26,\n",
" 'U n i v er s it y</w>': 268,\n",
" 'B r a u n s c h w e i g ,</w>': 24,\n",
" 'G er m an y</w>': 44,\n",
" '3 5 </w>': 12,\n",
" '< 6 6 0 1 5 @ m i m s y . u m d . e d u ></w>': 1,\n",
" '( D el e tion ) </w>': 26,\n",
" '> I </w>': 144,\n",
" 'c an no t</w>': 166,\n",
" 'an y</w>': 536,\n",
" 'e v i d en c e</w>': 203,\n",
" 'V .</w>': 5,\n",
" 'B .</w>': 28,\n",
" 'c y n ic s</w>': 2,\n",
" '> e v er</w>': 2,\n",
" 'a c c e p t .</w>': 10,\n",
" 's ec on d ,</w>': 6,\n",
" 'f ou n d a tion </w>': 12,\n",
" 're l i g i on .</w>': 41,\n",
" '> A n y on e</w>': 1,\n",
" 'wh o</w>': 840,\n",
" 'c l a i m s</w>': 54,\n",
" 'r is en </w>': 5,\n",
" 'J es u s</w>': 413,\n",
" '( b a c k </w>': 2,\n",
" '4 0 </w>': 18,\n",
" 'd a y</w>': 79,\n",
" 'p er i o d ) </w>': 2,\n",
" '> is</w>': 30,\n",
" 'b el i e v er ,</w>': 4,\n",
" 'th er e f or e</w>': 56,\n",
" 'd is c ou n t ed</w>': 2,\n",
" 'th o s e</w>': 325,\n",
" 'g r ou p ; </w>': 2,\n",
" 's in c e</w>': 160,\n",
" '> th es e</w>': 5,\n",
" 'an c i en t s</w>': 3,\n",
" 'an y w a y ,</w>': 6,\n",
" 'a g a in</w>': 48,\n",
" 'c h o o s e</w>': 44,\n",
" 'd is m is s</w>': 3,\n",
" 'wh o l e</w>': 98,\n",
" '> th ing .</w>': 1,\n",
" 'th i r d</w>': 18,\n",
" 'm e t a p h y s ic al </w>': 13,\n",
" 're l a tion s h i p </w>': 18,\n",
" 'an y th ing</w>': 108,\n",
" 'el s e -- </w>': 3,\n",
" '> e v en </w>': 5,\n",
" 'a g re e</w>': 133,\n",
" 'ar g u ed</w>': 19,\n",
" 'l en g th </w>': 11,\n",
" 'o v er</w>': 184,\n",
" '* m e an s * ,</w>': 2,\n",
" '> a g a in</w>': 2,\n",
" 'h o w </w>': 318,\n",
" 'p o s s i b l e .</w>': 25,\n",
" 'N o</w>': 56,\n",
" 'c o o k i es ,</w>': 1,\n",
" 'C h ar l i e .</w>': 1,\n",
" 'b e en </w>': 439,\n",
" 'd is c re d it ed</w>': 2,\n",
" 'e x t r a or d in ar y</w>': 4,\n",
" 'm at c h </w>': 11,\n",
" 'c a s e ,</w>': 40,\n",
" 'g o s p el s</w>': 14,\n",
" 's e en .</w>': 6,\n",
" 'F u r th er ,</w>': 12,\n",
" 'z i l l i on s</w>': 2,\n",
" 's p o o k </w>': 1,\n",
" 'st or i es ,</w>': 6,\n",
" 'h ar d l y</w>': 30,\n",
" 'c on s i d er</w>': 96,\n",
" 'o th er s</w>': 90,\n",
" 're l i g i ou s</w>': 183,\n",
" 'c on t e x t</w>': 55,\n",
" 's om e</w>': 595,\n",
" 'r es u r re c tion .</w>': 2,\n",
" 'm or e</w>': 544,\n",
" 'el a b or at e</w>': 5,\n",
" 'ar g u m en t s</w>': 63,\n",
" 'm a d e ,</w>': 9,\n",
" 'l o o k s</w>': 22,\n",
" 'p a s s ed</w>': 9,\n",
" 'p o s t</w>': 89,\n",
" 'f i l t er ing .</w>': 1,\n",
" 'th u s</w>': 35,\n",
" 'in t er p re t</w>': 22,\n",
" '\" e x t r a or d in ar y</w>': 2,\n",
" 'c l a i m s \" </w>': 2,\n",
" 'c l a i m </w>': 131,\n",
" 'st at e m en t</w>': 79,\n",
" '> s p e a k er</w>': 1,\n",
" 'a c c e p t</w>': 105,\n",
" '* an y * </w>': 5,\n",
" 'm at t er .</w>': 19,\n",
" 'st r ic t</w>': 4,\n",
" 'm e an ing .</w>': 13,\n",
" 'a c t u al </w>': 18,\n",
" 'no th ing</w>': 164,\n",
" 'c l a i m s .</w>': 9,\n",
" 'C h ar l i e ,</w>': 1,\n",
" 'I n v is i b l e</w>': 2,\n",
" 'P in k </w>': 4,\n",
" 'U n ic or n s ! </w>': 4,\n",
" 'B y</w>': 59,\n",
" 'st an d ar d s</w>': 24,\n",
" 'I P U s</w>': 1,\n",
" 'no w .</w>': 28,\n",
" 'A m er ic an s</w>': 22,\n",
" 'E v o l u tion </w>': 11,\n",
" '6 7 </w>': 4,\n",
" '< 1 p q 4 7 t I N N 8 l p @ s en at or - b e d f el l o w . M I T . E D U ></w>': 2,\n",
" 'b o b s @ th n e x t . m it . e d u </w>': 6,\n",
" '( R o b er t</w>': 69,\n",
" 'S ing l e t on ) </w>': 4,\n",
" 'l at t er</w>': 24,\n",
" 'st at e m en t ,</w>': 10,\n",
" 'g o d s</w>': 36,\n",
" 'e x is t \" </w>': 10,\n",
" '> d o e s</w>': 3,\n",
" 'r es t</w>': 56,\n",
" 'u p on </w>': 78,\n",
" 'f a i th </w>': 99,\n",
" 'is ,</w>': 142,\n",
" 'm a k ing</w>': 79,\n",
" 'P O S I T I V E </w>': 6,\n",
" '\" n o</w>': 6,\n",
" '( st r on g </w>': 3,\n",
" 'a th e is m ) </w>': 4,\n",
" 's a y ing</w>': 118,\n",
" '> k no w </w>': 4,\n",
" '> ( w e a k </w>': 2,\n",
" 'a th e is m ) .</w>': 3,\n",
" 'O n c e</w>': 19,\n",
" 'a g a in ,</w>': 37,\n",
" 'd i f f er en t</w>': 159,\n",
" 'B E L I E V E </w>': 4,\n",
" 'e x is t .</w>': 64,\n",
" 'm a in t a in</w>': 20,\n",
" 'p o s i tion ,</w>': 15,\n",
" '> a f t er</w>': 3,\n",
" 're a d ing</w>': 53,\n",
" 'F A Q s ,</w>': 4,\n",
" 'st r on g </w>': 61,\n",
" 'a th e is m </w>': 96,\n",
" 're q u i re s</w>': 24,\n",
" 'f a i th .</w>': 31,\n",
" 'u s u al l y</w>': 50,\n",
" 'u s e d .</w>': 13,\n",
" 'm y</w>': 694,\n",
" 'v i e w ,</w>': 19,\n",
" 'h er e</w>': 122,\n",
" 'd r i v ing</w>': 12,\n",
" 'c ar </w>': 21,\n",
" 'd r i v es .</w>': 2,\n",
" 'F or </w>': 206,\n",
" 'c on c l u s i on ,</w>': 5,\n",
" 'p re m is e s</w>': 24,\n",
" 'ar g u m en t</w>': 141,\n",
" '> B u t</w>': 14,\n",
" 'f i r s t</w>': 152,\n",
" 'l e t</w>': 78,\n",
" 'f o l l o w ing .</w>': 6,\n",
" '> W e</w>': 10,\n",
" 'm i g h t</w>': 186,\n",
" 'l an g u a g e</w>': 27,\n",
" 'p r o b l e m </w>': 77,\n",
" 're g ar d s</w>': 7,\n",
" '\" f a i th \" </w>': 3,\n",
" '> \" e x is t en c e \" .</w>': 2,\n",
" 'I ,</w>': 24,\n",
" 'C h r is ti an ,</w>': 17,\n",
" '> T o</w>': 6,\n",
" 'e x is t</w>': 35,\n",
" 'm e an s</w>': 119,\n",
" 's p a c e</w>': 10,\n",
" 'ti m e .</w>': 46,\n",
" 'H A V E </w>': 8,\n",
" '> b e ing</w>': 6,\n",
" 'B e ing .</w>': 4,\n",
" 'K i er k e g a ar d</w>': 3,\n",
" 'on c e</w>': 64,\n",
" 's a i d</w>': 260,\n",
" '> e x is t ,</w>': 2,\n",
" 'H e</w>': 257,\n",
" 'e t er n al .</w>': 19,\n",
" 'W i th </w>': 30,\n",
" 's a i d ,</w>': 40,\n",
" 'f e el </w>': 83,\n",
" \"it ' s</w>\": 257,\n",
" 'p o in t l es s</w>': 5,\n",
" 'd e b at e</w>': 13,\n",
" 'c al l ed</w>': 84,\n",
" '\" e x is t en c e \" </w>': 5,\n",
" \"> I ' m </w>\": 26,\n",
" 'd o ing</w>': 89,\n",
" 'h er e .</w>': 55,\n",
" 's ou r c e</w>': 29,\n",
" 'g r ou n d</w>': 14,\n",
" '> b e ing .</w>': 2,\n",
" 'W h en </w>': 87,\n",
" '\" g o d</w>': 7,\n",
" 'e x is t \" ,</w>': 5,\n",
" 'al s o</w>': 276,\n",
" '> st at e m en t</w>': 4,\n",
" 'o b v i ou s l y</w>': 36,\n",
" 'm e an</w>': 176,\n",
" 't w o</w>': 170,\n",
" 'H o w e v er ,</w>': 95,\n",
" '> in</w>': 35,\n",
" 'f o l l o w s</w>': 10,\n",
" 'u s e</w>': 149,\n",
" 'p h r a s e</w>': 14,\n",
" '\" the</w>': 42,\n",
" 'e x is t en c e</w>': 93,\n",
" \"> ' u s u al </w>\": 2,\n",
" \"s en s e ' </w>\": 3,\n",
" 's en s e</w>': 81,\n",
" 'c l ar i f ic a tion </w>': 9,\n",
" '> G o d \" .</w>': 2,\n",
" 'N o ,</w>': 39,\n",
" 't er m </w>': 39,\n",
" 'u s u al l y .</w>': 1,\n",
" 'd e f in i tion </w>': 56,\n",
" 'th ing ,</w>': 18,\n",
" 'u n ti l </w>': 73,\n",
" 'c om m on l y</w>': 10,\n",
" 'a c c e p t ed</w>': 30,\n",
" 'd e f in e</w>': 42,\n",
" 'e x is t ,</w>': 33,\n",
" 'it s el f ,</w>': 17,\n",
" 'I n t er es t ing l y ,</w>': 1,\n",
" '\" e x is t en c e</w>': 2,\n",
" 'e x is t s \" </w>': 5,\n",
" 'in d u b it a b l e</w>': 1,\n",
" 'st at e m en t s</w>': 40,\n",
" 'e i th er</w>': 86,\n",
" 'w a st e</w>': 14,\n",
" 'ti m e ,</w>': 47,\n",
" 'al re a d y</w>': 55,\n",
" 'n e ed</w>': 100,\n",
" 're p l a c e</w>': 6,\n",
" 'g o d ,</w>': 31,\n",
" 'i m p l y ing</w>': 5,\n",
" 'c a s e</w>': 88,\n",
" 'f ar </w>': 109,\n",
" 'in c om p l e t e ,</w>': 3,\n",
" 'f al l a c y .</w>': 9,\n",
" '> O n e</w>': 10,\n",
" 'c an</w>': 840,\n",
" 'p r o v e</w>': 64,\n",
" 'o p in i on </w>': 51,\n",
" '> \" b a s ed</w>': 2,\n",
" 'o b s er v a tion \" ,</w>': 3,\n",
" 'a s k </w>': 60,\n",
" '\" wh at</w>': 6,\n",
" 'o b s er v tion s</w>': 3,\n",
" '> y ou </w>': 18,\n",
" 're f er ing</w>': 3,\n",
" 't o ? \" </w>': 3,\n",
" 'N O </w>': 18,\n",
" 'o b s er v a tion s</w>': 18,\n",
" 'p r o</w>': 4,\n",
" 'c on </w>': 7,\n",
" '> ar e</w>': 16,\n",
" 'v al i d</w>': 41,\n",
" 'es t a b l is h ing</w>': 5,\n",
" 'b el i e f .</w>': 21,\n",
" 'W h er e</w>': 30,\n",
" 'f o l l o w ? </w>': 5,\n",
" \"A r en ' t</w>\": 4,\n",
" 'b a s ed</w>': 89,\n",
" 'a s s u m p tion </w>': 33,\n",
" 'e x is t s ? </w>': 2,\n",
" 'l e v el </w>': 29,\n",
" 'is \" </w>': 4,\n",
" 'm e an ing f u l .</w>': 2,\n",
" 'no t ,</w>': 51,\n",
" 'c on c e p t</w>': 42,\n",
" 'an y w a y .</w>': 18,\n",
" 'S o ,</w>': 49,\n",
" 'wh er e</w>': 181,\n",
" 'm e an ing f u l </w>': 8,\n",
" 'l e v el ? </w>': 2,\n",
" 'A f t er</w>': 85,\n",
" '2 0 0 0 </w>': 63,\n",
" 'y e ar s ,</w>': 70,\n",
" 'C h r is ti an</w>': 292,\n",
" 'M or al it y</w>': 77,\n",
" '4 5 </w>': 8,\n",
" '< 1 r 3 q a b $ o 1 v @ h or u s . a p . m c h p . s n i . d e > ,</w>': 1,\n",
" 'f r an k @ D 0 1 2 S 6 5 8 . u u c p </w>': 51,\n",
" '( F r an k </w>': 58,\n",
" \"O ' D w y er ) </w>\": 47,\n",
" '> I n </w>': 130,\n",
" '< 9 3 0 4 2 1 . 1 0 2 5 2 5 . 9 Y 9 . r u s n e w s . w 1 6 5 w @ m an ti s . c o . u k ></w>': 1,\n",
" 'm a th e w </w>': 52,\n",
" '< m a th e w @ m an ti s . c o . u k ></w>': 32,\n",
" '> # f r an k @ D 0 1 2 S 6 5 8 . u u c p </w>': 2,\n",
" '> # ></w>': 11,\n",
" '< 9 3 0 4 2 0 . 1 0 0 5 4 4 . 6 n 0 . r u s n e w s . w 1 6 5 w @ m an ti s . c o . u k ></w>': 1,\n",
" '# T h is</w>': 2,\n",
" 'c om p l e t e</w>': 28,\n",
" 'n on s en s e .</w>': 6,\n",
" 'R el a ti v is m </w>': 1,\n",
" 'a b s o l u t</w>': 1,\n",
" '# st an d ar d</w>': 1,\n",
" 'm or al it y ; </w>': 1,\n",
" 'm or al it y</w>': 171,\n",
" '# ar e</w>': 3,\n",
" 'e q u al l y</w>': 12,\n",
" 'g o o d .</w>': 23,\n",
" 'P r es u m a b l y</w>': 1,\n",
" 'm or al </w>': 220,\n",
" 's y st e m s</w>': 30,\n",
" 'o th er s ? </w>': 9,\n",
" 's o ? </w>': 12,\n",
" 'm an a g e</w>': 2,\n",
" 'o b j ec ti v e</w>': 165,\n",
" 'f r a m e</w>': 7,\n",
" 're f er en c e ? </w>': 3,\n",
" '> # </w>': 6,\n",
" 'E i th er</w>': 6,\n",
" 'F r an k </w>': 22,\n",
" \"O ' D w y er</w>\": 12,\n",
" 's a i d :</w>': 21,\n",
" '[ . . . s ti f f</w>': 2,\n",
" '> # W h ic h </w>': 1,\n",
" 'f a st er ,</w>': 1,\n",
" 'b u l l e t</w>': 5,\n",
" 's n a i l ? </w>': 1,\n",
" 'an s w er</w>': 77,\n",
" '> # E in st e in</w>': 1,\n",
" 'p r o v ed</w>': 12,\n",
" \"is n ' t</w>\": 119,\n",
" 'S p e ed</w>': 1,\n",
" 'q u an ti f i a b l e</w>': 1,\n",
" 'm e a s u r e</w>': 13,\n",
" 'r es u l t ing</w>': 1,\n",
" 'm e th o d s</w>': 3,\n",
" 'r es u l t</w>': 40,\n",
" 's a m e</w>': 211,\n",
" 'v al u e</w>': 56,\n",
" 'm e a s u re d</w>': 3,\n",
" 'm at t er</w>': 70,\n",
" 're f er en c e .</w>': 2,\n",
" 'z er o</w>': 3,\n",
" 'v el o c it y</w>': 1,\n",
" 's it t ing</w>': 5,\n",
" 't a b l e</w>': 5,\n",
" 't r a in</w>': 4,\n",
" 'm o v ing</w>': 7,\n",
" '6 0 m p h </w>': 2,\n",
" 's p e ed</w>': 3,\n",
" '( a ) </w>': 8,\n",
" '0 m p h </w>': 1,\n",
" 's om e on e</w>': 162,\n",
" 't r a in .</w>': 2,\n",
" '( b ) </w>': 11,\n",
" 'st a tion ar y</w>': 2,\n",
" 'n e x t</w>': 46,\n",
" 're f er en c e</w>': 35,\n",
" 'm a k e s</w>': 101,\n",
" 're l a ti v e .</w>': 5,\n",
" 'B u t</w>': 310,\n",
" \"wh at ' s</w>\": 17,\n",
" 'e v er y</w>': 129,\n",
" 'p er s on </w>': 156,\n",
" 'b u l l e t .</w>': 1,\n",
" 'E v er y</w>': 6,\n",
" 'o f f ,</w>': 9,\n",
" '6 0 m p h .</w>': 1,\n",
" 'ti m e</w>': 238,\n",
" 'f i l l e d ,</w>': 1,\n",
" 'e x a c t l y</w>': 45,\n",
" 'j i m </w>': 2,\n",
" 'h al at @ b e ar . c om </w>': 2,\n",
" 'b e ar - st e ar n s</w>': 2,\n",
" '-- wh at e v er</w>': 2,\n",
" 's er v e</w>': 16,\n",
" ...}"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"vocab"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.6"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment