jeremytanjianle · August 4, 2022 05:23
diff --git a/basic_classification_dataset_reader.py b/basic_classification_dataset_reader.py
 @DatasetReader.register('classification-tsv')
 class ClassificationTsvReader(DatasetReader):
    def __init__(self,
                 lazy: bool = False,
                 tokenizer: Tokenizer = None,
                 token_indexers: Dict[str, TokenIndexer] = None):
        super().__init__(lazy)
        self.tokenizer = tokenizer or WhitespaceTokenizer()
        self.token_indexers = token_indexers or {'tokens': SingleIdTokenIndexer()}

    def text_to_instance(self, text: str, label: str = None) -> Instance:
        tokens = self.tokenizer.tokenize(text)
        text_field = TextField(tokens, self.token_indexers)
        fields = {'text': text_field}
        if label:
            fields['label'] = LabelField(label)
        return Instance(fields)

    def _read(self, file_path: str) -> Iterable[Instance]:
        with open(file_path, 'r') as lines:
            for line in lines:
                text, sentiment = line.strip().split('\t')
                yield self.text_to_instance(text, sentiment)
	@DatasetReader.register('classification-tsv')
	class ClassificationTsvReader(DatasetReader):
	def __init__(self,
	lazy: bool = False,
	tokenizer: Tokenizer = None,
	token_indexers: Dict[str, TokenIndexer] = None):
	super().__init__(lazy)
	self.tokenizer = tokenizer or WhitespaceTokenizer()
	self.token_indexers = token_indexers or {'tokens': SingleIdTokenIndexer()}

	def text_to_instance(self, text: str, label: str = None) -> Instance:
	tokens = self.tokenizer.tokenize(text)
	text_field = TextField(tokens, self.token_indexers)
	fields = {'text': text_field}
	if label:
	fields['label'] = LabelField(label)
	return Instance(fields)

	def _read(self, file_path: str) -> Iterable[Instance]:
	with open(file_path, 'r') as lines:
	for line in lines:
	text, sentiment = line.strip().split('\t')
	yield self.text_to_instance(text, sentiment)
No results found