Vlad-Andrei BĂDOIU (78692) · Alexandru-Mihai GHERGHESCU · Alexandru-Mihai GHERGHESCU
--- a/optimus/dataloader.py
+++ b/optimus/dataloader.py
-import time
-import random
-from typing import Tuple, Iterator, Iterable
+from typing import (
+        Optional,
+        Union,
+        Generator,
+        Any,
+        Callable
--- a/optimus/dataloader.py
+++ b/optimus/dataloader.py
-import time
-import random
-from typing import Tuple, Iterator, Iterable
+from typing import (
+        Optional,
+        Union,
+        Generator,
+        Any,
+        Callable
+)
+from typing import Iterator
--- a/training.py
+++ b/training.py
 import torch
 from torch import nn

-from optimus.datasets import WikiText103Dataset
 from optimus.tokenizers import SentencePieceTokenizer
-from optimus.dataloader import OptimusDataLoader
+from optimus.dataloader import *
 from optimus.models import OptimusTransformer
 from optimus.trainer import Trainer
-
+from datasets import load_dataset

--- a/training.py
+++ b/training.py
 import torch
 from torch import nn

-from optimus.datasets import WikiText103Dataset
 from optimus.tokenizers import SentencePieceTokenizer
-from optimus.dataloader import OptimusDataLoader
+from optimus.dataloader import *
--- a/training.py
+++ b/training.py
    tok = SentencePieceTokenizer(model_path=tokenizer_path)

    # load dataset splits
-    train_ds = WikiText103Dataset(split='train')
-    test_ds = WikiText103Dataset(split='test')
+    train_ds = load_dataset('wikitext', 'wikitext-2-v1', split='train', streaming=False)
+    test_ds = load_dataset('wikitext', 'wikitext-2-v1', split='test', streaming=False)
+
+    # toknize splits
--- a/training.py
+++ b/training.py
    tok = SentencePieceTokenizer(model_path=tokenizer_path)

    # load dataset splits
-    train_ds = WikiText103Dataset(split='train')
-    test_ds = WikiText103Dataset(split='test')
+    train_ds = load_dataset('wikitext', 'wikitext-2-v1', split='train', streaming=False)
+    test_ds = load_dataset('wikitext', 'wikitext-2-v1', split='test', streaming=False)