[LEX] base code is done

2023-05-03 10:39:50 +01:00 · 2023-05-03 10:39:50 +01:00 · 734906e46c
commit 734906e46c
parent 842c344ef1
3 changed files with 96 additions and 4 deletions
--- a/src/example.toml
+++ b/src/example.toml
@ -0,0 +1,5 @@
 title = "TOML Example"
 [owner]
 name = "Tom Preston-Werner"
 date = 2010-04-23
 time = 21:30:00
--- a/src/lexer.py
+++ b/src/lexer.py
@ -2,27 +2,106 @@ import ply.lex as lex
 tokens = [
    "ID",
-    "STR"
+    "STR",
    "DATE",
    "TIME",
    "DATETIME",
    "INT",
    "FLOAT", # need to implement exponents check https://toml.io/en/
    "HEX",
    "BIN",
    "OCT",
    "FLOAT",  # need to implement exponents check https://toml.io/en/
    "INF",
    "NAN",
    "COMMENT",
 ]
 # STR needs to be the first one to catch
 def t_STR(t):
    r"\"[^\"]+\" "
    return t
 # needs to check if datetime is valid
 def t_DATETIME(t):
    r"\d{4}-\d{2}-\d{2}[T ]\d{2}:\d{2}:\d{2}(\.\d{1,6})?(Z|[+-]\d{2}:\d{2})"
    return t
 # needs to check if date is valid
 def t_DATE(t):
    r"\d{4}-\d{2}-\d{2}"
    return t
 # needs to check if time is valid
 def t_TIME(t):
    r"\d{2}:\d{2}:\d{2}(\.\d{1,6})?"
    return t
 # needs number grouping (example : flt8 = 224_617.445_991_228)
 def t_FLOAT(t):
    r"[+-]?\d+(\.\d+)?([eE][-+]?\d+)?"
    return t
 # needs number grouping (example : int6 = 5_349_221)
 def t_INT(t):
    r"[-+]?\d+"
    return t
 # needs number grouping (example : hex3 = 0xdead_beef)
 def t_HEX(t):
    r"0x[0-9a-fA-F]+"
    return t
 def t_BIN(t):
    r"0b[01]+"
    return t
 def t_OCT(t):
    r"0o[0-7]+"
    return t
 def t_INF(t):
    r"[-+]?inf"
    return t
 def t_NAN(t):
    r"[+-]?nan"
 # booleans are always lowercase
 def t_BOOL(t):
    r"(true|false)"
    return t
 # ID needs to be the last so it doesnt catch everything (literally)
 def t_ID(t):
    r"[\w.]+"
    return t
 def t_COMMENT(t):
-    r"#.*"
+    r"\#.*"
    pass
 def t_error(t):
    print("Illegal character '%s'" % t.value[0])
    t.lexer.skip(1)
 t_ignore = "\n\t "
 literals = "[]{},="
 lexer = lex.lex()
--- a/src/tokenizer.py
+++ b/src/tokenizer.py
@ -0,0 +1,8 @@
 from lexer import lexer
 f = open("example.toml","r")
 lexer.input(f.read())
 for tok in lexer:
    print(tok)