Fix float 8 conversion (#36)

xadupre · web-flow · commit 2fde01fa8f35 · 2023-07-31T19:17:35.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -22,6 +22,8 @@ _doc/examples/data/*.optimized.onnx
 _doc/examples/*.html
 _doc/_static/require.js
 _doc/_static/viz.js
+_doc/LICENSE.txt
+_doc/CHANGELOGS.rst
 _unittests/ut__main/*.png
 _unittests/ut__main/_cache/*
 _unittests/ut__main/*.html
diff --git a/_doc/api/f8.rst b/_doc/api/f8.rst
@@ -0,0 +1,5 @@
+Float 8
+=======
+
+.. automodule:: onnx_array_api.validation.f8
+    :members:
diff --git a/_doc/api/index.rst b/_doc/api/index.rst
@@ -20,3 +20,4 @@ API
     reference
     tools
     profiling
+    f8
diff --git a/_doc/conf.py b/_doc/conf.py
@@ -122,9 +122,7 @@
     "onnxruntime": "https://onnxruntime.ai/",
     "numpy": "https://numpy.org/",
     "numba": "https://numba.pydata.org/",
-    "onnx-array-api": (
-        "http://www.xavierdupre.fr/app/onnx-array-api/helpsphinx/index.html"
-    ),
+    "onnx-array-api": ("https://sdpython.github.io/doc/onnx-array-api/dev/"),
     "pyinstrument": "https://github.com/joerick/pyinstrument",
     "python": "https://www.python.org/",
     "scikit-learn": "https://scikit-learn.org/stable/",
diff --git a/_unittests/ut_validation/test_f8.py b/_unittests/ut_validation/test_f8.py
@@ -1151,7 +1151,16 @@ def test_float8_e5m2fnuz_negative_nan(self):
         back = fe4m3_to_float32(to, fn=True, uz=True)
         self.assertTrue(numpy.isnan(back))
 
+    def test_fe4m3fn_to_float32_bug(self):
+        cases = [(1.8131605, 1.875)]
+        for val, expected in cases:
+            with self.subTest(value=val, expected=expected):
+                res = fe4m3_to_float32(search_float32_into_fe4m3(val))
+                self.assertEqual(expected, res)
+                res = fe4m3_to_float32(float32_to_fe4m3(val))
+                self.assertEqual(expected, res)
+
 
 if __name__ == "__main__":
-    TestF8().test_search_float32_into_fe4m3fn_simple()
+    TestF8().test_fe4m3fn_to_float32_bug()
     unittest.main(verbosity=2)
diff --git a/onnx_array_api/validation/f8.py b/onnx_array_api/validation/f8.py
@@ -12,18 +12,17 @@ class UndefinedCastError(FloatingPointError):
     pass
 
 
-def display_float32(value, sign=1, exponent=8, mantissa=23):
+def display_int(ival, sign=1, exponent=8, mantissa=23):
     """
-    Displays a float32 into b.
+    Displays an integer as bits.
 
-    :param value: value to display (float32)
+    :param ival: value to display (float32)
     :param sign: number of bits for the sign
     :param exponent: number of bits for the exponent
     :param mantissa: number of bits for the mantissa
     :return: string
     """
     t = sign + exponent + mantissa
-    ival = int.from_bytes(struct.pack("<f", numpy.float32(value)), "little")
     s = bin(ival)[2:]
     s = "0" * (t - len(s)) + s
     s1 = s[:sign]
@@ -32,6 +31,24 @@ def display_float32(value, sign=1, exponent=8, mantissa=23):
     return ".".join([s1, s2, s3])
 
 
+def display_float32(value, sign=1, exponent=8, mantissa=23):
+    """
+    Displays a float32 into b.
+
+    :param value: value to display (float32)
+    :param sign: number of bits for the sign
+    :param exponent: number of bits for the exponent
+    :param mantissa: number of bits for the mantissa
+    :return: string
+    """
+    return display_int(
+        int.from_bytes(struct.pack("<f", numpy.float32(value)), "little"),
+        sign=sign,
+        exponent=exponent,
+        mantissa=mantissa,
+    )
+
+
 def display_float16(value, sign=1, exponent=5, mantissa=10):
     """
     Displays a float32 into b.
@@ -42,14 +59,9 @@ def display_float16(value, sign=1, exponent=5, mantissa=10):
     :param mantissa: number of bits for the mantissa
     :return: string
     """
-    t = sign + exponent + mantissa
-    ival = numpy.float16(value).view("H")  # pylint: disable=E1121
-    s = bin(ival)[2:]
-    s = "0" * (t - len(s)) + s
-    s1 = s[:sign]
-    s2 = s[sign : sign + exponent]
-    s3 = s[sign + exponent :]
-    return ".".join([s1, s2, s3])
+    return display_int(
+        numpy.float16(value).view("H"), sign=sign, exponent=exponent, mantissa=mantissa
+    )
 
 
 def display_fexmx(value, sign, exponent, mantissa):
@@ -64,14 +76,7 @@ def display_fexmx(value, sign, exponent, mantissa):
     :param mantissa: number of bits for the mantissa
     :return: string
     """
-    t = sign + exponent + mantissa
-    ival = value
-    s = bin(ival)[2:]
-    s = "0" * (t - len(s)) + s
-    s1 = s[:sign]
-    s2 = s[sign : sign + exponent]
-    s3 = s[sign + exponent :]
-    return ".".join([s1, s2, s3])
+    return display_int(value, sign=sign, exponent=exponent, mantissa=mantissa)
 
 
 def display_fe4m3(value, sign=1, exponent=4, mantissa=3):
@@ -534,7 +539,9 @@ def float32_to_fe4m3(x, fn: bool = True, uz: bool = False, saturate: bool = True
                 else:
                     ret |= ex << 3
                     ret |= m >> 20
-                if m & 0x80000:
+                if (m & 0x80000) and (
+                    (m & 0x100000) or (m & 0x7FFFF)
+                ):  # round to nearest even
                     if (ret & 0x7F) < 0x7F:
                         # rounding
                         ret += 1
@@ -584,7 +591,7 @@ def float32_to_fe4m3(x, fn: bool = True, uz: bool = False, saturate: bool = True
                     if (ret & 0x7F) == 0x7F:
                         ret &= 0xFE
                 if (m & 0x80000) and (
-                    (m & 0x100000) or (m & 0x7C000)
+                    (m & 0x100000) or (m & 0x7FFFF)
                 ):  # round to nearest even
                     if (ret & 0x7F) < 0x7E:
                         # rounding
@@ -642,7 +649,9 @@ def float32_to_fe5m2(x, fn: bool = False, uz: bool = False, saturate: bool = Tru
                 ex = e - 111  # 127 - 16
                 ret |= ex << 2
                 ret |= m >> 21
-                if m & 0x100000:
+                if m & 0x100000 and (
+                    (m & 0xFFFFF) or (m & 0x200000)
+                ):  # round to nearest even
                     if (ret & 0x7F) < 0x7F:
                         # rounding
                         ret += 1

-Original file line number
+Diff line change
@@ @@ -0,0 +1,5 @@ @@
 +Float 8
 +=======
++
 +.. automodule:: onnx_array_api.validation.f8
 +    :members: