@@ -1122,6 +1122,22 @@ mul_f256(uint32_t *d, const uint32_t *a, const uint32_t *b)
t -= cc << 10;
t -= cc << 5;
t += cc;
+
+       /*
+        * If the carry is negative, then after carry propagation, we may
+        * end up with a value which is negative, and we don't want that.
+        * Thus, in that case, we add the modulus. Note that the subtraction
+        * result, when the carry is negative, is always smaller than the
+        * modulus, so the extra addition will not make the value exceed
+        * twice the modulus.
+        */
+       cc >>= 31;
+       t -= cc;
+       t += cc << 5;
+       t += cc << 10;
+       t -= cc << 3;
+       t += cc << 9;
+
norm13(d, t, 20);
}

@@ -1195,6 +1211,22 @@ square_f256(uint32_t *d, const uint32_t *a)
t -= cc << 10;
t -= cc << 5;
t += cc;
+
+       /*
+        * If the carry is negative, then after carry propagation, we may
+        * end up with a value which is negative, and we don't want that.
+        * Thus, in that case, we add the modulus. Note that the subtraction
+        * result, when the carry is negative, is always smaller than the
+        * modulus, so the extra addition will not make the value exceed
+        * twice the modulus.
+        */
+       cc >>= 31;
+       t -= cc;
+       t += cc << 5;
+       t += cc << 10;
+       t -= cc << 3;
+       t += cc << 9;
+
norm13(d, t, 20);
}