Квантование

Q квантования реального значения V представлена взвешенной суммой бит. В контексте схемы кодирования общего наклона и смещения, значение неподписанной величины с фиксированной точкой задается как

V~=S.[i=0ws1bi2i]+B,

в то время как значение подписанной величины с фиксированной точкой задается как

V~=S.[bws12ws1+i=0ws2bi2i]+B,

где

  • bi являются двоичными цифрами, с bi=1,0, для i=0,1,...,ws1

  • Размер слова в битах задается ws, с ws = 1, 2, 3..., 128.

  • S задается как F=2E, где масштабирование не ограничено, потому что двоичная точка не должна совпадать со словом.

bi называются битовые умножители и 2i называются весами.

Формат с фиксированной точкой

Форматы для 8-битных значений со знаком и без знака с фиксированной точкой показаны на следующем рисунке.

Обратите внимание, что вы не можете определить, являются ли эти номера подписанными или неподписанными типами данных просто с помощью проверки, поскольку эта информация явно не закодирована в слове.

Двоичное число 0011.0101 приводит к тому же значению для представления без знака и двух дополнений, потому что MSB = 0. Установка B = 0 и используя соответствующие веса, биты и масштабирование, значение является

V~=(F2E)Q=2E[i=0ws1bi2i]=24(0×27+0×26+1×25+1×24+0×23+1×22+0×21+1×20)=3.3125.

И наоборот, двоичное число 1011.0101 приводит к различным значениям для представления без знака и двух комплементов, поскольку MSB = 1.

Установка B = 0 и используя соответствующие веса, биты и масштабирование, беззнаковое значение

V~=(F2E)Q=2E[i=0ws1bi2i]=24(1×27+0×26+1×25+1×24+0×23+1×22+0×21+1×20)=11.3125,

в то время как значение дополнения двух является

V~=(F2E)Q=2E[bws12ws1+i=0ws2bi2i]=24(1×27+0×26+1×25+1×24+0×23+1×22+0×21+1×20)=4.6875.