SSSE3

Supplemental Streaming SIMD Extension 3 (SSSE3) — это обозначение данное Intel’ом 4-му расширению системы команд. Предыдущее имело обозначение SSE3 и Intel добавил ещё один символ 'S' вместо того, чтобы увеличить номер расширения, возможно потому, что они посчитали SSSE3 простым дополнением к SSE3. Часто, до того как стало использоваться официальное обозначение SSSE3, эти новые команды назывались SSE4. Также их называли кодовыми именами Tejas New Instructions (TNI) и Merom New Instructions (MNI) по названию процессоров, где впервые Intel намеревалась поддержать эти новые команды. Появившись в Intel Core Microarchitecture, SSSE3 доступно в сериях процессоров Xeon 5100 (Server и Workstation версии), а также в процессорах Intel Core 2 (Notebook и Desktop версии) и Intel Atom.

Новыми в SSSE3, по сравнению с SSE3, являются 16 уникальных команд, работающих с упакованными целыми. Каждая из них может работать как с 64-х битными (MMX), так и с 128-ми битными (XMM) регистрами, поэтому Intel в своих материалах ссылается на 32 новые команды.

Новые инструкции

Работа со знаком

PABSB, PABSW, PABSD — (Packed Absolute Value {Bytes/Words/DWords})
- Input — { A0, A1… }
- Output — { A0 * sign(A0), A1 * sign (A1)… }

Каждое поле результата есть абсолютная величина соответствующего поля из src1. Фактически это те же операции PSIGNB, PSIGNH, PSIGNW у которых оба аргумента один и тот же регистр.

PSIGNB, PSIGNW, PSIGND — (Packed Sign {Bytes/Words/DWords})
- Input — { A0, A1… }, { B0, B1… }
- Output — { A0 * sign(B0), A1 * sign (B1)… }

Каждое поле результата есть произведение поля из src1 на {-1,0,1} в зависимости от знака соответствующего поля в src2 (умножение на 0 когда поле в src2 равно нулю).

Сдвиги

PALIGNR — (Packed Align Right)
- Input — { A0, A1 }, { B0, B1 }, imm8
- Output — { B1_B0_A1_A0 >> (imm8 * 8) }

Два регистра операнда рассматривается как одно беззнаковое промежуточное значение удвоенной размерности из которого извлекается 64-х/128-х битное значение начиная с байта указанного в непосредственном аргументе-константе команды.

Перемешивание байт

PSHUFB — (Packed Shuffle Bytes)
- Input — { A₀, A₁, A₂,.. A₇/A₁₅ }, { B₀, B₁, B₂,.. B₇/B₁₅ }
- Output — { [A_B0 A_B1 A_B2 …] }

Перестановка байт, каждый байт результата есть некоторый байт из первого аргумента определяемый по соответствующему байту из второго аргумента (если байт отрицательный, то в байт результат прописывается ноль, иначе используются младшие 3 или 4 бита как номер байта в первом аргументе).

Умножения

PMULHRSW — (Packed Multiply High with Round and Scale)
- Input — { A0, A1… }, { B0, B1… }
- Output — { A0 * B0, A1 * B1… }

Аргументы A и B рассматриваются как вектора 16-ти битных знаковых чисел с фиксированной запятой представленных в диапазоне [-1,+1) (то есть 0x4000 это 0.5, а 0xa000 это −0.75 и т. д.), которые перемножаются с друг-другом с корректным округлением.

PMADDUBSW — (Multiply and Add Packed Signed and Unsigned Bytes)
- Input — { A0, A1, A2, A3,.. }, { B0, B1, B2, B3,.. }
- Output — { (A0*B0+A1*B1), (A2*B2+A3*B3), … }

Производится побайтное перемножение векторов A и B, промежуточные 16-ти битные результаты попарно складываются между собой с насыщением и выдаются как результат.

Горизонтальные сложения/вычитания целых

PHSUBW, PHSUBD — (Packed Horizontal Subtract (16-ти или 32-х битные поля))
- Input — { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Output — { A0-A1 A2-A3 … B0-B1 B2-B3 …}

Горизонтальное вычитание целых 16/32 битных полей.

PHSUBSW — (Packed Horizontal Subtract and Saturate Words (16-ти битные поля))
- Input — { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Output — { A0-A1 A2-A3 B0-B1 B2-B3 }

Горизонтальное вычитание целых 16 битных полей с насыщением.

PHADDW, PHADDD — (Packed Horizontal Add (16-ти или 32-х битные поля))
- Input — { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Output — { A0+A1 A2+A3 … B0+B1 B2+B3 …}

Горизонтальное сложение целых 16/32 битных полей.

PHADDSW — (Packed Horizontal Add and Saturate Words (16-ти битные поля))
- Input — { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Output — { A0+A1 A2+A3 … B0+B1 B2+B3 …}

Горизонтальное сложение целых 16 битных полей с насыщением.

Процессоры поддерживающие SSSE3

Intel:
- Xeon 5100 Series
- Intel Core 2
- Intel Celeron (ядро Conroe-L)
- Intel Atom

Литература

Спецификация на Core 2 Mobile

Доклад Intel признающий существование SSSE3 и описывающий SSE4

Описание системы команд, где расписаны SSSE3 инструкции

Intel 64 and IA-32 Architectures Software Developer's Manual Volume 2B

Наборы инструкций процессоров x86
Intel	MMX SSE SSE2 SSE3 SSSE3 SSE4 (SSE4.1 SSE4.2 ATA) AES AVX FMA Intel MPX
AMD	3DNow! SSE4a SSE5 AVX FMA AES XOP
Cyrix	MMXEXT

SSSE3

Содержание

Новые инструкции

Работа со знаком

Сдвиги

Перемешивание байт

Умножения

Горизонтальные сложения/вычитания целых

Процессоры поддерживающие SSSE3

Литература

Навигация

SSSE3

Новые инструкции

Работа со знаком

Сдвиги

Перемешивание байт

Умножения

Горизонтальные сложения/вычитания целых

Процессоры поддерживающие SSSE3

Литература

Навигация

Поиск