1
1
mirror of https://github.com/henrydcase/pqc.git synced 2024-11-27 01:41:40 +00:00
pqcrypto/crypto_kem/ntruhps2048509/avx2/poly_rq_mul.s
2021-03-24 21:02:46 +00:00

5626 lines
156 KiB
ArmAsm

.data
.p2align 5
mask_low13words:
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0xffff
.word 0x0
.word 0x0
.word 0x0
const3:
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
.word 3
const9:
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
.word 9
const0:
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
const729:
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
.word 729
const3_inv:
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
.word 43691
const5_inv:
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
.word 52429
shuf48_16:
.byte 10
.byte 11
.byte 12
.byte 13
.byte 14
.byte 15
.byte 0
.byte 1
.byte 2
.byte 3
.byte 4
.byte 5
.byte 6
.byte 7
.byte 8
.byte 9
.byte 10
.byte 11
.byte 12
.byte 13
.byte 14
.byte 15
.byte 0
.byte 1
.byte 2
.byte 3
.byte 4
.byte 5
.byte 6
.byte 7
.byte 8
.byte 9
shufmin5_mask3:
.byte 10
.byte 11
.byte 12
.byte 13
.byte 14
.byte 15
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
.byte 255
mask32_to_16:
.word 0xffff
.word 0x0
.word 0xffff
.word 0x0
.word 0xffff
.word 0x0
.word 0xffff
.word 0x0
.word 0xffff
.word 0x0
.word 0xffff
.word 0x0
.word 0xffff
.word 0x0
.word 0xffff
.word 0x0
mask5_3_5_3:
.word 0
.word 0
.word 0
.word 65535
.word 65535
.word 65535
.word 65535
.word 65535
.word 0
.word 0
.word 0
.word 65535
.word 65535
.word 65535
.word 65535
.word 65535
mask3_5_3_5:
.word 65535
.word 65535
.word 65535
.word 0
.word 0
.word 0
.word 0
.word 0
.word 65535
.word 65535
.word 65535
.word 0
.word 0
.word 0
.word 0
.word 0
mask_keephigh:
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 0
.word 65535
.word 65535
.word 65535
.word 65535
.word 65535
.word 65535
.word 65535
.word 65535
mask_mod2048:
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.word 2047
.text
.global PQCLEAN_NTRUHPS2048509_AVX2_poly_Rq_mul
.global _PQCLEAN_NTRUHPS2048509_AVX2_poly_Rq_mul
PQCLEAN_NTRUHPS2048509_AVX2_poly_Rq_mul:
_PQCLEAN_NTRUHPS2048509_AVX2_poly_Rq_mul:
push %r12
mov %rsp, %r8
andq $-32, %rsp
subq $4096, %rsp
mov %rsp, %rax
subq $4096, %rsp
mov %rsp, %r11
subq $8192, %rsp
mov %rsp, %r12
subq $512, %rsp
vmovdqa const3(%rip), %ymm3
vmovdqa 0(%rsi), %ymm0
vmovdqa 64(%rsi), %ymm1
vmovdqa 128(%rsi), %ymm2
vmovdqa 192(%rsi), %ymm12
vmovdqa 768(%rsi), %ymm4
vmovdqa 832(%rsi), %ymm5
vmovdqa 896(%rsi), %ymm6
vmovdqa 960(%rsi), %ymm7
vmovdqa 256(%rsi), %ymm8
vmovdqa 320(%rsi), %ymm9
vmovdqa 384(%rsi), %ymm10
vmovdqa 448(%rsi), %ymm11
vmovdqa %ymm0, 0(%rax)
vmovdqa %ymm1, 64(%rax)
vpaddw %ymm0, %ymm1, %ymm14
vmovdqa %ymm14, 128(%rax)
vmovdqa %ymm2, 192(%rax)
vmovdqa %ymm12, 256(%rax)
vpaddw %ymm2, %ymm12, %ymm14
vmovdqa %ymm14, 320(%rax)
vpaddw %ymm0, %ymm2, %ymm14
vmovdqa %ymm14, 384(%rax)
vpaddw %ymm1, %ymm12, %ymm15
vmovdqa %ymm15, 448(%rax)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 512(%rax)
vmovdqa %ymm4, 3456(%rax)
vmovdqa %ymm5, 3520(%rax)
vpaddw %ymm4, %ymm5, %ymm14
vmovdqa %ymm14, 3584(%rax)
vmovdqa %ymm6, 3648(%rax)
vmovdqa %ymm7, 3712(%rax)
vpaddw %ymm6, %ymm7, %ymm14
vmovdqa %ymm14, 3776(%rax)
vpaddw %ymm4, %ymm6, %ymm14
vmovdqa %ymm14, 3840(%rax)
vpaddw %ymm5, %ymm7, %ymm15
vmovdqa %ymm15, 3904(%rax)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 3968(%rax)
vmovdqa %ymm0, 0(%rsp)
vmovdqa %ymm1, 32(%rsp)
vmovdqa %ymm2, 64(%rsp)
vmovdqa %ymm12, 96(%rsp)
vmovdqa %ymm8, 128(%rsp)
vmovdqa %ymm9, 160(%rsp)
vmovdqa %ymm10, 192(%rsp)
vmovdqa %ymm11, 224(%rsp)
vmovdqa 512(%rsi), %ymm0
vpaddw 0(%rsp), %ymm0, %ymm1
vpaddw 128(%rsp), %ymm4, %ymm2
vpaddw %ymm2, %ymm1, %ymm8
vpsubw %ymm2, %ymm1, %ymm12
vmovdqa %ymm0, 256(%rsp)
vmovdqa 576(%rsi), %ymm0
vpaddw 32(%rsp), %ymm0, %ymm1
vpaddw 160(%rsp), %ymm5, %ymm2
vpaddw %ymm2, %ymm1, %ymm9
vpsubw %ymm2, %ymm1, %ymm13
vmovdqa %ymm0, 288(%rsp)
vmovdqa 640(%rsi), %ymm0
vpaddw 64(%rsp), %ymm0, %ymm1
vpaddw 192(%rsp), %ymm6, %ymm2
vpaddw %ymm2, %ymm1, %ymm10
vpsubw %ymm2, %ymm1, %ymm14
vmovdqa %ymm0, 320(%rsp)
vmovdqa 704(%rsi), %ymm0
vpaddw 96(%rsp), %ymm0, %ymm1
vpaddw 224(%rsp), %ymm7, %ymm2
vpaddw %ymm2, %ymm1, %ymm11
vpsubw %ymm2, %ymm1, %ymm15
vmovdqa %ymm0, 352(%rsp)
vmovdqa %ymm8, 576(%rax)
vmovdqa %ymm9, 640(%rax)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 704(%rax)
vmovdqa %ymm10, 768(%rax)
vmovdqa %ymm11, 832(%rax)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 896(%rax)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 960(%rax)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 1024(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1088(%rax)
vmovdqa %ymm12, 1152(%rax)
vmovdqa %ymm13, 1216(%rax)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 1280(%rax)
vmovdqa %ymm14, 1344(%rax)
vmovdqa %ymm15, 1408(%rax)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 1472(%rax)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 1536(%rax)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 1600(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1664(%rax)
vmovdqa 256(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm4, %ymm1
vpaddw 128(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm8
vpsubw %ymm1, %ymm0, %ymm12
vmovdqa 288(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm5, %ymm1
vpaddw 160(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm9
vpsubw %ymm1, %ymm0, %ymm13
vmovdqa 320(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm6, %ymm1
vpaddw 192(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm10
vpsubw %ymm1, %ymm0, %ymm14
vmovdqa 352(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm7, %ymm1
vpaddw 224(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm11
vpsubw %ymm1, %ymm0, %ymm15
vmovdqa %ymm8, 1728(%rax)
vmovdqa %ymm9, 1792(%rax)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 1856(%rax)
vmovdqa %ymm10, 1920(%rax)
vmovdqa %ymm11, 1984(%rax)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 2048(%rax)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 2112(%rax)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 2176(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2240(%rax)
vmovdqa %ymm12, 2304(%rax)
vmovdqa %ymm13, 2368(%rax)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 2432(%rax)
vmovdqa %ymm14, 2496(%rax)
vmovdqa %ymm15, 2560(%rax)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 2624(%rax)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 2688(%rax)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 2752(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2816(%rax)
vpmullw %ymm3, %ymm4, %ymm0
vpaddw 256(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 128(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm12
vpmullw %ymm3, %ymm5, %ymm0
vpaddw 288(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 160(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm13
vpmullw %ymm3, %ymm6, %ymm0
vpaddw 320(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 192(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm14
vpmullw %ymm3, %ymm7, %ymm0
vpaddw 352(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 224(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm15
vmovdqa %ymm12, 2880(%rax)
vmovdqa %ymm13, 2944(%rax)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 3008(%rax)
vmovdqa %ymm14, 3072(%rax)
vmovdqa %ymm15, 3136(%rax)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 3200(%rax)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 3264(%rax)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 3328(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 3392(%rax)
vmovdqa 32(%rsi), %ymm0
vmovdqa 96(%rsi), %ymm1
vmovdqa 160(%rsi), %ymm2
vmovdqa 224(%rsi), %ymm12
vmovdqa 800(%rsi), %ymm4
vmovdqa 864(%rsi), %ymm5
vmovdqa 928(%rsi), %ymm6
vmovdqa 992(%rsi), %ymm7
vpand mask_low13words(%rip), %ymm7, %ymm7
vmovdqa 288(%rsi), %ymm8
vmovdqa 352(%rsi), %ymm9
vmovdqa 416(%rsi), %ymm10
vmovdqa 480(%rsi), %ymm11
vmovdqa %ymm0, 32(%rax)
vmovdqa %ymm1, 96(%rax)
vpaddw %ymm0, %ymm1, %ymm14
vmovdqa %ymm14, 160(%rax)
vmovdqa %ymm2, 224(%rax)
vmovdqa %ymm12, 288(%rax)
vpaddw %ymm2, %ymm12, %ymm14
vmovdqa %ymm14, 352(%rax)
vpaddw %ymm0, %ymm2, %ymm14
vmovdqa %ymm14, 416(%rax)
vpaddw %ymm1, %ymm12, %ymm15
vmovdqa %ymm15, 480(%rax)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 544(%rax)
vmovdqa %ymm4, 3488(%rax)
vmovdqa %ymm5, 3552(%rax)
vpaddw %ymm4, %ymm5, %ymm14
vmovdqa %ymm14, 3616(%rax)
vmovdqa %ymm6, 3680(%rax)
vmovdqa %ymm7, 3744(%rax)
vpaddw %ymm6, %ymm7, %ymm14
vmovdqa %ymm14, 3808(%rax)
vpaddw %ymm4, %ymm6, %ymm14
vmovdqa %ymm14, 3872(%rax)
vpaddw %ymm5, %ymm7, %ymm15
vmovdqa %ymm15, 3936(%rax)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 4000(%rax)
vmovdqa %ymm0, 0(%rsp)
vmovdqa %ymm1, 32(%rsp)
vmovdqa %ymm2, 64(%rsp)
vmovdqa %ymm12, 96(%rsp)
vmovdqa %ymm8, 128(%rsp)
vmovdqa %ymm9, 160(%rsp)
vmovdqa %ymm10, 192(%rsp)
vmovdqa %ymm11, 224(%rsp)
vmovdqa 544(%rsi), %ymm0
vpaddw 0(%rsp), %ymm0, %ymm1
vpaddw 128(%rsp), %ymm4, %ymm2
vpaddw %ymm2, %ymm1, %ymm8
vpsubw %ymm2, %ymm1, %ymm12
vmovdqa %ymm0, 256(%rsp)
vmovdqa 608(%rsi), %ymm0
vpaddw 32(%rsp), %ymm0, %ymm1
vpaddw 160(%rsp), %ymm5, %ymm2
vpaddw %ymm2, %ymm1, %ymm9
vpsubw %ymm2, %ymm1, %ymm13
vmovdqa %ymm0, 288(%rsp)
vmovdqa 672(%rsi), %ymm0
vpaddw 64(%rsp), %ymm0, %ymm1
vpaddw 192(%rsp), %ymm6, %ymm2
vpaddw %ymm2, %ymm1, %ymm10
vpsubw %ymm2, %ymm1, %ymm14
vmovdqa %ymm0, 320(%rsp)
vmovdqa 736(%rsi), %ymm0
vpaddw 96(%rsp), %ymm0, %ymm1
vpaddw 224(%rsp), %ymm7, %ymm2
vpaddw %ymm2, %ymm1, %ymm11
vpsubw %ymm2, %ymm1, %ymm15
vmovdqa %ymm0, 352(%rsp)
vmovdqa %ymm8, 608(%rax)
vmovdqa %ymm9, 672(%rax)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 736(%rax)
vmovdqa %ymm10, 800(%rax)
vmovdqa %ymm11, 864(%rax)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 928(%rax)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 992(%rax)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 1056(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1120(%rax)
vmovdqa %ymm12, 1184(%rax)
vmovdqa %ymm13, 1248(%rax)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 1312(%rax)
vmovdqa %ymm14, 1376(%rax)
vmovdqa %ymm15, 1440(%rax)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 1504(%rax)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 1568(%rax)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 1632(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1696(%rax)
vmovdqa 256(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm4, %ymm1
vpaddw 128(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm8
vpsubw %ymm1, %ymm0, %ymm12
vmovdqa 288(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm5, %ymm1
vpaddw 160(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm9
vpsubw %ymm1, %ymm0, %ymm13
vmovdqa 320(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm6, %ymm1
vpaddw 192(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm10
vpsubw %ymm1, %ymm0, %ymm14
vmovdqa 352(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm7, %ymm1
vpaddw 224(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm11
vpsubw %ymm1, %ymm0, %ymm15
vmovdqa %ymm8, 1760(%rax)
vmovdqa %ymm9, 1824(%rax)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 1888(%rax)
vmovdqa %ymm10, 1952(%rax)
vmovdqa %ymm11, 2016(%rax)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 2080(%rax)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 2144(%rax)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 2208(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2272(%rax)
vmovdqa %ymm12, 2336(%rax)
vmovdqa %ymm13, 2400(%rax)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 2464(%rax)
vmovdqa %ymm14, 2528(%rax)
vmovdqa %ymm15, 2592(%rax)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 2656(%rax)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 2720(%rax)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 2784(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2848(%rax)
vpmullw %ymm3, %ymm4, %ymm0
vpaddw 256(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 128(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm12
vpmullw %ymm3, %ymm5, %ymm0
vpaddw 288(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 160(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm13
vpmullw %ymm3, %ymm6, %ymm0
vpaddw 320(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 192(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm14
vpmullw %ymm3, %ymm7, %ymm0
vpaddw 352(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 224(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm15
vmovdqa %ymm12, 2912(%rax)
vmovdqa %ymm13, 2976(%rax)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 3040(%rax)
vmovdqa %ymm14, 3104(%rax)
vmovdqa %ymm15, 3168(%rax)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 3232(%rax)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 3296(%rax)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 3360(%rax)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 3424(%rax)
vmovdqa 0(%rdx), %ymm0
vmovdqa 64(%rdx), %ymm1
vmovdqa 128(%rdx), %ymm2
vmovdqa 192(%rdx), %ymm12
vmovdqa 768(%rdx), %ymm4
vmovdqa 832(%rdx), %ymm5
vmovdqa 896(%rdx), %ymm6
vmovdqa 960(%rdx), %ymm7
vmovdqa 256(%rdx), %ymm8
vmovdqa 320(%rdx), %ymm9
vmovdqa 384(%rdx), %ymm10
vmovdqa 448(%rdx), %ymm11
vmovdqa %ymm0, 0(%r11)
vmovdqa %ymm1, 64(%r11)
vpaddw %ymm0, %ymm1, %ymm14
vmovdqa %ymm14, 128(%r11)
vmovdqa %ymm2, 192(%r11)
vmovdqa %ymm12, 256(%r11)
vpaddw %ymm2, %ymm12, %ymm14
vmovdqa %ymm14, 320(%r11)
vpaddw %ymm0, %ymm2, %ymm14
vmovdqa %ymm14, 384(%r11)
vpaddw %ymm1, %ymm12, %ymm15
vmovdqa %ymm15, 448(%r11)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 512(%r11)
vmovdqa %ymm4, 3456(%r11)
vmovdqa %ymm5, 3520(%r11)
vpaddw %ymm4, %ymm5, %ymm14
vmovdqa %ymm14, 3584(%r11)
vmovdqa %ymm6, 3648(%r11)
vmovdqa %ymm7, 3712(%r11)
vpaddw %ymm6, %ymm7, %ymm14
vmovdqa %ymm14, 3776(%r11)
vpaddw %ymm4, %ymm6, %ymm14
vmovdqa %ymm14, 3840(%r11)
vpaddw %ymm5, %ymm7, %ymm15
vmovdqa %ymm15, 3904(%r11)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 3968(%r11)
vmovdqa %ymm0, 0(%rsp)
vmovdqa %ymm1, 32(%rsp)
vmovdqa %ymm2, 64(%rsp)
vmovdqa %ymm12, 96(%rsp)
vmovdqa %ymm8, 128(%rsp)
vmovdqa %ymm9, 160(%rsp)
vmovdqa %ymm10, 192(%rsp)
vmovdqa %ymm11, 224(%rsp)
vmovdqa 512(%rdx), %ymm0
vpaddw 0(%rsp), %ymm0, %ymm1
vpaddw 128(%rsp), %ymm4, %ymm2
vpaddw %ymm2, %ymm1, %ymm8
vpsubw %ymm2, %ymm1, %ymm12
vmovdqa %ymm0, 256(%rsp)
vmovdqa 576(%rdx), %ymm0
vpaddw 32(%rsp), %ymm0, %ymm1
vpaddw 160(%rsp), %ymm5, %ymm2
vpaddw %ymm2, %ymm1, %ymm9
vpsubw %ymm2, %ymm1, %ymm13
vmovdqa %ymm0, 288(%rsp)
vmovdqa 640(%rdx), %ymm0
vpaddw 64(%rsp), %ymm0, %ymm1
vpaddw 192(%rsp), %ymm6, %ymm2
vpaddw %ymm2, %ymm1, %ymm10
vpsubw %ymm2, %ymm1, %ymm14
vmovdqa %ymm0, 320(%rsp)
vmovdqa 704(%rdx), %ymm0
vpaddw 96(%rsp), %ymm0, %ymm1
vpaddw 224(%rsp), %ymm7, %ymm2
vpaddw %ymm2, %ymm1, %ymm11
vpsubw %ymm2, %ymm1, %ymm15
vmovdqa %ymm0, 352(%rsp)
vmovdqa %ymm8, 576(%r11)
vmovdqa %ymm9, 640(%r11)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 704(%r11)
vmovdqa %ymm10, 768(%r11)
vmovdqa %ymm11, 832(%r11)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 896(%r11)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 960(%r11)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 1024(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1088(%r11)
vmovdqa %ymm12, 1152(%r11)
vmovdqa %ymm13, 1216(%r11)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 1280(%r11)
vmovdqa %ymm14, 1344(%r11)
vmovdqa %ymm15, 1408(%r11)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 1472(%r11)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 1536(%r11)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 1600(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1664(%r11)
vmovdqa 256(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm4, %ymm1
vpaddw 128(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm8
vpsubw %ymm1, %ymm0, %ymm12
vmovdqa 288(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm5, %ymm1
vpaddw 160(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm9
vpsubw %ymm1, %ymm0, %ymm13
vmovdqa 320(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm6, %ymm1
vpaddw 192(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm10
vpsubw %ymm1, %ymm0, %ymm14
vmovdqa 352(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm7, %ymm1
vpaddw 224(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm11
vpsubw %ymm1, %ymm0, %ymm15
vmovdqa %ymm8, 1728(%r11)
vmovdqa %ymm9, 1792(%r11)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 1856(%r11)
vmovdqa %ymm10, 1920(%r11)
vmovdqa %ymm11, 1984(%r11)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 2048(%r11)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 2112(%r11)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 2176(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2240(%r11)
vmovdqa %ymm12, 2304(%r11)
vmovdqa %ymm13, 2368(%r11)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 2432(%r11)
vmovdqa %ymm14, 2496(%r11)
vmovdqa %ymm15, 2560(%r11)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 2624(%r11)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 2688(%r11)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 2752(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2816(%r11)
vpmullw %ymm3, %ymm4, %ymm0
vpaddw 256(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 128(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm12
vpmullw %ymm3, %ymm5, %ymm0
vpaddw 288(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 160(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm13
vpmullw %ymm3, %ymm6, %ymm0
vpaddw 320(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 192(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm14
vpmullw %ymm3, %ymm7, %ymm0
vpaddw 352(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 224(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm15
vmovdqa %ymm12, 2880(%r11)
vmovdqa %ymm13, 2944(%r11)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 3008(%r11)
vmovdqa %ymm14, 3072(%r11)
vmovdqa %ymm15, 3136(%r11)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 3200(%r11)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 3264(%r11)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 3328(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 3392(%r11)
vmovdqa 32(%rdx), %ymm0
vmovdqa 96(%rdx), %ymm1
vmovdqa 160(%rdx), %ymm2
vmovdqa 224(%rdx), %ymm12
vmovdqa 800(%rdx), %ymm4
vmovdqa 864(%rdx), %ymm5
vmovdqa 928(%rdx), %ymm6
vmovdqa 992(%rdx), %ymm7
vpand mask_low13words(%rip), %ymm7, %ymm7
vmovdqa 288(%rdx), %ymm8
vmovdqa 352(%rdx), %ymm9
vmovdqa 416(%rdx), %ymm10
vmovdqa 480(%rdx), %ymm11
vmovdqa %ymm0, 32(%r11)
vmovdqa %ymm1, 96(%r11)
vpaddw %ymm0, %ymm1, %ymm14
vmovdqa %ymm14, 160(%r11)
vmovdqa %ymm2, 224(%r11)
vmovdqa %ymm12, 288(%r11)
vpaddw %ymm2, %ymm12, %ymm14
vmovdqa %ymm14, 352(%r11)
vpaddw %ymm0, %ymm2, %ymm14
vmovdqa %ymm14, 416(%r11)
vpaddw %ymm1, %ymm12, %ymm15
vmovdqa %ymm15, 480(%r11)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 544(%r11)
vmovdqa %ymm4, 3488(%r11)
vmovdqa %ymm5, 3552(%r11)
vpaddw %ymm4, %ymm5, %ymm14
vmovdqa %ymm14, 3616(%r11)
vmovdqa %ymm6, 3680(%r11)
vmovdqa %ymm7, 3744(%r11)
vpaddw %ymm6, %ymm7, %ymm14
vmovdqa %ymm14, 3808(%r11)
vpaddw %ymm4, %ymm6, %ymm14
vmovdqa %ymm14, 3872(%r11)
vpaddw %ymm5, %ymm7, %ymm15
vmovdqa %ymm15, 3936(%r11)
vpaddw %ymm14, %ymm15, %ymm14
vmovdqa %ymm14, 4000(%r11)
vmovdqa %ymm0, 0(%rsp)
vmovdqa %ymm1, 32(%rsp)
vmovdqa %ymm2, 64(%rsp)
vmovdqa %ymm12, 96(%rsp)
vmovdqa %ymm8, 128(%rsp)
vmovdqa %ymm9, 160(%rsp)
vmovdqa %ymm10, 192(%rsp)
vmovdqa %ymm11, 224(%rsp)
vmovdqa 544(%rdx), %ymm0
vpaddw 0(%rsp), %ymm0, %ymm1
vpaddw 128(%rsp), %ymm4, %ymm2
vpaddw %ymm2, %ymm1, %ymm8
vpsubw %ymm2, %ymm1, %ymm12
vmovdqa %ymm0, 256(%rsp)
vmovdqa 608(%rdx), %ymm0
vpaddw 32(%rsp), %ymm0, %ymm1
vpaddw 160(%rsp), %ymm5, %ymm2
vpaddw %ymm2, %ymm1, %ymm9
vpsubw %ymm2, %ymm1, %ymm13
vmovdqa %ymm0, 288(%rsp)
vmovdqa 672(%rdx), %ymm0
vpaddw 64(%rsp), %ymm0, %ymm1
vpaddw 192(%rsp), %ymm6, %ymm2
vpaddw %ymm2, %ymm1, %ymm10
vpsubw %ymm2, %ymm1, %ymm14
vmovdqa %ymm0, 320(%rsp)
vmovdqa 736(%rdx), %ymm0
vpaddw 96(%rsp), %ymm0, %ymm1
vpaddw 224(%rsp), %ymm7, %ymm2
vpaddw %ymm2, %ymm1, %ymm11
vpsubw %ymm2, %ymm1, %ymm15
vmovdqa %ymm0, 352(%rsp)
vmovdqa %ymm8, 608(%r11)
vmovdqa %ymm9, 672(%r11)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 736(%r11)
vmovdqa %ymm10, 800(%r11)
vmovdqa %ymm11, 864(%r11)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 928(%r11)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 992(%r11)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 1056(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1120(%r11)
vmovdqa %ymm12, 1184(%r11)
vmovdqa %ymm13, 1248(%r11)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 1312(%r11)
vmovdqa %ymm14, 1376(%r11)
vmovdqa %ymm15, 1440(%r11)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 1504(%r11)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 1568(%r11)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 1632(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 1696(%r11)
vmovdqa 256(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm4, %ymm1
vpaddw 128(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm8
vpsubw %ymm1, %ymm0, %ymm12
vmovdqa 288(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm5, %ymm1
vpaddw 160(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm9
vpsubw %ymm1, %ymm0, %ymm13
vmovdqa 320(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm6, %ymm1
vpaddw 192(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm10
vpsubw %ymm1, %ymm0, %ymm14
vmovdqa 352(%rsp), %ymm0
vpsllw $2, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm0
vpsllw $2, %ymm7, %ymm1
vpaddw 224(%rsp), %ymm1, %ymm1
vpsllw $1, %ymm1, %ymm1
vpaddw %ymm1, %ymm0, %ymm11
vpsubw %ymm1, %ymm0, %ymm15
vmovdqa %ymm8, 1760(%r11)
vmovdqa %ymm9, 1824(%r11)
vpaddw %ymm8, %ymm9, %ymm0
vmovdqa %ymm0, 1888(%r11)
vmovdqa %ymm10, 1952(%r11)
vmovdqa %ymm11, 2016(%r11)
vpaddw %ymm10, %ymm11, %ymm0
vmovdqa %ymm0, 2080(%r11)
vpaddw %ymm8, %ymm10, %ymm0
vmovdqa %ymm0, 2144(%r11)
vpaddw %ymm9, %ymm11, %ymm1
vmovdqa %ymm1, 2208(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2272(%r11)
vmovdqa %ymm12, 2336(%r11)
vmovdqa %ymm13, 2400(%r11)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 2464(%r11)
vmovdqa %ymm14, 2528(%r11)
vmovdqa %ymm15, 2592(%r11)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 2656(%r11)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 2720(%r11)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 2784(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 2848(%r11)
vpmullw %ymm3, %ymm4, %ymm0
vpaddw 256(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 128(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 0(%rsp), %ymm0, %ymm12
vpmullw %ymm3, %ymm5, %ymm0
vpaddw 288(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 160(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 32(%rsp), %ymm0, %ymm13
vpmullw %ymm3, %ymm6, %ymm0
vpaddw 320(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 192(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 64(%rsp), %ymm0, %ymm14
vpmullw %ymm3, %ymm7, %ymm0
vpaddw 352(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 224(%rsp), %ymm0, %ymm0
vpmullw %ymm3, %ymm0, %ymm0
vpaddw 96(%rsp), %ymm0, %ymm15
vmovdqa %ymm12, 2912(%r11)
vmovdqa %ymm13, 2976(%r11)
vpaddw %ymm12, %ymm13, %ymm0
vmovdqa %ymm0, 3040(%r11)
vmovdqa %ymm14, 3104(%r11)
vmovdqa %ymm15, 3168(%r11)
vpaddw %ymm14, %ymm15, %ymm0
vmovdqa %ymm0, 3232(%r11)
vpaddw %ymm12, %ymm14, %ymm0
vmovdqa %ymm0, 3296(%r11)
vpaddw %ymm13, %ymm15, %ymm1
vmovdqa %ymm1, 3360(%r11)
vpaddw %ymm0, %ymm1, %ymm0
vmovdqa %ymm0, 3424(%r11)
subq $6656, %rsp
mov $4, %ecx
karatsuba_loop_1:
mov %rsp, %r9
mov %rsp, %r10
subq $32, %rsp
vmovdqa 0(%rax), %ymm0
vmovdqa 128(%rax), %ymm1
vmovdqa 256(%rax), %ymm2
vmovdqa 384(%rax), %ymm3
vpunpcklwd 64(%rax), %ymm0, %ymm4
vpunpckhwd 64(%rax), %ymm0, %ymm5
vpunpcklwd 192(%rax), %ymm1, %ymm6
vpunpckhwd 192(%rax), %ymm1, %ymm7
vpunpcklwd 320(%rax), %ymm2, %ymm8
vpunpckhwd 320(%rax), %ymm2, %ymm9
vpunpcklwd 448(%rax), %ymm3, %ymm10
vpunpckhwd 448(%rax), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 512(%rax), %ymm0
vmovdqa 640(%rax), %ymm1
vmovdqa 768(%rax), %ymm2
vmovdqa 896(%rax), %ymm3
vpunpcklwd 576(%rax), %ymm0, %ymm12
vpunpckhwd 576(%rax), %ymm0, %ymm13
vpunpcklwd 704(%rax), %ymm1, %ymm14
vpunpckhwd 704(%rax), %ymm1, %ymm15
vpunpcklwd 832(%rax), %ymm2, %ymm0
vpunpckhwd 832(%rax), %ymm2, %ymm1
vpunpcklwd 960(%rax), %ymm3, %ymm2
vpunpckhwd 960(%rax), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 0(%r9)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 32(%r9)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 64(%r9)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 96(%r9)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 128(%r9)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 160(%r9)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 192(%r9)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 256(%r9)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 288(%r9)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 320(%r9)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 352(%r9)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 384(%r9)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 416(%r9)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 448(%r9)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 224(%r9)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 480(%r9)
vmovdqa 32(%rax), %ymm0
vmovdqa 160(%rax), %ymm1
vmovdqa 288(%rax), %ymm2
vmovdqa 416(%rax), %ymm3
vpunpcklwd 96(%rax), %ymm0, %ymm4
vpunpckhwd 96(%rax), %ymm0, %ymm5
vpunpcklwd 224(%rax), %ymm1, %ymm6
vpunpckhwd 224(%rax), %ymm1, %ymm7
vpunpcklwd 352(%rax), %ymm2, %ymm8
vpunpckhwd 352(%rax), %ymm2, %ymm9
vpunpcklwd 480(%rax), %ymm3, %ymm10
vpunpckhwd 480(%rax), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 544(%rax), %ymm0
vmovdqa 672(%rax), %ymm1
vmovdqa 800(%rax), %ymm2
vmovdqa 928(%rax), %ymm3
vpunpcklwd 608(%rax), %ymm0, %ymm12
vpunpckhwd 608(%rax), %ymm0, %ymm13
vpunpcklwd 736(%rax), %ymm1, %ymm14
vpunpckhwd 736(%rax), %ymm1, %ymm15
vpunpcklwd 864(%rax), %ymm2, %ymm0
vpunpckhwd 864(%rax), %ymm2, %ymm1
vpunpcklwd 992(%rax), %ymm3, %ymm2
vpunpckhwd 992(%rax), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 512(%r9)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 544(%r9)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 576(%r9)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 608(%r9)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 640(%r9)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 672(%r9)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 704(%r9)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 768(%r9)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 800(%r9)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 832(%r9)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 864(%r9)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 896(%r9)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 928(%r9)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 960(%r9)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 736(%r9)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 992(%r9)
addq $32, %rsp
subq $32, %rsp
vmovdqa 0(%r11), %ymm0
vmovdqa 128(%r11), %ymm1
vmovdqa 256(%r11), %ymm2
vmovdqa 384(%r11), %ymm3
vpunpcklwd 64(%r11), %ymm0, %ymm4
vpunpckhwd 64(%r11), %ymm0, %ymm5
vpunpcklwd 192(%r11), %ymm1, %ymm6
vpunpckhwd 192(%r11), %ymm1, %ymm7
vpunpcklwd 320(%r11), %ymm2, %ymm8
vpunpckhwd 320(%r11), %ymm2, %ymm9
vpunpcklwd 448(%r11), %ymm3, %ymm10
vpunpckhwd 448(%r11), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 512(%r11), %ymm0
vmovdqa 640(%r11), %ymm1
vmovdqa 768(%r11), %ymm2
vmovdqa 896(%r11), %ymm3
vpunpcklwd 576(%r11), %ymm0, %ymm12
vpunpckhwd 576(%r11), %ymm0, %ymm13
vpunpcklwd 704(%r11), %ymm1, %ymm14
vpunpckhwd 704(%r11), %ymm1, %ymm15
vpunpcklwd 832(%r11), %ymm2, %ymm0
vpunpckhwd 832(%r11), %ymm2, %ymm1
vpunpcklwd 960(%r11), %ymm3, %ymm2
vpunpckhwd 960(%r11), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 1024(%r9)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 1056(%r9)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 1088(%r9)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 1120(%r9)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 1152(%r9)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 1184(%r9)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 1216(%r9)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 1280(%r9)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 1312(%r9)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 1344(%r9)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 1376(%r9)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 1408(%r9)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 1440(%r9)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 1472(%r9)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 1248(%r9)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 1504(%r9)
vmovdqa 32(%r11), %ymm0
vmovdqa 160(%r11), %ymm1
vmovdqa 288(%r11), %ymm2
vmovdqa 416(%r11), %ymm3
vpunpcklwd 96(%r11), %ymm0, %ymm4
vpunpckhwd 96(%r11), %ymm0, %ymm5
vpunpcklwd 224(%r11), %ymm1, %ymm6
vpunpckhwd 224(%r11), %ymm1, %ymm7
vpunpcklwd 352(%r11), %ymm2, %ymm8
vpunpckhwd 352(%r11), %ymm2, %ymm9
vpunpcklwd 480(%r11), %ymm3, %ymm10
vpunpckhwd 480(%r11), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 544(%r11), %ymm0
vmovdqa 672(%r11), %ymm1
vmovdqa 800(%r11), %ymm2
vmovdqa 928(%r11), %ymm3
vpunpcklwd 608(%r11), %ymm0, %ymm12
vpunpckhwd 608(%r11), %ymm0, %ymm13
vpunpcklwd 736(%r11), %ymm1, %ymm14
vpunpckhwd 736(%r11), %ymm1, %ymm15
vpunpcklwd 864(%r11), %ymm2, %ymm0
vpunpckhwd 864(%r11), %ymm2, %ymm1
vpunpcklwd 992(%r11), %ymm3, %ymm2
vpunpckhwd 992(%r11), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 1536(%r9)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 1568(%r9)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 1600(%r9)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 1632(%r9)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 1664(%r9)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 1696(%r9)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 1728(%r9)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 1792(%r9)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 1824(%r9)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 1856(%r9)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 1888(%r9)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 1920(%r9)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 1952(%r9)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 1984(%r9)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 1760(%r9)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 2016(%r9)
addq $32, %rsp
innerloop_1:
vmovdqa 0(%r9), %ymm0
vmovdqa 1024(%r9), %ymm4
vmovdqa 32(%r9), %ymm1
vmovdqa 1056(%r9), %ymm5
vmovdqa 64(%r9), %ymm2
vmovdqa 1088(%r9), %ymm6
vmovdqa 96(%r9), %ymm3
vmovdqa 1120(%r9), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 2048(%r10)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2080(%r10)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2112(%r10)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2144(%r10)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2176(%r10)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2208(%r10)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 2240(%r10)
vmovdqa 128(%r9), %ymm0
vmovdqa 1152(%r9), %ymm4
vmovdqa 160(%r9), %ymm1
vmovdqa 1184(%r9), %ymm5
vmovdqa 192(%r9), %ymm2
vmovdqa 1216(%r9), %ymm6
vmovdqa 224(%r9), %ymm3
vmovdqa 1248(%r9), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 2304(%r10)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2336(%r10)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2368(%r10)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2400(%r10)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2432(%r10)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2464(%r10)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 2496(%r10)
vpaddw 0(%r9), %ymm0, %ymm0
vpaddw 1024(%r9), %ymm4, %ymm4
vpaddw 32(%r9), %ymm1, %ymm1
vpaddw 1056(%r9), %ymm5, %ymm5
vpaddw 64(%r9), %ymm2, %ymm2
vpaddw 1088(%r9), %ymm6, %ymm6
vpaddw 96(%r9), %ymm3, %ymm3
vpaddw 1120(%r9), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm9
vpmullw %ymm0, %ymm5, %ymm10
vpmullw %ymm1, %ymm4, %ymm8
vpaddw %ymm8, %ymm10, %ymm10
vpmullw %ymm0, %ymm6, %ymm11
vpmullw %ymm1, %ymm5, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm2, %ymm4, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm0, %ymm7, %ymm12
vpmullw %ymm1, %ymm6, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm2, %ymm5, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm3, %ymm4, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm1, %ymm7, %ymm13
vpmullw %ymm2, %ymm6, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm3, %ymm5, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm2, %ymm7, %ymm14
vpmullw %ymm3, %ymm6, %ymm8
vpaddw %ymm8, %ymm14, %ymm14
vpmullw %ymm3, %ymm7, %ymm15
vpsubw 2048(%r10), %ymm9, %ymm9
vmovdqa 2304(%r10), %ymm3
vpsubw %ymm3, %ymm9, %ymm9
vpsubw 2080(%r10), %ymm10, %ymm10
vmovdqa 2336(%r10), %ymm4
vpsubw %ymm4, %ymm10, %ymm10
vpsubw 2112(%r10), %ymm11, %ymm11
vmovdqa 2368(%r10), %ymm5
vpsubw %ymm5, %ymm11, %ymm11
vpsubw 2144(%r10), %ymm12, %ymm12
vpsubw 2400(%r10), %ymm12, %ymm12
vmovdqa 2176(%r10), %ymm0
vpsubw %ymm0, %ymm13, %ymm13
vpsubw 2432(%r10), %ymm13, %ymm13
vmovdqa 2208(%r10), %ymm1
vpsubw %ymm1, %ymm14, %ymm14
vpsubw 2464(%r10), %ymm14, %ymm14
vmovdqa 2240(%r10), %ymm2
vpsubw %ymm2, %ymm15, %ymm15
vpsubw 2496(%r10), %ymm15, %ymm15
vpaddw %ymm0, %ymm9, %ymm9
vmovdqa %ymm9, 2176(%r10)
vpaddw %ymm1, %ymm10, %ymm10
vmovdqa %ymm10, 2208(%r10)
vpaddw %ymm2, %ymm11, %ymm11
vmovdqa %ymm11, 2240(%r10)
vmovdqa %ymm12, 2272(%r10)
vpaddw %ymm3, %ymm13, %ymm13
vmovdqa %ymm13, 2304(%r10)
vpaddw %ymm4, %ymm14, %ymm14
vmovdqa %ymm14, 2336(%r10)
vpaddw %ymm5, %ymm15, %ymm15
vmovdqa %ymm15, 2368(%r10)
vmovdqa 256(%r9), %ymm0
vmovdqa 1280(%r9), %ymm4
vmovdqa 288(%r9), %ymm1
vmovdqa 1312(%r9), %ymm5
vmovdqa 320(%r9), %ymm2
vmovdqa 1344(%r9), %ymm6
vmovdqa 352(%r9), %ymm3
vmovdqa 1376(%r9), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 2560(%r10)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2592(%r10)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2624(%r10)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2656(%r10)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2688(%r10)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2720(%r10)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 2752(%r10)
vmovdqa 384(%r9), %ymm0
vmovdqa 1408(%r9), %ymm4
vmovdqa 416(%r9), %ymm1
vmovdqa 1440(%r9), %ymm5
vmovdqa 448(%r9), %ymm2
vmovdqa 1472(%r9), %ymm6
vmovdqa 480(%r9), %ymm3
vmovdqa 1504(%r9), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 2816(%r10)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2848(%r10)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2880(%r10)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2912(%r10)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 2944(%r10)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 2976(%r10)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 3008(%r10)
vpaddw 256(%r9), %ymm0, %ymm0
vpaddw 1280(%r9), %ymm4, %ymm4
vpaddw 288(%r9), %ymm1, %ymm1
vpaddw 1312(%r9), %ymm5, %ymm5
vpaddw 320(%r9), %ymm2, %ymm2
vpaddw 1344(%r9), %ymm6, %ymm6
vpaddw 352(%r9), %ymm3, %ymm3
vpaddw 1376(%r9), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm9
vpmullw %ymm0, %ymm5, %ymm10
vpmullw %ymm1, %ymm4, %ymm8
vpaddw %ymm8, %ymm10, %ymm10
vpmullw %ymm0, %ymm6, %ymm11
vpmullw %ymm1, %ymm5, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm2, %ymm4, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm0, %ymm7, %ymm12
vpmullw %ymm1, %ymm6, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm2, %ymm5, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm3, %ymm4, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm1, %ymm7, %ymm13
vpmullw %ymm2, %ymm6, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm3, %ymm5, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm2, %ymm7, %ymm14
vpmullw %ymm3, %ymm6, %ymm8
vpaddw %ymm8, %ymm14, %ymm14
vpmullw %ymm3, %ymm7, %ymm15
vpsubw 2560(%r10), %ymm9, %ymm9
vmovdqa 2816(%r10), %ymm3
vpsubw %ymm3, %ymm9, %ymm9
vpsubw 2592(%r10), %ymm10, %ymm10
vmovdqa 2848(%r10), %ymm4
vpsubw %ymm4, %ymm10, %ymm10
vpsubw 2624(%r10), %ymm11, %ymm11
vmovdqa 2880(%r10), %ymm5
vpsubw %ymm5, %ymm11, %ymm11
vpsubw 2656(%r10), %ymm12, %ymm12
vpsubw 2912(%r10), %ymm12, %ymm12
vmovdqa 2688(%r10), %ymm0
vpsubw %ymm0, %ymm13, %ymm13
vpsubw 2944(%r10), %ymm13, %ymm13
vmovdqa 2720(%r10), %ymm1
vpsubw %ymm1, %ymm14, %ymm14
vpsubw 2976(%r10), %ymm14, %ymm14
vmovdqa 2752(%r10), %ymm2
vpsubw %ymm2, %ymm15, %ymm15
vpsubw 3008(%r10), %ymm15, %ymm15
vpaddw %ymm0, %ymm9, %ymm9
vmovdqa %ymm9, 2688(%r10)
vpaddw %ymm1, %ymm10, %ymm10
vmovdqa %ymm10, 2720(%r10)
vpaddw %ymm2, %ymm11, %ymm11
vmovdqa %ymm11, 2752(%r10)
vmovdqa %ymm12, 2784(%r10)
vpaddw %ymm3, %ymm13, %ymm13
vmovdqa %ymm13, 2816(%r10)
vpaddw %ymm4, %ymm14, %ymm14
vmovdqa %ymm14, 2848(%r10)
vpaddw %ymm5, %ymm15, %ymm15
vmovdqa %ymm15, 2880(%r10)
vmovdqa 0(%r9), %ymm0
vmovdqa 1024(%r9), %ymm4
vpaddw 256(%r9), %ymm0, %ymm0
vpaddw 1280(%r9), %ymm4, %ymm4
vmovdqa 32(%r9), %ymm1
vmovdqa 1056(%r9), %ymm5
vpaddw 288(%r9), %ymm1, %ymm1
vpaddw 1312(%r9), %ymm5, %ymm5
vmovdqa 64(%r9), %ymm2
vmovdqa 1088(%r9), %ymm6
vpaddw 320(%r9), %ymm2, %ymm2
vpaddw 1344(%r9), %ymm6, %ymm6
vmovdqa 96(%r9), %ymm3
vmovdqa 1120(%r9), %ymm7
vpaddw 352(%r9), %ymm3, %ymm3
vpaddw 1376(%r9), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 4096(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4128(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4160(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4192(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4224(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4256(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 4288(%rsp)
vmovdqa 128(%r9), %ymm0
vmovdqa 1152(%r9), %ymm4
vpaddw 384(%r9), %ymm0, %ymm0
vpaddw 1408(%r9), %ymm4, %ymm4
vmovdqa 160(%r9), %ymm1
vmovdqa 1184(%r9), %ymm5
vpaddw 416(%r9), %ymm1, %ymm1
vpaddw 1440(%r9), %ymm5, %ymm5
vmovdqa 192(%r9), %ymm2
vmovdqa 1216(%r9), %ymm6
vpaddw 448(%r9), %ymm2, %ymm2
vpaddw 1472(%r9), %ymm6, %ymm6
vmovdqa 224(%r9), %ymm3
vmovdqa 1248(%r9), %ymm7
vpaddw 480(%r9), %ymm3, %ymm3
vpaddw 1504(%r9), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 4352(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4384(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4416(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4448(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4480(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4512(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 4544(%rsp)
vpaddw 0(%r9), %ymm0, %ymm0
vpaddw 1024(%r9), %ymm4, %ymm4
vpaddw 256(%r9), %ymm0, %ymm0
vpaddw 1280(%r9), %ymm4, %ymm4
vpaddw 32(%r9), %ymm1, %ymm1
vpaddw 1056(%r9), %ymm5, %ymm5
vpaddw 288(%r9), %ymm1, %ymm1
vpaddw 1312(%r9), %ymm5, %ymm5
vpaddw 64(%r9), %ymm2, %ymm2
vpaddw 1088(%r9), %ymm6, %ymm6
vpaddw 320(%r9), %ymm2, %ymm2
vpaddw 1344(%r9), %ymm6, %ymm6
vpaddw 96(%r9), %ymm3, %ymm3
vpaddw 1120(%r9), %ymm7, %ymm7
vpaddw 352(%r9), %ymm3, %ymm3
vpaddw 1376(%r9), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm9
vpmullw %ymm0, %ymm5, %ymm10
vpmullw %ymm1, %ymm4, %ymm8
vpaddw %ymm8, %ymm10, %ymm10
vpmullw %ymm0, %ymm6, %ymm11
vpmullw %ymm1, %ymm5, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm2, %ymm4, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm0, %ymm7, %ymm12
vpmullw %ymm1, %ymm6, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm2, %ymm5, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm3, %ymm4, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm1, %ymm7, %ymm13
vpmullw %ymm2, %ymm6, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm3, %ymm5, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm2, %ymm7, %ymm14
vpmullw %ymm3, %ymm6, %ymm8
vpaddw %ymm8, %ymm14, %ymm14
vpmullw %ymm3, %ymm7, %ymm15
vpsubw 4096(%rsp), %ymm9, %ymm9
vmovdqa 4352(%rsp), %ymm3
vpsubw %ymm3, %ymm9, %ymm9
vpsubw 4128(%rsp), %ymm10, %ymm10
vmovdqa 4384(%rsp), %ymm4
vpsubw %ymm4, %ymm10, %ymm10
vpsubw 4160(%rsp), %ymm11, %ymm11
vmovdqa 4416(%rsp), %ymm5
vpsubw %ymm5, %ymm11, %ymm11
vpsubw 4192(%rsp), %ymm12, %ymm12
vpsubw 4448(%rsp), %ymm12, %ymm12
vmovdqa 4224(%rsp), %ymm0
vpsubw %ymm0, %ymm13, %ymm13
vpsubw 4480(%rsp), %ymm13, %ymm13
vmovdqa 4256(%rsp), %ymm1
vpsubw %ymm1, %ymm14, %ymm14
vpsubw 4512(%rsp), %ymm14, %ymm14
vmovdqa 4288(%rsp), %ymm2
vpsubw %ymm2, %ymm15, %ymm15
vpsubw 4544(%rsp), %ymm15, %ymm15
vpaddw %ymm0, %ymm9, %ymm9
vmovdqa %ymm9, 4224(%rsp)
vpaddw %ymm1, %ymm10, %ymm10
vmovdqa %ymm10, 4256(%rsp)
vpaddw %ymm2, %ymm11, %ymm11
vmovdqa %ymm11, 4288(%rsp)
vmovdqa %ymm12, 4320(%rsp)
vpaddw %ymm3, %ymm13, %ymm13
vmovdqa %ymm13, 4352(%rsp)
vpaddw %ymm4, %ymm14, %ymm14
vmovdqa %ymm14, 4384(%rsp)
vpaddw %ymm5, %ymm15, %ymm15
vmovdqa %ymm15, 4416(%rsp)
vmovdqa 4320(%rsp), %ymm0
vpsubw 2272(%r10), %ymm0, %ymm0
vpsubw 2784(%r10), %ymm0, %ymm0
vmovdqa %ymm0, 2528(%r10)
vmovdqa 2304(%r10), %ymm0
vpsubw 2560(%r10), %ymm0, %ymm0
vmovdqa 4352(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2816(%r10), %ymm1, %ymm1
vpsubw 2048(%r10), %ymm0, %ymm0
vpaddw 4096(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2304(%r10)
vmovdqa %ymm1, 2560(%r10)
vmovdqa 2336(%r10), %ymm0
vpsubw 2592(%r10), %ymm0, %ymm0
vmovdqa 4384(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2848(%r10), %ymm1, %ymm1
vpsubw 2080(%r10), %ymm0, %ymm0
vpaddw 4128(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2336(%r10)
vmovdqa %ymm1, 2592(%r10)
vmovdqa 2368(%r10), %ymm0
vpsubw 2624(%r10), %ymm0, %ymm0
vmovdqa 4416(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2880(%r10), %ymm1, %ymm1
vpsubw 2112(%r10), %ymm0, %ymm0
vpaddw 4160(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2368(%r10)
vmovdqa %ymm1, 2624(%r10)
vmovdqa 2400(%r10), %ymm0
vpsubw 2656(%r10), %ymm0, %ymm0
vmovdqa 4448(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2912(%r10), %ymm1, %ymm1
vpsubw 2144(%r10), %ymm0, %ymm0
vpaddw 4192(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2400(%r10)
vmovdqa %ymm1, 2656(%r10)
vmovdqa 2432(%r10), %ymm0
vpsubw 2688(%r10), %ymm0, %ymm0
vmovdqa 4480(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2944(%r10), %ymm1, %ymm1
vpsubw 2176(%r10), %ymm0, %ymm0
vpaddw 4224(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2432(%r10)
vmovdqa %ymm1, 2688(%r10)
vmovdqa 2464(%r10), %ymm0
vpsubw 2720(%r10), %ymm0, %ymm0
vmovdqa 4512(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2976(%r10), %ymm1, %ymm1
vpsubw 2208(%r10), %ymm0, %ymm0
vpaddw 4256(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2464(%r10)
vmovdqa %ymm1, 2720(%r10)
vmovdqa 2496(%r10), %ymm0
vpsubw 2752(%r10), %ymm0, %ymm0
vmovdqa 4544(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3008(%r10), %ymm1, %ymm1
vpsubw 2240(%r10), %ymm0, %ymm0
vpaddw 4288(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2496(%r10)
vmovdqa %ymm1, 2752(%r10)
neg %ecx
jns done_1
add $512, %r9
add $1024, %r10
jmp innerloop_1
done_1:
sub $512, %r9
sub $1024, %r10
vmovdqa 0(%r9), %ymm0
vpaddw 512(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4608(%rsp)
vmovdqa 1024(%r9), %ymm0
vpaddw 1536(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5120(%rsp)
vmovdqa 32(%r9), %ymm0
vpaddw 544(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4640(%rsp)
vmovdqa 1056(%r9), %ymm0
vpaddw 1568(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5152(%rsp)
vmovdqa 64(%r9), %ymm0
vpaddw 576(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4672(%rsp)
vmovdqa 1088(%r9), %ymm0
vpaddw 1600(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5184(%rsp)
vmovdqa 96(%r9), %ymm0
vpaddw 608(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4704(%rsp)
vmovdqa 1120(%r9), %ymm0
vpaddw 1632(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5216(%rsp)
vmovdqa 128(%r9), %ymm0
vpaddw 640(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4736(%rsp)
vmovdqa 1152(%r9), %ymm0
vpaddw 1664(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5248(%rsp)
vmovdqa 160(%r9), %ymm0
vpaddw 672(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4768(%rsp)
vmovdqa 1184(%r9), %ymm0
vpaddw 1696(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5280(%rsp)
vmovdqa 192(%r9), %ymm0
vpaddw 704(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4800(%rsp)
vmovdqa 1216(%r9), %ymm0
vpaddw 1728(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5312(%rsp)
vmovdqa 224(%r9), %ymm0
vpaddw 736(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4832(%rsp)
vmovdqa 1248(%r9), %ymm0
vpaddw 1760(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5344(%rsp)
vmovdqa 256(%r9), %ymm0
vpaddw 768(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4864(%rsp)
vmovdqa 1280(%r9), %ymm0
vpaddw 1792(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5376(%rsp)
vmovdqa 288(%r9), %ymm0
vpaddw 800(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4896(%rsp)
vmovdqa 1312(%r9), %ymm0
vpaddw 1824(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5408(%rsp)
vmovdqa 320(%r9), %ymm0
vpaddw 832(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4928(%rsp)
vmovdqa 1344(%r9), %ymm0
vpaddw 1856(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5440(%rsp)
vmovdqa 352(%r9), %ymm0
vpaddw 864(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4960(%rsp)
vmovdqa 1376(%r9), %ymm0
vpaddw 1888(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5472(%rsp)
vmovdqa 384(%r9), %ymm0
vpaddw 896(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 4992(%rsp)
vmovdqa 1408(%r9), %ymm0
vpaddw 1920(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5504(%rsp)
vmovdqa 416(%r9), %ymm0
vpaddw 928(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5024(%rsp)
vmovdqa 1440(%r9), %ymm0
vpaddw 1952(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5536(%rsp)
vmovdqa 448(%r9), %ymm0
vpaddw 960(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5056(%rsp)
vmovdqa 1472(%r9), %ymm0
vpaddw 1984(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5568(%rsp)
vmovdqa 480(%r9), %ymm0
vpaddw 992(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5088(%rsp)
vmovdqa 1504(%r9), %ymm0
vpaddw 2016(%r9), %ymm0, %ymm0
vmovdqa %ymm0, 5600(%rsp)
vmovdqa 4608(%rsp), %ymm0
vmovdqa 5120(%rsp), %ymm4
vmovdqa 4640(%rsp), %ymm1
vmovdqa 5152(%rsp), %ymm5
vmovdqa 4672(%rsp), %ymm2
vmovdqa 5184(%rsp), %ymm6
vmovdqa 4704(%rsp), %ymm3
vmovdqa 5216(%rsp), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 5632(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 5664(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 5696(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 5728(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 5760(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 5792(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 5824(%rsp)
vmovdqa 4736(%rsp), %ymm0
vmovdqa 5248(%rsp), %ymm4
vmovdqa 4768(%rsp), %ymm1
vmovdqa 5280(%rsp), %ymm5
vmovdqa 4800(%rsp), %ymm2
vmovdqa 5312(%rsp), %ymm6
vmovdqa 4832(%rsp), %ymm3
vmovdqa 5344(%rsp), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 5888(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 5920(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 5952(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 5984(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 6016(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 6048(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 6080(%rsp)
vpaddw 4608(%rsp), %ymm0, %ymm0
vpaddw 5120(%rsp), %ymm4, %ymm4
vpaddw 4640(%rsp), %ymm1, %ymm1
vpaddw 5152(%rsp), %ymm5, %ymm5
vpaddw 4672(%rsp), %ymm2, %ymm2
vpaddw 5184(%rsp), %ymm6, %ymm6
vpaddw 4704(%rsp), %ymm3, %ymm3
vpaddw 5216(%rsp), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm9
vpmullw %ymm0, %ymm5, %ymm10
vpmullw %ymm1, %ymm4, %ymm8
vpaddw %ymm8, %ymm10, %ymm10
vpmullw %ymm0, %ymm6, %ymm11
vpmullw %ymm1, %ymm5, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm2, %ymm4, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm0, %ymm7, %ymm12
vpmullw %ymm1, %ymm6, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm2, %ymm5, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm3, %ymm4, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm1, %ymm7, %ymm13
vpmullw %ymm2, %ymm6, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm3, %ymm5, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm2, %ymm7, %ymm14
vpmullw %ymm3, %ymm6, %ymm8
vpaddw %ymm8, %ymm14, %ymm14
vpmullw %ymm3, %ymm7, %ymm15
vpsubw 5632(%rsp), %ymm9, %ymm9
vmovdqa 5888(%rsp), %ymm3
vpsubw %ymm3, %ymm9, %ymm9
vpsubw 5664(%rsp), %ymm10, %ymm10
vmovdqa 5920(%rsp), %ymm4
vpsubw %ymm4, %ymm10, %ymm10
vpsubw 5696(%rsp), %ymm11, %ymm11
vmovdqa 5952(%rsp), %ymm5
vpsubw %ymm5, %ymm11, %ymm11
vpsubw 5728(%rsp), %ymm12, %ymm12
vpsubw 5984(%rsp), %ymm12, %ymm12
vmovdqa 5760(%rsp), %ymm0
vpsubw %ymm0, %ymm13, %ymm13
vpsubw 6016(%rsp), %ymm13, %ymm13
vmovdqa 5792(%rsp), %ymm1
vpsubw %ymm1, %ymm14, %ymm14
vpsubw 6048(%rsp), %ymm14, %ymm14
vmovdqa 5824(%rsp), %ymm2
vpsubw %ymm2, %ymm15, %ymm15
vpsubw 6080(%rsp), %ymm15, %ymm15
vpaddw %ymm0, %ymm9, %ymm9
vmovdqa %ymm9, 5760(%rsp)
vpaddw %ymm1, %ymm10, %ymm10
vmovdqa %ymm10, 5792(%rsp)
vpaddw %ymm2, %ymm11, %ymm11
vmovdqa %ymm11, 5824(%rsp)
vmovdqa %ymm12, 5856(%rsp)
vpaddw %ymm3, %ymm13, %ymm13
vmovdqa %ymm13, 5888(%rsp)
vpaddw %ymm4, %ymm14, %ymm14
vmovdqa %ymm14, 5920(%rsp)
vpaddw %ymm5, %ymm15, %ymm15
vmovdqa %ymm15, 5952(%rsp)
vmovdqa 4864(%rsp), %ymm0
vmovdqa 5376(%rsp), %ymm4
vmovdqa 4896(%rsp), %ymm1
vmovdqa 5408(%rsp), %ymm5
vmovdqa 4928(%rsp), %ymm2
vmovdqa 5440(%rsp), %ymm6
vmovdqa 4960(%rsp), %ymm3
vmovdqa 5472(%rsp), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 6144(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 6176(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 6208(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 6240(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 6272(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 6304(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 6336(%rsp)
vmovdqa 4992(%rsp), %ymm0
vmovdqa 5504(%rsp), %ymm4
vmovdqa 5024(%rsp), %ymm1
vmovdqa 5536(%rsp), %ymm5
vmovdqa 5056(%rsp), %ymm2
vmovdqa 5568(%rsp), %ymm6
vmovdqa 5088(%rsp), %ymm3
vmovdqa 5600(%rsp), %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 6400(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 6432(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 6464(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 6496(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 6528(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 6560(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 6592(%rsp)
vpaddw 4864(%rsp), %ymm0, %ymm0
vpaddw 5376(%rsp), %ymm4, %ymm4
vpaddw 4896(%rsp), %ymm1, %ymm1
vpaddw 5408(%rsp), %ymm5, %ymm5
vpaddw 4928(%rsp), %ymm2, %ymm2
vpaddw 5440(%rsp), %ymm6, %ymm6
vpaddw 4960(%rsp), %ymm3, %ymm3
vpaddw 5472(%rsp), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm9
vpmullw %ymm0, %ymm5, %ymm10
vpmullw %ymm1, %ymm4, %ymm8
vpaddw %ymm8, %ymm10, %ymm10
vpmullw %ymm0, %ymm6, %ymm11
vpmullw %ymm1, %ymm5, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm2, %ymm4, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm0, %ymm7, %ymm12
vpmullw %ymm1, %ymm6, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm2, %ymm5, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm3, %ymm4, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm1, %ymm7, %ymm13
vpmullw %ymm2, %ymm6, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm3, %ymm5, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm2, %ymm7, %ymm14
vpmullw %ymm3, %ymm6, %ymm8
vpaddw %ymm8, %ymm14, %ymm14
vpmullw %ymm3, %ymm7, %ymm15
vpsubw 6144(%rsp), %ymm9, %ymm9
vmovdqa 6400(%rsp), %ymm3
vpsubw %ymm3, %ymm9, %ymm9
vpsubw 6176(%rsp), %ymm10, %ymm10
vmovdqa 6432(%rsp), %ymm4
vpsubw %ymm4, %ymm10, %ymm10
vpsubw 6208(%rsp), %ymm11, %ymm11
vmovdqa 6464(%rsp), %ymm5
vpsubw %ymm5, %ymm11, %ymm11
vpsubw 6240(%rsp), %ymm12, %ymm12
vpsubw 6496(%rsp), %ymm12, %ymm12
vmovdqa 6272(%rsp), %ymm0
vpsubw %ymm0, %ymm13, %ymm13
vpsubw 6528(%rsp), %ymm13, %ymm13
vmovdqa 6304(%rsp), %ymm1
vpsubw %ymm1, %ymm14, %ymm14
vpsubw 6560(%rsp), %ymm14, %ymm14
vmovdqa 6336(%rsp), %ymm2
vpsubw %ymm2, %ymm15, %ymm15
vpsubw 6592(%rsp), %ymm15, %ymm15
vpaddw %ymm0, %ymm9, %ymm9
vmovdqa %ymm9, 6272(%rsp)
vpaddw %ymm1, %ymm10, %ymm10
vmovdqa %ymm10, 6304(%rsp)
vpaddw %ymm2, %ymm11, %ymm11
vmovdqa %ymm11, 6336(%rsp)
vmovdqa %ymm12, 6368(%rsp)
vpaddw %ymm3, %ymm13, %ymm13
vmovdqa %ymm13, 6400(%rsp)
vpaddw %ymm4, %ymm14, %ymm14
vmovdqa %ymm14, 6432(%rsp)
vpaddw %ymm5, %ymm15, %ymm15
vmovdqa %ymm15, 6464(%rsp)
vmovdqa 4608(%rsp), %ymm0
vmovdqa 5120(%rsp), %ymm4
vpaddw 4864(%rsp), %ymm0, %ymm0
vpaddw 5376(%rsp), %ymm4, %ymm4
vmovdqa 4640(%rsp), %ymm1
vmovdqa 5152(%rsp), %ymm5
vpaddw 4896(%rsp), %ymm1, %ymm1
vpaddw 5408(%rsp), %ymm5, %ymm5
vmovdqa 4672(%rsp), %ymm2
vmovdqa 5184(%rsp), %ymm6
vpaddw 4928(%rsp), %ymm2, %ymm2
vpaddw 5440(%rsp), %ymm6, %ymm6
vmovdqa 4704(%rsp), %ymm3
vmovdqa 5216(%rsp), %ymm7
vpaddw 4960(%rsp), %ymm3, %ymm3
vpaddw 5472(%rsp), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 4096(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4128(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4160(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4192(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4224(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4256(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 4288(%rsp)
vmovdqa 4736(%rsp), %ymm0
vmovdqa 5248(%rsp), %ymm4
vpaddw 4992(%rsp), %ymm0, %ymm0
vpaddw 5504(%rsp), %ymm4, %ymm4
vmovdqa 4768(%rsp), %ymm1
vmovdqa 5280(%rsp), %ymm5
vpaddw 5024(%rsp), %ymm1, %ymm1
vpaddw 5536(%rsp), %ymm5, %ymm5
vmovdqa 4800(%rsp), %ymm2
vmovdqa 5312(%rsp), %ymm6
vpaddw 5056(%rsp), %ymm2, %ymm2
vpaddw 5568(%rsp), %ymm6, %ymm6
vmovdqa 4832(%rsp), %ymm3
vmovdqa 5344(%rsp), %ymm7
vpaddw 5088(%rsp), %ymm3, %ymm3
vpaddw 5600(%rsp), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm12
vmovdqa %ymm12, 4352(%rsp)
vpmullw %ymm0, %ymm5, %ymm13
vpmullw %ymm1, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4384(%rsp)
vpmullw %ymm0, %ymm6, %ymm12
vpmullw %ymm1, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm2, %ymm4, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4416(%rsp)
vpmullw %ymm0, %ymm7, %ymm13
vpmullw %ymm1, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm2, %ymm5, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vpmullw %ymm3, %ymm4, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4448(%rsp)
vpmullw %ymm1, %ymm7, %ymm12
vpmullw %ymm2, %ymm6, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vpmullw %ymm3, %ymm5, %ymm15
vpaddw %ymm12, %ymm15, %ymm12
vmovdqa %ymm12, 4480(%rsp)
vpmullw %ymm2, %ymm7, %ymm13
vpmullw %ymm3, %ymm6, %ymm15
vpaddw %ymm13, %ymm15, %ymm13
vmovdqa %ymm13, 4512(%rsp)
vpmullw %ymm3, %ymm7, %ymm12
vmovdqa %ymm12, 4544(%rsp)
vpaddw 4608(%rsp), %ymm0, %ymm0
vpaddw 5120(%rsp), %ymm4, %ymm4
vpaddw 4864(%rsp), %ymm0, %ymm0
vpaddw 5376(%rsp), %ymm4, %ymm4
vpaddw 4640(%rsp), %ymm1, %ymm1
vpaddw 5152(%rsp), %ymm5, %ymm5
vpaddw 4896(%rsp), %ymm1, %ymm1
vpaddw 5408(%rsp), %ymm5, %ymm5
vpaddw 4672(%rsp), %ymm2, %ymm2
vpaddw 5184(%rsp), %ymm6, %ymm6
vpaddw 4928(%rsp), %ymm2, %ymm2
vpaddw 5440(%rsp), %ymm6, %ymm6
vpaddw 4704(%rsp), %ymm3, %ymm3
vpaddw 5216(%rsp), %ymm7, %ymm7
vpaddw 4960(%rsp), %ymm3, %ymm3
vpaddw 5472(%rsp), %ymm7, %ymm7
vpmullw %ymm0, %ymm4, %ymm9
vpmullw %ymm0, %ymm5, %ymm10
vpmullw %ymm1, %ymm4, %ymm8
vpaddw %ymm8, %ymm10, %ymm10
vpmullw %ymm0, %ymm6, %ymm11
vpmullw %ymm1, %ymm5, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm2, %ymm4, %ymm8
vpaddw %ymm8, %ymm11, %ymm11
vpmullw %ymm0, %ymm7, %ymm12
vpmullw %ymm1, %ymm6, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm2, %ymm5, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm3, %ymm4, %ymm8
vpaddw %ymm8, %ymm12, %ymm12
vpmullw %ymm1, %ymm7, %ymm13
vpmullw %ymm2, %ymm6, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm3, %ymm5, %ymm8
vpaddw %ymm8, %ymm13, %ymm13
vpmullw %ymm2, %ymm7, %ymm14
vpmullw %ymm3, %ymm6, %ymm8
vpaddw %ymm8, %ymm14, %ymm14
vpmullw %ymm3, %ymm7, %ymm15
vpsubw 4096(%rsp), %ymm9, %ymm9
vmovdqa 4352(%rsp), %ymm3
vpsubw %ymm3, %ymm9, %ymm9
vpsubw 4128(%rsp), %ymm10, %ymm10
vmovdqa 4384(%rsp), %ymm4
vpsubw %ymm4, %ymm10, %ymm10
vpsubw 4160(%rsp), %ymm11, %ymm11
vmovdqa 4416(%rsp), %ymm5
vpsubw %ymm5, %ymm11, %ymm11
vpsubw 4192(%rsp), %ymm12, %ymm12
vpsubw 4448(%rsp), %ymm12, %ymm12
vmovdqa 4224(%rsp), %ymm0
vpsubw %ymm0, %ymm13, %ymm13
vpsubw 4480(%rsp), %ymm13, %ymm13
vmovdqa 4256(%rsp), %ymm1
vpsubw %ymm1, %ymm14, %ymm14
vpsubw 4512(%rsp), %ymm14, %ymm14
vmovdqa 4288(%rsp), %ymm2
vpsubw %ymm2, %ymm15, %ymm15
vpsubw 4544(%rsp), %ymm15, %ymm15
vpaddw %ymm0, %ymm9, %ymm9
vmovdqa %ymm9, 4224(%rsp)
vpaddw %ymm1, %ymm10, %ymm10
vmovdqa %ymm10, 4256(%rsp)
vpaddw %ymm2, %ymm11, %ymm11
vmovdqa %ymm11, 4288(%rsp)
vmovdqa %ymm12, 4320(%rsp)
vpaddw %ymm3, %ymm13, %ymm13
vmovdqa %ymm13, 4352(%rsp)
vpaddw %ymm4, %ymm14, %ymm14
vmovdqa %ymm14, 4384(%rsp)
vpaddw %ymm5, %ymm15, %ymm15
vmovdqa %ymm15, 4416(%rsp)
vmovdqa 5888(%rsp), %ymm0
vpsubw 6144(%rsp), %ymm0, %ymm0
vmovdqa 4352(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 6400(%rsp), %ymm1, %ymm6
vpsubw 5632(%rsp), %ymm0, %ymm0
vpaddw 4096(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 5888(%rsp)
vmovdqa 5920(%rsp), %ymm0
vpsubw 6176(%rsp), %ymm0, %ymm0
vmovdqa 4384(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 6432(%rsp), %ymm1, %ymm7
vpsubw 5664(%rsp), %ymm0, %ymm0
vpaddw 4128(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 5920(%rsp)
vmovdqa 5952(%rsp), %ymm0
vpsubw 6208(%rsp), %ymm0, %ymm0
vmovdqa 4416(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 6464(%rsp), %ymm1, %ymm8
vpsubw 5696(%rsp), %ymm0, %ymm0
vpaddw 4160(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 5952(%rsp)
vmovdqa 5984(%rsp), %ymm0
vpsubw 6240(%rsp), %ymm0, %ymm0
vmovdqa 4448(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 6496(%rsp), %ymm1, %ymm9
vpsubw 5728(%rsp), %ymm0, %ymm0
vpaddw 4192(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 5984(%rsp)
vmovdqa 6016(%rsp), %ymm0
vpsubw 6272(%rsp), %ymm0, %ymm0
vmovdqa 4480(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 6528(%rsp), %ymm1, %ymm10
vpsubw 5760(%rsp), %ymm0, %ymm0
vpaddw 4224(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 6016(%rsp)
vmovdqa 6048(%rsp), %ymm0
vpsubw 6304(%rsp), %ymm0, %ymm0
vmovdqa 4512(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 6560(%rsp), %ymm1, %ymm11
vpsubw 5792(%rsp), %ymm0, %ymm0
vpaddw 4256(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 6048(%rsp)
vmovdqa 6080(%rsp), %ymm0
vpsubw 6336(%rsp), %ymm0, %ymm0
vmovdqa 4544(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 6592(%rsp), %ymm1, %ymm12
vpsubw 5824(%rsp), %ymm0, %ymm0
vpaddw 4288(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 6080(%rsp)
vmovdqa 4320(%rsp), %ymm0
vpsubw 5856(%rsp), %ymm0, %ymm0
vpsubw 6368(%rsp), %ymm0, %ymm0
vpsubw 2528(%r10), %ymm0, %ymm0
vpsubw 3552(%r10), %ymm0, %ymm0
vmovdqa %ymm0, 3040(%r10)
vmovdqa 2560(%r10), %ymm0
vpsubw 3072(%r10), %ymm0, %ymm0
vpsubw %ymm0, %ymm6, %ymm6
vpsubw 3584(%r10), %ymm6, %ymm6
vpsubw 2048(%r10), %ymm0, %ymm0
vpaddw 5632(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2560(%r10)
vmovdqa %ymm6, 3072(%r10)
vmovdqa 2592(%r10), %ymm0
vpsubw 3104(%r10), %ymm0, %ymm0
vpsubw %ymm0, %ymm7, %ymm7
vpsubw 3616(%r10), %ymm7, %ymm7
vpsubw 2080(%r10), %ymm0, %ymm0
vpaddw 5664(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2592(%r10)
vmovdqa %ymm7, 3104(%r10)
vmovdqa 2624(%r10), %ymm0
vpsubw 3136(%r10), %ymm0, %ymm0
vpsubw %ymm0, %ymm8, %ymm8
vpsubw 3648(%r10), %ymm8, %ymm8
vpsubw 2112(%r10), %ymm0, %ymm0
vpaddw 5696(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2624(%r10)
vmovdqa %ymm8, 3136(%r10)
vmovdqa 2656(%r10), %ymm0
vpsubw 3168(%r10), %ymm0, %ymm0
vpsubw %ymm0, %ymm9, %ymm9
vpsubw 3680(%r10), %ymm9, %ymm9
vpsubw 2144(%r10), %ymm0, %ymm0
vpaddw 5728(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2656(%r10)
vmovdqa %ymm9, 3168(%r10)
vmovdqa 2688(%r10), %ymm0
vpsubw 3200(%r10), %ymm0, %ymm0
vpsubw %ymm0, %ymm10, %ymm10
vpsubw 3712(%r10), %ymm10, %ymm10
vpsubw 2176(%r10), %ymm0, %ymm0
vpaddw 5760(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2688(%r10)
vmovdqa %ymm10, 3200(%r10)
vmovdqa 2720(%r10), %ymm0
vpsubw 3232(%r10), %ymm0, %ymm0
vpsubw %ymm0, %ymm11, %ymm11
vpsubw 3744(%r10), %ymm11, %ymm11
vpsubw 2208(%r10), %ymm0, %ymm0
vpaddw 5792(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2720(%r10)
vmovdqa %ymm11, 3232(%r10)
vmovdqa 2752(%r10), %ymm0
vpsubw 3264(%r10), %ymm0, %ymm0
vpsubw %ymm0, %ymm12, %ymm12
vpsubw 3776(%r10), %ymm12, %ymm12
vpsubw 2240(%r10), %ymm0, %ymm0
vpaddw 5824(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2752(%r10)
vmovdqa %ymm12, 3264(%r10)
vmovdqa 2784(%r10), %ymm0
vpsubw 3296(%r10), %ymm0, %ymm0
vmovdqa 6368(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3808(%r10), %ymm1, %ymm1
vpsubw 2272(%r10), %ymm0, %ymm0
vpaddw 5856(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2784(%r10)
vmovdqa %ymm1, 3296(%r10)
vmovdqa 2816(%r10), %ymm0
vpsubw 3328(%r10), %ymm0, %ymm0
vmovdqa 6400(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3840(%r10), %ymm1, %ymm1
vpsubw 2304(%r10), %ymm0, %ymm0
vpaddw 5888(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2816(%r10)
vmovdqa %ymm1, 3328(%r10)
vmovdqa 2848(%r10), %ymm0
vpsubw 3360(%r10), %ymm0, %ymm0
vmovdqa 6432(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3872(%r10), %ymm1, %ymm1
vpsubw 2336(%r10), %ymm0, %ymm0
vpaddw 5920(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2848(%r10)
vmovdqa %ymm1, 3360(%r10)
vmovdqa 2880(%r10), %ymm0
vpsubw 3392(%r10), %ymm0, %ymm0
vmovdqa 6464(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3904(%r10), %ymm1, %ymm1
vpsubw 2368(%r10), %ymm0, %ymm0
vpaddw 5952(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2880(%r10)
vmovdqa %ymm1, 3392(%r10)
vmovdqa 2912(%r10), %ymm0
vpsubw 3424(%r10), %ymm0, %ymm0
vmovdqa 6496(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3936(%r10), %ymm1, %ymm1
vpsubw 2400(%r10), %ymm0, %ymm0
vpaddw 5984(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2912(%r10)
vmovdqa %ymm1, 3424(%r10)
vmovdqa 2944(%r10), %ymm0
vpsubw 3456(%r10), %ymm0, %ymm0
vmovdqa 6528(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3968(%r10), %ymm1, %ymm1
vpsubw 2432(%r10), %ymm0, %ymm0
vpaddw 6016(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2944(%r10)
vmovdqa %ymm1, 3456(%r10)
vmovdqa 2976(%r10), %ymm0
vpsubw 3488(%r10), %ymm0, %ymm0
vmovdqa 6560(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 4000(%r10), %ymm1, %ymm1
vpsubw 2464(%r10), %ymm0, %ymm0
vpaddw 6048(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 2976(%r10)
vmovdqa %ymm1, 3488(%r10)
vmovdqa 3008(%r10), %ymm0
vpsubw 3520(%r10), %ymm0, %ymm0
vmovdqa 6592(%rsp), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 4032(%r10), %ymm1, %ymm1
vpsubw 2496(%r10), %ymm0, %ymm0
vpaddw 6080(%rsp), %ymm0, %ymm0
vmovdqa %ymm0, 3008(%r10)
vmovdqa %ymm1, 3520(%r10)
vpxor %ymm1, %ymm1, %ymm1
vmovdqa %ymm1, 4064(%r10)
subq $32, %rsp
vmovdqa 2048(%r10), %ymm0
vmovdqa 2112(%r10), %ymm1
vmovdqa 2176(%r10), %ymm2
vmovdqa 2240(%r10), %ymm3
vpunpcklwd 2080(%r10), %ymm0, %ymm4
vpunpckhwd 2080(%r10), %ymm0, %ymm5
vpunpcklwd 2144(%r10), %ymm1, %ymm6
vpunpckhwd 2144(%r10), %ymm1, %ymm7
vpunpcklwd 2208(%r10), %ymm2, %ymm8
vpunpckhwd 2208(%r10), %ymm2, %ymm9
vpunpcklwd 2272(%r10), %ymm3, %ymm10
vpunpckhwd 2272(%r10), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 2304(%r10), %ymm0
vmovdqa 2368(%r10), %ymm1
vmovdqa 2432(%r10), %ymm2
vmovdqa 2496(%r10), %ymm3
vpunpcklwd 2336(%r10), %ymm0, %ymm12
vpunpckhwd 2336(%r10), %ymm0, %ymm13
vpunpcklwd 2400(%r10), %ymm1, %ymm14
vpunpckhwd 2400(%r10), %ymm1, %ymm15
vpunpcklwd 2464(%r10), %ymm2, %ymm0
vpunpckhwd 2464(%r10), %ymm2, %ymm1
vpunpcklwd 2528(%r10), %ymm3, %ymm2
vpunpckhwd 2528(%r10), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 0(%r12)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 128(%r12)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 256(%r12)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 384(%r12)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 512(%r12)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 640(%r12)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 768(%r12)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 1024(%r12)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 1152(%r12)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 1280(%r12)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 1408(%r12)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 1536(%r12)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 1664(%r12)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 1792(%r12)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 896(%r12)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 1920(%r12)
vmovdqa 2560(%r10), %ymm0
vmovdqa 2624(%r10), %ymm1
vmovdqa 2688(%r10), %ymm2
vmovdqa 2752(%r10), %ymm3
vpunpcklwd 2592(%r10), %ymm0, %ymm4
vpunpckhwd 2592(%r10), %ymm0, %ymm5
vpunpcklwd 2656(%r10), %ymm1, %ymm6
vpunpckhwd 2656(%r10), %ymm1, %ymm7
vpunpcklwd 2720(%r10), %ymm2, %ymm8
vpunpckhwd 2720(%r10), %ymm2, %ymm9
vpunpcklwd 2784(%r10), %ymm3, %ymm10
vpunpckhwd 2784(%r10), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 2816(%r10), %ymm0
vmovdqa 2880(%r10), %ymm1
vmovdqa 2944(%r10), %ymm2
vmovdqa 3008(%r10), %ymm3
vpunpcklwd 2848(%r10), %ymm0, %ymm12
vpunpckhwd 2848(%r10), %ymm0, %ymm13
vpunpcklwd 2912(%r10), %ymm1, %ymm14
vpunpckhwd 2912(%r10), %ymm1, %ymm15
vpunpcklwd 2976(%r10), %ymm2, %ymm0
vpunpckhwd 2976(%r10), %ymm2, %ymm1
vpunpcklwd 3040(%r10), %ymm3, %ymm2
vpunpckhwd 3040(%r10), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 32(%r12)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 160(%r12)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 288(%r12)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 416(%r12)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 544(%r12)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 672(%r12)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 800(%r12)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 1056(%r12)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 1184(%r12)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 1312(%r12)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 1440(%r12)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 1568(%r12)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 1696(%r12)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 1824(%r12)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 928(%r12)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 1952(%r12)
vmovdqa 3072(%r10), %ymm0
vmovdqa 3136(%r10), %ymm1
vmovdqa 3200(%r10), %ymm2
vmovdqa 3264(%r10), %ymm3
vpunpcklwd 3104(%r10), %ymm0, %ymm4
vpunpckhwd 3104(%r10), %ymm0, %ymm5
vpunpcklwd 3168(%r10), %ymm1, %ymm6
vpunpckhwd 3168(%r10), %ymm1, %ymm7
vpunpcklwd 3232(%r10), %ymm2, %ymm8
vpunpckhwd 3232(%r10), %ymm2, %ymm9
vpunpcklwd 3296(%r10), %ymm3, %ymm10
vpunpckhwd 3296(%r10), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 3328(%r10), %ymm0
vmovdqa 3392(%r10), %ymm1
vmovdqa 3456(%r10), %ymm2
vmovdqa 3520(%r10), %ymm3
vpunpcklwd 3360(%r10), %ymm0, %ymm12
vpunpckhwd 3360(%r10), %ymm0, %ymm13
vpunpcklwd 3424(%r10), %ymm1, %ymm14
vpunpckhwd 3424(%r10), %ymm1, %ymm15
vpunpcklwd 3488(%r10), %ymm2, %ymm0
vpunpckhwd 3488(%r10), %ymm2, %ymm1
vpunpcklwd 3552(%r10), %ymm3, %ymm2
vpunpckhwd 3552(%r10), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 64(%r12)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 192(%r12)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 320(%r12)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 448(%r12)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 576(%r12)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 704(%r12)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 832(%r12)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 1088(%r12)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 1216(%r12)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 1344(%r12)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 1472(%r12)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 1600(%r12)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 1728(%r12)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 1856(%r12)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 960(%r12)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 1984(%r12)
vmovdqa 3584(%r10), %ymm0
vmovdqa 3648(%r10), %ymm1
vmovdqa 3712(%r10), %ymm2
vmovdqa 3776(%r10), %ymm3
vpunpcklwd 3616(%r10), %ymm0, %ymm4
vpunpckhwd 3616(%r10), %ymm0, %ymm5
vpunpcklwd 3680(%r10), %ymm1, %ymm6
vpunpckhwd 3680(%r10), %ymm1, %ymm7
vpunpcklwd 3744(%r10), %ymm2, %ymm8
vpunpckhwd 3744(%r10), %ymm2, %ymm9
vpunpcklwd 3808(%r10), %ymm3, %ymm10
vpunpckhwd 3808(%r10), %ymm3, %ymm11
vpunpckldq %ymm6, %ymm4, %ymm0
vpunpckhdq %ymm6, %ymm4, %ymm1
vpunpckldq %ymm7, %ymm5, %ymm2
vpunpckhdq %ymm7, %ymm5, %ymm3
vpunpckldq %ymm10, %ymm8, %ymm12
vpunpckhdq %ymm10, %ymm8, %ymm13
vpunpckldq %ymm11, %ymm9, %ymm14
vpunpckhdq %ymm11, %ymm9, %ymm15
vpunpcklqdq %ymm12, %ymm0, %ymm4
vpunpckhqdq %ymm12, %ymm0, %ymm5
vpunpcklqdq %ymm13, %ymm1, %ymm6
vpunpckhqdq %ymm13, %ymm1, %ymm7
vpunpcklqdq %ymm14, %ymm2, %ymm8
vpunpckhqdq %ymm14, %ymm2, %ymm9
vpunpcklqdq %ymm15, %ymm3, %ymm10
vpunpckhqdq %ymm15, %ymm3, %ymm11
vmovdqa 3840(%r10), %ymm0
vmovdqa 3904(%r10), %ymm1
vmovdqa 3968(%r10), %ymm2
vmovdqa 4032(%r10), %ymm3
vpunpcklwd 3872(%r10), %ymm0, %ymm12
vpunpckhwd 3872(%r10), %ymm0, %ymm13
vpunpcklwd 3936(%r10), %ymm1, %ymm14
vpunpckhwd 3936(%r10), %ymm1, %ymm15
vpunpcklwd 4000(%r10), %ymm2, %ymm0
vpunpckhwd 4000(%r10), %ymm2, %ymm1
vpunpcklwd 4064(%r10), %ymm3, %ymm2
vpunpckhwd 4064(%r10), %ymm3, %ymm3
vmovdqa %ymm11, 0(%rsp)
vpunpckldq %ymm14, %ymm12, %ymm11
vpunpckhdq %ymm14, %ymm12, %ymm12
vpunpckldq %ymm15, %ymm13, %ymm14
vpunpckhdq %ymm15, %ymm13, %ymm15
vpunpckldq %ymm2, %ymm0, %ymm13
vpunpckhdq %ymm2, %ymm0, %ymm0
vpunpckldq %ymm3, %ymm1, %ymm2
vpunpckhdq %ymm3, %ymm1, %ymm1
vpunpcklqdq %ymm13, %ymm11, %ymm3
vpunpckhqdq %ymm13, %ymm11, %ymm13
vpunpcklqdq %ymm0, %ymm12, %ymm11
vpunpckhqdq %ymm0, %ymm12, %ymm0
vpunpcklqdq %ymm2, %ymm14, %ymm12
vpunpckhqdq %ymm2, %ymm14, %ymm2
vpunpcklqdq %ymm1, %ymm15, %ymm14
vpunpckhqdq %ymm1, %ymm15, %ymm1
vinserti128 $1, %xmm3, %ymm4, %ymm15
vmovdqa %ymm15, 96(%r12)
vinserti128 $1, %xmm13, %ymm5, %ymm15
vmovdqa %ymm15, 224(%r12)
vinserti128 $1, %xmm11, %ymm6, %ymm15
vmovdqa %ymm15, 352(%r12)
vinserti128 $1, %xmm0, %ymm7, %ymm15
vmovdqa %ymm15, 480(%r12)
vinserti128 $1, %xmm12, %ymm8, %ymm15
vmovdqa %ymm15, 608(%r12)
vinserti128 $1, %xmm2, %ymm9, %ymm15
vmovdqa %ymm15, 736(%r12)
vinserti128 $1, %xmm14, %ymm10, %ymm15
vmovdqa %ymm15, 864(%r12)
vpermq $78, %ymm4, %ymm4
vpermq $78, %ymm5, %ymm5
vpermq $78, %ymm6, %ymm6
vpermq $78, %ymm7, %ymm7
vpermq $78, %ymm8, %ymm8
vpermq $78, %ymm9, %ymm9
vpermq $78, %ymm10, %ymm10
vinserti128 $0, %xmm4, %ymm3, %ymm15
vmovdqa %ymm15, 1120(%r12)
vinserti128 $0, %xmm5, %ymm13, %ymm15
vmovdqa %ymm15, 1248(%r12)
vinserti128 $0, %xmm6, %ymm11, %ymm15
vmovdqa %ymm15, 1376(%r12)
vinserti128 $0, %xmm7, %ymm0, %ymm15
vmovdqa %ymm15, 1504(%r12)
vinserti128 $0, %xmm8, %ymm12, %ymm15
vmovdqa %ymm15, 1632(%r12)
vinserti128 $0, %xmm9, %ymm2, %ymm15
vmovdqa %ymm15, 1760(%r12)
vinserti128 $0, %xmm10, %ymm14, %ymm15
vmovdqa %ymm15, 1888(%r12)
vmovdqa 0(%rsp), %ymm11
vinserti128 $1, %xmm1, %ymm11, %ymm14
vmovdqa %ymm14, 992(%r12)
vpermq $78, %ymm11, %ymm11
vinserti128 $0, %xmm11, %ymm1, %ymm1
vmovdqa %ymm1, 2016(%r12)
addq $32, %rsp
add $1024, %rax
add $1024, %r11
add $2048, %r12
dec %ecx
jnz karatsuba_loop_1
sub $8192, %r12
add $6656, %rsp
subq $2400, %rsp
vpxor %ymm0, %ymm0, %ymm0
vmovdqa %ymm0, 1792(%rsp)
vmovdqa %ymm0, 1824(%rsp)
vmovdqa %ymm0, 1856(%rsp)
vmovdqa %ymm0, 1888(%rsp)
vmovdqa %ymm0, 1920(%rsp)
vmovdqa %ymm0, 1952(%rsp)
vmovdqa %ymm0, 1984(%rsp)
vmovdqa %ymm0, 2016(%rsp)
vmovdqa %ymm0, 2048(%rsp)
vmovdqa %ymm0, 2080(%rsp)
vmovdqa %ymm0, 2112(%rsp)
vmovdqa %ymm0, 2144(%rsp)
vmovdqa %ymm0, 2176(%rsp)
vmovdqa %ymm0, 2208(%rsp)
vmovdqa %ymm0, 2240(%rsp)
vmovdqa %ymm0, 2272(%rsp)
vmovdqa %ymm0, 2304(%rsp)
vmovdqa %ymm0, 2336(%rsp)
vmovdqa %ymm0, 2368(%rsp)
vmovdqa %ymm0, 2400(%rsp)
vmovdqa %ymm0, 2432(%rsp)
vmovdqa %ymm0, 2464(%rsp)
vmovdqa %ymm0, 2496(%rsp)
vmovdqa %ymm0, 2528(%rsp)
vmovdqa %ymm0, 2560(%rsp)
vmovdqa %ymm0, 2592(%rsp)
vmovdqa %ymm0, 2624(%rsp)
vmovdqa %ymm0, 2656(%rsp)
vmovdqa %ymm0, 2688(%rsp)
vmovdqa %ymm0, 2720(%rsp)
vmovdqa %ymm0, 2752(%rsp)
vmovdqa %ymm0, 2784(%rsp)
vmovdqa const729(%rip), %ymm15
vmovdqa const3_inv(%rip), %ymm14
vmovdqa const5_inv(%rip), %ymm13
vmovdqa const9(%rip), %ymm12
vmovdqa 64(%r12), %ymm0
vpsubw 128(%r12), %ymm0, %ymm0
vmovdqa 320(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 192(%r12), %ymm1, %ymm1
vpsubw 0(%r12), %ymm0, %ymm0
vpaddw 256(%r12), %ymm0, %ymm0
vmovdqa 448(%r12), %ymm2
vpsubw 512(%r12), %ymm2, %ymm2
vmovdqa 704(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 576(%r12), %ymm3, %ymm3
vpsubw 384(%r12), %ymm2, %ymm2
vpaddw 640(%r12), %ymm2, %ymm2
vmovdqa 832(%r12), %ymm4
vpsubw 896(%r12), %ymm4, %ymm4
vmovdqa 1088(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 960(%r12), %ymm5, %ymm5
vpsubw 768(%r12), %ymm4, %ymm4
vpaddw 1024(%r12), %ymm4, %ymm4
vpsubw 384(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 0(%r12), %ymm1, %ymm1
vpaddw 768(%r12), %ymm1, %ymm1
vmovdqa 192(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 960(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 576(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 0(%r12), %ymm8
vmovdqa 576(%r12), %ymm9
vmovdqa %ymm8, 0(%rsp)
vmovdqa %ymm0, 32(%rsp)
vmovdqa %ymm1, 64(%rsp)
vmovdqa %ymm7, 96(%rsp)
vmovdqa %ymm5, 128(%rsp)
vmovdqa %ymm2, 160(%rsp)
vmovdqa %ymm3, 192(%rsp)
vmovdqa %ymm9, 224(%rsp)
vmovdqa 1216(%r12), %ymm0
vpsubw 1280(%r12), %ymm0, %ymm0
vmovdqa 1472(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 1344(%r12), %ymm1, %ymm1
vpsubw 1152(%r12), %ymm0, %ymm0
vpaddw 1408(%r12), %ymm0, %ymm0
vmovdqa 1600(%r12), %ymm2
vpsubw 1664(%r12), %ymm2, %ymm2
vmovdqa 1856(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 1728(%r12), %ymm3, %ymm3
vpsubw 1536(%r12), %ymm2, %ymm2
vpaddw 1792(%r12), %ymm2, %ymm2
vmovdqa 1984(%r12), %ymm4
vpsubw 2048(%r12), %ymm4, %ymm4
vmovdqa 2240(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 2112(%r12), %ymm5, %ymm5
vpsubw 1920(%r12), %ymm4, %ymm4
vpaddw 2176(%r12), %ymm4, %ymm4
vpsubw 1536(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 1152(%r12), %ymm1, %ymm1
vpaddw 1920(%r12), %ymm1, %ymm1
vmovdqa 1344(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 2112(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 1728(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 1152(%r12), %ymm8
vmovdqa 1728(%r12), %ymm9
vmovdqa %ymm8, 256(%rsp)
vmovdqa %ymm0, 288(%rsp)
vmovdqa %ymm1, 320(%rsp)
vmovdqa %ymm7, 352(%rsp)
vmovdqa %ymm5, 384(%rsp)
vmovdqa %ymm2, 416(%rsp)
vmovdqa %ymm3, 448(%rsp)
vmovdqa %ymm9, 480(%rsp)
vmovdqa 2368(%r12), %ymm0
vpsubw 2432(%r12), %ymm0, %ymm0
vmovdqa 2624(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2496(%r12), %ymm1, %ymm1
vpsubw 2304(%r12), %ymm0, %ymm0
vpaddw 2560(%r12), %ymm0, %ymm0
vmovdqa 2752(%r12), %ymm2
vpsubw 2816(%r12), %ymm2, %ymm2
vmovdqa 3008(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 2880(%r12), %ymm3, %ymm3
vpsubw 2688(%r12), %ymm2, %ymm2
vpaddw 2944(%r12), %ymm2, %ymm2
vmovdqa 3136(%r12), %ymm4
vpsubw 3200(%r12), %ymm4, %ymm4
vmovdqa 3392(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 3264(%r12), %ymm5, %ymm5
vpsubw 3072(%r12), %ymm4, %ymm4
vpaddw 3328(%r12), %ymm4, %ymm4
vpsubw 2688(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 2304(%r12), %ymm1, %ymm1
vpaddw 3072(%r12), %ymm1, %ymm1
vmovdqa 2496(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 3264(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 2880(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 2304(%r12), %ymm8
vmovdqa 2880(%r12), %ymm9
vmovdqa %ymm8, 512(%rsp)
vmovdqa %ymm0, 544(%rsp)
vmovdqa %ymm1, 576(%rsp)
vmovdqa %ymm7, 608(%rsp)
vmovdqa %ymm5, 640(%rsp)
vmovdqa %ymm2, 672(%rsp)
vmovdqa %ymm3, 704(%rsp)
vmovdqa %ymm9, 736(%rsp)
vmovdqa 3520(%r12), %ymm0
vpsubw 3584(%r12), %ymm0, %ymm0
vmovdqa 3776(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3648(%r12), %ymm1, %ymm1
vpsubw 3456(%r12), %ymm0, %ymm0
vpaddw 3712(%r12), %ymm0, %ymm0
vmovdqa 3904(%r12), %ymm2
vpsubw 3968(%r12), %ymm2, %ymm2
vmovdqa 4160(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 4032(%r12), %ymm3, %ymm3
vpsubw 3840(%r12), %ymm2, %ymm2
vpaddw 4096(%r12), %ymm2, %ymm2
vmovdqa 4288(%r12), %ymm4
vpsubw 4352(%r12), %ymm4, %ymm4
vmovdqa 4544(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 4416(%r12), %ymm5, %ymm5
vpsubw 4224(%r12), %ymm4, %ymm4
vpaddw 4480(%r12), %ymm4, %ymm4
vpsubw 3840(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 3456(%r12), %ymm1, %ymm1
vpaddw 4224(%r12), %ymm1, %ymm1
vmovdqa 3648(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 4416(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 4032(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 3456(%r12), %ymm8
vmovdqa 4032(%r12), %ymm9
vmovdqa %ymm8, 768(%rsp)
vmovdqa %ymm0, 800(%rsp)
vmovdqa %ymm1, 832(%rsp)
vmovdqa %ymm7, 864(%rsp)
vmovdqa %ymm5, 896(%rsp)
vmovdqa %ymm2, 928(%rsp)
vmovdqa %ymm3, 960(%rsp)
vmovdqa %ymm9, 992(%rsp)
vmovdqa 4672(%r12), %ymm0
vpsubw 4736(%r12), %ymm0, %ymm0
vmovdqa 4928(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 4800(%r12), %ymm1, %ymm1
vpsubw 4608(%r12), %ymm0, %ymm0
vpaddw 4864(%r12), %ymm0, %ymm0
vmovdqa 5056(%r12), %ymm2
vpsubw 5120(%r12), %ymm2, %ymm2
vmovdqa 5312(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 5184(%r12), %ymm3, %ymm3
vpsubw 4992(%r12), %ymm2, %ymm2
vpaddw 5248(%r12), %ymm2, %ymm2
vmovdqa 5440(%r12), %ymm4
vpsubw 5504(%r12), %ymm4, %ymm4
vmovdqa 5696(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 5568(%r12), %ymm5, %ymm5
vpsubw 5376(%r12), %ymm4, %ymm4
vpaddw 5632(%r12), %ymm4, %ymm4
vpsubw 4992(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 4608(%r12), %ymm1, %ymm1
vpaddw 5376(%r12), %ymm1, %ymm1
vmovdqa 4800(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 5568(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 5184(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 4608(%r12), %ymm8
vmovdqa 5184(%r12), %ymm9
vmovdqa %ymm8, 1024(%rsp)
vmovdqa %ymm0, 1056(%rsp)
vmovdqa %ymm1, 1088(%rsp)
vmovdqa %ymm7, 1120(%rsp)
vmovdqa %ymm5, 1152(%rsp)
vmovdqa %ymm2, 1184(%rsp)
vmovdqa %ymm3, 1216(%rsp)
vmovdqa %ymm9, 1248(%rsp)
vmovdqa 5824(%r12), %ymm0
vpsubw 5888(%r12), %ymm0, %ymm0
vmovdqa 6080(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 5952(%r12), %ymm1, %ymm1
vpsubw 5760(%r12), %ymm0, %ymm0
vpaddw 6016(%r12), %ymm0, %ymm0
vmovdqa 6208(%r12), %ymm2
vpsubw 6272(%r12), %ymm2, %ymm2
vmovdqa 6464(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 6336(%r12), %ymm3, %ymm3
vpsubw 6144(%r12), %ymm2, %ymm2
vpaddw 6400(%r12), %ymm2, %ymm2
vmovdqa 6592(%r12), %ymm4
vpsubw 6656(%r12), %ymm4, %ymm4
vmovdqa 6848(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 6720(%r12), %ymm5, %ymm5
vpsubw 6528(%r12), %ymm4, %ymm4
vpaddw 6784(%r12), %ymm4, %ymm4
vpsubw 6144(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 5760(%r12), %ymm1, %ymm1
vpaddw 6528(%r12), %ymm1, %ymm1
vmovdqa 5952(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 6720(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 6336(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 5760(%r12), %ymm8
vmovdqa 6336(%r12), %ymm9
vmovdqa %ymm8, 1280(%rsp)
vmovdqa %ymm0, 1312(%rsp)
vmovdqa %ymm1, 1344(%rsp)
vmovdqa %ymm7, 1376(%rsp)
vmovdqa %ymm5, 1408(%rsp)
vmovdqa %ymm2, 1440(%rsp)
vmovdqa %ymm3, 1472(%rsp)
vmovdqa %ymm9, 1504(%rsp)
vmovdqa 6976(%r12), %ymm0
vpsubw 7040(%r12), %ymm0, %ymm0
vmovdqa 7232(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 7104(%r12), %ymm1, %ymm1
vpsubw 6912(%r12), %ymm0, %ymm0
vpaddw 7168(%r12), %ymm0, %ymm0
vmovdqa 7360(%r12), %ymm2
vpsubw 7424(%r12), %ymm2, %ymm2
vmovdqa 7616(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 7488(%r12), %ymm3, %ymm3
vpsubw 7296(%r12), %ymm2, %ymm2
vpaddw 7552(%r12), %ymm2, %ymm2
vmovdqa 7744(%r12), %ymm4
vpsubw 7808(%r12), %ymm4, %ymm4
vmovdqa 8000(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 7872(%r12), %ymm5, %ymm5
vpsubw 7680(%r12), %ymm4, %ymm4
vpaddw 7936(%r12), %ymm4, %ymm4
vpsubw 7296(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 6912(%r12), %ymm1, %ymm1
vpaddw 7680(%r12), %ymm1, %ymm1
vmovdqa 7104(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 7872(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 7488(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 6912(%r12), %ymm8
vmovdqa 7488(%r12), %ymm9
vmovdqa %ymm8, 1536(%rsp)
vmovdqa %ymm0, 1568(%rsp)
vmovdqa %ymm1, 1600(%rsp)
vmovdqa %ymm7, 1632(%rsp)
vmovdqa %ymm5, 1664(%rsp)
vmovdqa %ymm2, 1696(%rsp)
vmovdqa %ymm3, 1728(%rsp)
vmovdqa %ymm9, 1760(%rsp)
vmovdqa 0(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm10
vpunpckhwd const0(%rip), %ymm11, %ymm9
vpslld $1, %ymm10, %ymm10
vpslld $1, %ymm9, %ymm9
vmovdqa 256(%rsp), %ymm8
vpunpcklwd const0(%rip), %ymm8, %ymm7
vpunpckhwd const0(%rip), %ymm8, %ymm8
vmovdqa 512(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm7, %ymm4
vpaddd %ymm6, %ymm8, %ymm3
vpsubd %ymm10, %ymm4, %ymm4
vpsubd %ymm9, %ymm3, %ymm3
vpsubd %ymm5, %ymm7, %ymm5
vpsubd %ymm6, %ymm8, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1536(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm8
vpunpckhwd const0(%rip), %ymm5, %ymm7
vpslld $1, %ymm8, %ymm8
vpslld $1, %ymm7, %ymm7
vpsubd %ymm8, %ymm4, %ymm4
vpsubd %ymm7, %ymm3, %ymm3
vpsrld $1, %ymm4, %ymm4
vpsrld $1, %ymm3, %ymm3
vpand mask32_to_16(%rip), %ymm4, %ymm4
vpand mask32_to_16(%rip), %ymm3, %ymm3
vpackusdw %ymm3, %ymm4, %ymm3
vmovdqa 768(%rsp), %ymm4
vpaddw 1024(%rsp), %ymm4, %ymm7
vpsubw 1024(%rsp), %ymm4, %ymm4
vpsrlw $2, %ymm4, %ymm4
vpsubw %ymm6, %ymm4, %ymm4
vpmullw %ymm14, %ymm4, %ymm4
vpsllw $1, %ymm11, %ymm8
vpsubw %ymm8, %ymm7, %ymm8
vpsllw $7, %ymm5, %ymm7
vpsubw %ymm7, %ymm8, %ymm7
vpsrlw $3, %ymm7, %ymm7
vpsubw %ymm3, %ymm7, %ymm7
vmovdqa 1280(%rsp), %ymm8
vpsubw %ymm11, %ymm8, %ymm8
vpmullw %ymm15, %ymm5, %ymm9
vpsubw %ymm9, %ymm8, %ymm9
vpmullw %ymm14, %ymm7, %ymm7
vpsubw %ymm7, %ymm3, %ymm3
vpmullw %ymm12, %ymm7, %ymm8
vpaddw %ymm8, %ymm3, %ymm8
vpmullw %ymm12, %ymm8, %ymm8
vpsubw %ymm8, %ymm9, %ymm8
vpmullw %ymm14, %ymm8, %ymm8
vpsubw %ymm6, %ymm8, %ymm8
vpsrlw $3, %ymm8, %ymm8
vpsubw %ymm4, %ymm8, %ymm8
vpsubw %ymm8, %ymm4, %ymm4
vpsubw %ymm4, %ymm6, %ymm6
vpmullw %ymm13, %ymm8, %ymm8
vpsubw %ymm8, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm7, %ymm7
vpand mask3_5_3_5(%rip), %ymm7, %ymm9
vpand mask5_3_5_3(%rip), %ymm7, %ymm7
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm10
vpor %ymm10, %ymm7, %ymm7
vpaddw %ymm7, %ymm11, %ymm11
vmovdqa %xmm9, 2048(%rsp)
vpshufb shuf48_16(%rip), %ymm8, %ymm8
vpand mask3_5_3_5(%rip), %ymm8, %ymm9
vpand mask5_3_5_3(%rip), %ymm8, %ymm8
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm10
vpor %ymm10, %ymm8, %ymm8
vpaddw %ymm8, %ymm6, %ymm6
vmovdqa %xmm9, 2304(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm9
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm10
vpor %ymm10, %ymm5, %ymm5
vpaddw %ymm5, %ymm3, %ymm3
vmovdqa %xmm9, 2560(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 0(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 256(%rdi)
vpand mask_mod2048(%rip), %ymm3, %ymm3
vmovdqa %ymm3, 512(%rdi)
vpand mask_mod2048(%rip), %ymm4, %ymm4
vmovdqa %ymm4, 768(%rdi)
vmovdqa 32(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm8
vpunpckhwd const0(%rip), %ymm5, %ymm7
vpslld $1, %ymm8, %ymm8
vpslld $1, %ymm7, %ymm7
vmovdqa 288(%rsp), %ymm4
vpunpcklwd const0(%rip), %ymm4, %ymm3
vpunpckhwd const0(%rip), %ymm4, %ymm4
vmovdqa 544(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm3, %ymm9
vpaddd %ymm6, %ymm4, %ymm10
vpsubd %ymm8, %ymm9, %ymm9
vpsubd %ymm7, %ymm10, %ymm10
vpsubd %ymm11, %ymm3, %ymm11
vpsubd %ymm6, %ymm4, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1568(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm4
vpunpckhwd const0(%rip), %ymm11, %ymm3
vpslld $1, %ymm4, %ymm4
vpslld $1, %ymm3, %ymm3
vpsubd %ymm4, %ymm9, %ymm9
vpsubd %ymm3, %ymm10, %ymm10
vpsrld $1, %ymm9, %ymm9
vpsrld $1, %ymm10, %ymm10
vpand mask32_to_16(%rip), %ymm9, %ymm9
vpand mask32_to_16(%rip), %ymm10, %ymm10
vpackusdw %ymm10, %ymm9, %ymm10
vmovdqa 800(%rsp), %ymm9
vpaddw 1056(%rsp), %ymm9, %ymm3
vpsubw 1056(%rsp), %ymm9, %ymm9
vpsrlw $2, %ymm9, %ymm9
vpsubw %ymm6, %ymm9, %ymm9
vpmullw %ymm14, %ymm9, %ymm9
vpsllw $1, %ymm5, %ymm4
vpsubw %ymm4, %ymm3, %ymm4
vpsllw $7, %ymm11, %ymm3
vpsubw %ymm3, %ymm4, %ymm3
vpsrlw $3, %ymm3, %ymm3
vpsubw %ymm10, %ymm3, %ymm3
vmovdqa 1312(%rsp), %ymm4
vpsubw %ymm5, %ymm4, %ymm4
vpmullw %ymm15, %ymm11, %ymm7
vpsubw %ymm7, %ymm4, %ymm7
vpmullw %ymm14, %ymm3, %ymm3
vpsubw %ymm3, %ymm10, %ymm10
vpmullw %ymm12, %ymm3, %ymm4
vpaddw %ymm4, %ymm10, %ymm4
vpmullw %ymm12, %ymm4, %ymm4
vpsubw %ymm4, %ymm7, %ymm4
vpmullw %ymm14, %ymm4, %ymm4
vpsubw %ymm6, %ymm4, %ymm4
vpsrlw $3, %ymm4, %ymm4
vpsubw %ymm9, %ymm4, %ymm4
vpsubw %ymm4, %ymm9, %ymm9
vpsubw %ymm9, %ymm6, %ymm6
vpmullw %ymm13, %ymm4, %ymm4
vpsubw %ymm4, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm3, %ymm3
vpand mask3_5_3_5(%rip), %ymm3, %ymm7
vpand mask5_3_5_3(%rip), %ymm3, %ymm3
vpermq $206, %ymm7, %ymm7
vpand mask_keephigh(%rip), %ymm7, %ymm8
vpor %ymm8, %ymm3, %ymm3
vpaddw %ymm3, %ymm5, %ymm5
vmovdqa %xmm7, 2080(%rsp)
vpshufb shuf48_16(%rip), %ymm4, %ymm4
vpand mask3_5_3_5(%rip), %ymm4, %ymm7
vpand mask5_3_5_3(%rip), %ymm4, %ymm4
vpermq $206, %ymm7, %ymm7
vpand mask_keephigh(%rip), %ymm7, %ymm8
vpor %ymm8, %ymm4, %ymm4
vpaddw %ymm4, %ymm6, %ymm6
vmovdqa %xmm7, 2336(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm7
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm7, %ymm7
vpand mask_keephigh(%rip), %ymm7, %ymm8
vpor %ymm8, %ymm11, %ymm11
vpaddw %ymm11, %ymm10, %ymm10
vmovdqa %xmm7, 2592(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 64(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 320(%rdi)
vpand mask_mod2048(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 576(%rdi)
vpand mask_mod2048(%rip), %ymm9, %ymm9
vmovdqa %ymm9, 832(%rdi)
vmovdqa 64(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm4
vpunpckhwd const0(%rip), %ymm11, %ymm3
vpslld $1, %ymm4, %ymm4
vpslld $1, %ymm3, %ymm3
vmovdqa 320(%rsp), %ymm9
vpunpcklwd const0(%rip), %ymm9, %ymm10
vpunpckhwd const0(%rip), %ymm9, %ymm9
vmovdqa 576(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm10, %ymm7
vpaddd %ymm6, %ymm9, %ymm8
vpsubd %ymm4, %ymm7, %ymm7
vpsubd %ymm3, %ymm8, %ymm8
vpsubd %ymm5, %ymm10, %ymm5
vpsubd %ymm6, %ymm9, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1600(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm9
vpunpckhwd const0(%rip), %ymm5, %ymm10
vpslld $1, %ymm9, %ymm9
vpslld $1, %ymm10, %ymm10
vpsubd %ymm9, %ymm7, %ymm7
vpsubd %ymm10, %ymm8, %ymm8
vpsrld $1, %ymm7, %ymm7
vpsrld $1, %ymm8, %ymm8
vpand mask32_to_16(%rip), %ymm7, %ymm7
vpand mask32_to_16(%rip), %ymm8, %ymm8
vpackusdw %ymm8, %ymm7, %ymm8
vmovdqa 832(%rsp), %ymm7
vpaddw 1088(%rsp), %ymm7, %ymm10
vpsubw 1088(%rsp), %ymm7, %ymm7
vpsrlw $2, %ymm7, %ymm7
vpsubw %ymm6, %ymm7, %ymm7
vpmullw %ymm14, %ymm7, %ymm7
vpsllw $1, %ymm11, %ymm9
vpsubw %ymm9, %ymm10, %ymm9
vpsllw $7, %ymm5, %ymm10
vpsubw %ymm10, %ymm9, %ymm10
vpsrlw $3, %ymm10, %ymm10
vpsubw %ymm8, %ymm10, %ymm10
vmovdqa 1344(%rsp), %ymm9
vpsubw %ymm11, %ymm9, %ymm9
vpmullw %ymm15, %ymm5, %ymm3
vpsubw %ymm3, %ymm9, %ymm3
vpmullw %ymm14, %ymm10, %ymm10
vpsubw %ymm10, %ymm8, %ymm8
vpmullw %ymm12, %ymm10, %ymm9
vpaddw %ymm9, %ymm8, %ymm9
vpmullw %ymm12, %ymm9, %ymm9
vpsubw %ymm9, %ymm3, %ymm9
vpmullw %ymm14, %ymm9, %ymm9
vpsubw %ymm6, %ymm9, %ymm9
vpsrlw $3, %ymm9, %ymm9
vpsubw %ymm7, %ymm9, %ymm9
vpsubw %ymm9, %ymm7, %ymm7
vpsubw %ymm7, %ymm6, %ymm6
vpmullw %ymm13, %ymm9, %ymm9
vpsubw %ymm9, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm10, %ymm10
vpand mask3_5_3_5(%rip), %ymm10, %ymm3
vpand mask5_3_5_3(%rip), %ymm10, %ymm10
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm4
vpor %ymm4, %ymm10, %ymm10
vpaddw %ymm10, %ymm11, %ymm11
vmovdqa %xmm3, 2112(%rsp)
vpshufb shuf48_16(%rip), %ymm9, %ymm9
vpand mask3_5_3_5(%rip), %ymm9, %ymm3
vpand mask5_3_5_3(%rip), %ymm9, %ymm9
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm4
vpor %ymm4, %ymm9, %ymm9
vpaddw %ymm9, %ymm6, %ymm6
vmovdqa %xmm3, 2368(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm3
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm4
vpor %ymm4, %ymm5, %ymm5
vpaddw %ymm5, %ymm8, %ymm8
vmovdqa %xmm3, 2624(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 128(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 384(%rdi)
vpand mask_mod2048(%rip), %ymm8, %ymm8
vmovdqa %ymm8, 640(%rdi)
vpand mask_mod2048(%rip), %ymm7, %ymm7
vmovdqa %ymm7, 896(%rdi)
vmovdqa 96(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm9
vpunpckhwd const0(%rip), %ymm5, %ymm10
vpslld $1, %ymm9, %ymm9
vpslld $1, %ymm10, %ymm10
vmovdqa 352(%rsp), %ymm7
vpunpcklwd const0(%rip), %ymm7, %ymm8
vpunpckhwd const0(%rip), %ymm7, %ymm7
vmovdqa 608(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm8, %ymm3
vpaddd %ymm6, %ymm7, %ymm4
vpsubd %ymm9, %ymm3, %ymm3
vpsubd %ymm10, %ymm4, %ymm4
vpsubd %ymm11, %ymm8, %ymm11
vpsubd %ymm6, %ymm7, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1632(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm7
vpunpckhwd const0(%rip), %ymm11, %ymm8
vpslld $1, %ymm7, %ymm7
vpslld $1, %ymm8, %ymm8
vpsubd %ymm7, %ymm3, %ymm3
vpsubd %ymm8, %ymm4, %ymm4
vpsrld $1, %ymm3, %ymm3
vpsrld $1, %ymm4, %ymm4
vpand mask32_to_16(%rip), %ymm3, %ymm3
vpand mask32_to_16(%rip), %ymm4, %ymm4
vpackusdw %ymm4, %ymm3, %ymm4
vmovdqa 864(%rsp), %ymm3
vpaddw 1120(%rsp), %ymm3, %ymm8
vpsubw 1120(%rsp), %ymm3, %ymm3
vpsrlw $2, %ymm3, %ymm3
vpsubw %ymm6, %ymm3, %ymm3
vpmullw %ymm14, %ymm3, %ymm3
vpsllw $1, %ymm5, %ymm7
vpsubw %ymm7, %ymm8, %ymm7
vpsllw $7, %ymm11, %ymm8
vpsubw %ymm8, %ymm7, %ymm8
vpsrlw $3, %ymm8, %ymm8
vpsubw %ymm4, %ymm8, %ymm8
vmovdqa 1376(%rsp), %ymm7
vpsubw %ymm5, %ymm7, %ymm7
vpmullw %ymm15, %ymm11, %ymm10
vpsubw %ymm10, %ymm7, %ymm10
vpmullw %ymm14, %ymm8, %ymm8
vpsubw %ymm8, %ymm4, %ymm4
vpmullw %ymm12, %ymm8, %ymm7
vpaddw %ymm7, %ymm4, %ymm7
vpmullw %ymm12, %ymm7, %ymm7
vpsubw %ymm7, %ymm10, %ymm7
vpmullw %ymm14, %ymm7, %ymm7
vpsubw %ymm6, %ymm7, %ymm7
vpsrlw $3, %ymm7, %ymm7
vpsubw %ymm3, %ymm7, %ymm7
vpsubw %ymm7, %ymm3, %ymm3
vpsubw %ymm3, %ymm6, %ymm6
vpmullw %ymm13, %ymm7, %ymm7
vpsubw %ymm7, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm8, %ymm8
vpand mask3_5_3_5(%rip), %ymm8, %ymm10
vpand mask5_3_5_3(%rip), %ymm8, %ymm8
vpermq $206, %ymm10, %ymm10
vpand mask_keephigh(%rip), %ymm10, %ymm9
vpor %ymm9, %ymm8, %ymm8
vpaddw %ymm8, %ymm5, %ymm5
vmovdqa %xmm10, 2144(%rsp)
vpshufb shuf48_16(%rip), %ymm7, %ymm7
vpand mask3_5_3_5(%rip), %ymm7, %ymm10
vpand mask5_3_5_3(%rip), %ymm7, %ymm7
vpermq $206, %ymm10, %ymm10
vpand mask_keephigh(%rip), %ymm10, %ymm9
vpor %ymm9, %ymm7, %ymm7
vpaddw %ymm7, %ymm6, %ymm6
vmovdqa %xmm10, 2400(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm10
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm10, %ymm10
vpand mask_keephigh(%rip), %ymm10, %ymm9
vpor %ymm9, %ymm11, %ymm11
vpaddw %ymm11, %ymm4, %ymm4
vmovdqa %xmm10, 2656(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 192(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 448(%rdi)
vpand mask_mod2048(%rip), %ymm4, %ymm4
vmovdqa %ymm4, 704(%rdi)
vpand mask_mod2048(%rip), %ymm3, %ymm3
vmovdqa %ymm3, 960(%rdi)
vmovdqa 128(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm7
vpunpckhwd const0(%rip), %ymm11, %ymm8
vpslld $1, %ymm7, %ymm7
vpslld $1, %ymm8, %ymm8
vmovdqa 384(%rsp), %ymm3
vpunpcklwd const0(%rip), %ymm3, %ymm4
vpunpckhwd const0(%rip), %ymm3, %ymm3
vmovdqa 640(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm4, %ymm10
vpaddd %ymm6, %ymm3, %ymm9
vpsubd %ymm7, %ymm10, %ymm10
vpsubd %ymm8, %ymm9, %ymm9
vpsubd %ymm5, %ymm4, %ymm5
vpsubd %ymm6, %ymm3, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1664(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm3
vpunpckhwd const0(%rip), %ymm5, %ymm4
vpslld $1, %ymm3, %ymm3
vpslld $1, %ymm4, %ymm4
vpsubd %ymm3, %ymm10, %ymm10
vpsubd %ymm4, %ymm9, %ymm9
vpsrld $1, %ymm10, %ymm10
vpsrld $1, %ymm9, %ymm9
vpand mask32_to_16(%rip), %ymm10, %ymm10
vpand mask32_to_16(%rip), %ymm9, %ymm9
vpackusdw %ymm9, %ymm10, %ymm9
vmovdqa 896(%rsp), %ymm10
vpaddw 1152(%rsp), %ymm10, %ymm4
vpsubw 1152(%rsp), %ymm10, %ymm10
vpsrlw $2, %ymm10, %ymm10
vpsubw %ymm6, %ymm10, %ymm10
vpmullw %ymm14, %ymm10, %ymm10
vpsllw $1, %ymm11, %ymm3
vpsubw %ymm3, %ymm4, %ymm3
vpsllw $7, %ymm5, %ymm4
vpsubw %ymm4, %ymm3, %ymm4
vpsrlw $3, %ymm4, %ymm4
vpsubw %ymm9, %ymm4, %ymm4
vmovdqa 1408(%rsp), %ymm3
vpsubw %ymm11, %ymm3, %ymm3
vpmullw %ymm15, %ymm5, %ymm8
vpsubw %ymm8, %ymm3, %ymm8
vpmullw %ymm14, %ymm4, %ymm4
vpsubw %ymm4, %ymm9, %ymm9
vpmullw %ymm12, %ymm4, %ymm3
vpaddw %ymm3, %ymm9, %ymm3
vpmullw %ymm12, %ymm3, %ymm3
vpsubw %ymm3, %ymm8, %ymm3
vpmullw %ymm14, %ymm3, %ymm3
vpsubw %ymm6, %ymm3, %ymm3
vpsrlw $3, %ymm3, %ymm3
vpsubw %ymm10, %ymm3, %ymm3
vpsubw %ymm3, %ymm10, %ymm10
vpsubw %ymm10, %ymm6, %ymm6
vpmullw %ymm13, %ymm3, %ymm3
vpsubw %ymm3, %ymm6, %ymm6
vmovdqa 256(%rdi), %ymm8
vmovdqa 512(%rdi), %ymm7
vmovdqa 768(%rdi), %ymm2
vpaddw %ymm11, %ymm8, %ymm11
vpaddw %ymm6, %ymm7, %ymm6
vpaddw %ymm9, %ymm2, %ymm9
vpshufb shuf48_16(%rip), %ymm10, %ymm10
vpand mask3_5_3_5(%rip), %ymm10, %ymm2
vpand mask5_3_5_3(%rip), %ymm10, %ymm10
vpermq $206, %ymm2, %ymm2
vpand mask_keephigh(%rip), %ymm2, %ymm7
vpor %ymm7, %ymm10, %ymm10
vmovdqa 0(%rdi), %ymm7
vpaddw %ymm10, %ymm7, %ymm7
vpand mask_mod2048(%rip), %ymm7, %ymm7
vmovdqa %ymm7, 0(%rdi)
vmovdqa %xmm2, 1920(%rsp)
vpshufb shuf48_16(%rip), %ymm4, %ymm4
vpand mask3_5_3_5(%rip), %ymm4, %ymm2
vpand mask5_3_5_3(%rip), %ymm4, %ymm4
vpermq $206, %ymm2, %ymm2
vpand mask_keephigh(%rip), %ymm2, %ymm7
vpor %ymm7, %ymm4, %ymm4
vpaddw %ymm4, %ymm11, %ymm11
vmovdqa %xmm2, 2176(%rsp)
vpshufb shuf48_16(%rip), %ymm3, %ymm3
vpand mask3_5_3_5(%rip), %ymm3, %ymm2
vpand mask5_3_5_3(%rip), %ymm3, %ymm3
vpermq $206, %ymm2, %ymm2
vpand mask_keephigh(%rip), %ymm2, %ymm7
vpor %ymm7, %ymm3, %ymm3
vpaddw %ymm3, %ymm6, %ymm6
vmovdqa %xmm2, 2432(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm2
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm2, %ymm2
vpand mask_keephigh(%rip), %ymm2, %ymm7
vpor %ymm7, %ymm5, %ymm5
vpaddw %ymm5, %ymm9, %ymm9
vmovdqa %xmm2, 2688(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 256(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 512(%rdi)
vpand mask_mod2048(%rip), %ymm9, %ymm9
vmovdqa %ymm9, 768(%rdi)
vmovdqa 160(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm3
vpunpckhwd const0(%rip), %ymm5, %ymm4
vpslld $1, %ymm3, %ymm3
vpslld $1, %ymm4, %ymm4
vmovdqa 416(%rsp), %ymm10
vpunpcklwd const0(%rip), %ymm10, %ymm9
vpunpckhwd const0(%rip), %ymm10, %ymm10
vmovdqa 672(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm9, %ymm2
vpaddd %ymm6, %ymm10, %ymm7
vpsubd %ymm3, %ymm2, %ymm2
vpsubd %ymm4, %ymm7, %ymm7
vpsubd %ymm11, %ymm9, %ymm11
vpsubd %ymm6, %ymm10, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1696(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm10
vpunpckhwd const0(%rip), %ymm11, %ymm9
vpslld $1, %ymm10, %ymm10
vpslld $1, %ymm9, %ymm9
vpsubd %ymm10, %ymm2, %ymm2
vpsubd %ymm9, %ymm7, %ymm7
vpsrld $1, %ymm2, %ymm2
vpsrld $1, %ymm7, %ymm7
vpand mask32_to_16(%rip), %ymm2, %ymm2
vpand mask32_to_16(%rip), %ymm7, %ymm7
vpackusdw %ymm7, %ymm2, %ymm7
vmovdqa 928(%rsp), %ymm2
vpaddw 1184(%rsp), %ymm2, %ymm9
vpsubw 1184(%rsp), %ymm2, %ymm2
vpsrlw $2, %ymm2, %ymm2
vpsubw %ymm6, %ymm2, %ymm2
vpmullw %ymm14, %ymm2, %ymm2
vpsllw $1, %ymm5, %ymm10
vpsubw %ymm10, %ymm9, %ymm10
vpsllw $7, %ymm11, %ymm9
vpsubw %ymm9, %ymm10, %ymm9
vpsrlw $3, %ymm9, %ymm9
vpsubw %ymm7, %ymm9, %ymm9
vmovdqa 1440(%rsp), %ymm10
vpsubw %ymm5, %ymm10, %ymm10
vpmullw %ymm15, %ymm11, %ymm4
vpsubw %ymm4, %ymm10, %ymm4
vpmullw %ymm14, %ymm9, %ymm9
vpsubw %ymm9, %ymm7, %ymm7
vpmullw %ymm12, %ymm9, %ymm10
vpaddw %ymm10, %ymm7, %ymm10
vpmullw %ymm12, %ymm10, %ymm10
vpsubw %ymm10, %ymm4, %ymm10
vpmullw %ymm14, %ymm10, %ymm10
vpsubw %ymm6, %ymm10, %ymm10
vpsrlw $3, %ymm10, %ymm10
vpsubw %ymm2, %ymm10, %ymm10
vpsubw %ymm10, %ymm2, %ymm2
vpsubw %ymm2, %ymm6, %ymm6
vpmullw %ymm13, %ymm10, %ymm10
vpsubw %ymm10, %ymm6, %ymm6
vmovdqa 320(%rdi), %ymm4
vmovdqa 576(%rdi), %ymm3
vmovdqa 832(%rdi), %ymm8
vpaddw %ymm5, %ymm4, %ymm5
vpaddw %ymm6, %ymm3, %ymm6
vpaddw %ymm7, %ymm8, %ymm7
vpshufb shuf48_16(%rip), %ymm2, %ymm2
vpand mask3_5_3_5(%rip), %ymm2, %ymm8
vpand mask5_3_5_3(%rip), %ymm2, %ymm2
vpermq $206, %ymm8, %ymm8
vpand mask_keephigh(%rip), %ymm8, %ymm3
vpor %ymm3, %ymm2, %ymm2
vmovdqa 64(%rdi), %ymm3
vpaddw %ymm2, %ymm3, %ymm3
vpand mask_mod2048(%rip), %ymm3, %ymm3
vmovdqa %ymm3, 64(%rdi)
vmovdqa %xmm8, 1952(%rsp)
vpshufb shuf48_16(%rip), %ymm9, %ymm9
vpand mask3_5_3_5(%rip), %ymm9, %ymm8
vpand mask5_3_5_3(%rip), %ymm9, %ymm9
vpermq $206, %ymm8, %ymm8
vpand mask_keephigh(%rip), %ymm8, %ymm3
vpor %ymm3, %ymm9, %ymm9
vpaddw %ymm9, %ymm5, %ymm5
vmovdqa %xmm8, 2208(%rsp)
vpshufb shuf48_16(%rip), %ymm10, %ymm10
vpand mask3_5_3_5(%rip), %ymm10, %ymm8
vpand mask5_3_5_3(%rip), %ymm10, %ymm10
vpermq $206, %ymm8, %ymm8
vpand mask_keephigh(%rip), %ymm8, %ymm3
vpor %ymm3, %ymm10, %ymm10
vpaddw %ymm10, %ymm6, %ymm6
vmovdqa %xmm8, 2464(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm8
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm8, %ymm8
vpand mask_keephigh(%rip), %ymm8, %ymm3
vpor %ymm3, %ymm11, %ymm11
vpaddw %ymm11, %ymm7, %ymm7
vmovdqa %xmm8, 2720(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 320(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 576(%rdi)
vpand mask_mod2048(%rip), %ymm7, %ymm7
vmovdqa %ymm7, 832(%rdi)
vmovdqa 192(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm10
vpunpckhwd const0(%rip), %ymm11, %ymm9
vpslld $1, %ymm10, %ymm10
vpslld $1, %ymm9, %ymm9
vmovdqa 448(%rsp), %ymm2
vpunpcklwd const0(%rip), %ymm2, %ymm7
vpunpckhwd const0(%rip), %ymm2, %ymm2
vmovdqa 704(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm7, %ymm8
vpaddd %ymm6, %ymm2, %ymm3
vpsubd %ymm10, %ymm8, %ymm8
vpsubd %ymm9, %ymm3, %ymm3
vpsubd %ymm5, %ymm7, %ymm5
vpsubd %ymm6, %ymm2, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1728(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm2
vpunpckhwd const0(%rip), %ymm5, %ymm7
vpslld $1, %ymm2, %ymm2
vpslld $1, %ymm7, %ymm7
vpsubd %ymm2, %ymm8, %ymm8
vpsubd %ymm7, %ymm3, %ymm3
vpsrld $1, %ymm8, %ymm8
vpsrld $1, %ymm3, %ymm3
vpand mask32_to_16(%rip), %ymm8, %ymm8
vpand mask32_to_16(%rip), %ymm3, %ymm3
vpackusdw %ymm3, %ymm8, %ymm3
vmovdqa 960(%rsp), %ymm8
vpaddw 1216(%rsp), %ymm8, %ymm7
vpsubw 1216(%rsp), %ymm8, %ymm8
vpsrlw $2, %ymm8, %ymm8
vpsubw %ymm6, %ymm8, %ymm8
vpmullw %ymm14, %ymm8, %ymm8
vpsllw $1, %ymm11, %ymm2
vpsubw %ymm2, %ymm7, %ymm2
vpsllw $7, %ymm5, %ymm7
vpsubw %ymm7, %ymm2, %ymm7
vpsrlw $3, %ymm7, %ymm7
vpsubw %ymm3, %ymm7, %ymm7
vmovdqa 1472(%rsp), %ymm2
vpsubw %ymm11, %ymm2, %ymm2
vpmullw %ymm15, %ymm5, %ymm9
vpsubw %ymm9, %ymm2, %ymm9
vpmullw %ymm14, %ymm7, %ymm7
vpsubw %ymm7, %ymm3, %ymm3
vpmullw %ymm12, %ymm7, %ymm2
vpaddw %ymm2, %ymm3, %ymm2
vpmullw %ymm12, %ymm2, %ymm2
vpsubw %ymm2, %ymm9, %ymm2
vpmullw %ymm14, %ymm2, %ymm2
vpsubw %ymm6, %ymm2, %ymm2
vpsrlw $3, %ymm2, %ymm2
vpsubw %ymm8, %ymm2, %ymm2
vpsubw %ymm2, %ymm8, %ymm8
vpsubw %ymm8, %ymm6, %ymm6
vpmullw %ymm13, %ymm2, %ymm2
vpsubw %ymm2, %ymm6, %ymm6
vmovdqa 384(%rdi), %ymm9
vmovdqa 640(%rdi), %ymm10
vmovdqa 896(%rdi), %ymm4
vpaddw %ymm11, %ymm9, %ymm11
vpaddw %ymm6, %ymm10, %ymm6
vpaddw %ymm3, %ymm4, %ymm3
vpshufb shuf48_16(%rip), %ymm8, %ymm8
vpand mask3_5_3_5(%rip), %ymm8, %ymm4
vpand mask5_3_5_3(%rip), %ymm8, %ymm8
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm10
vpor %ymm10, %ymm8, %ymm8
vmovdqa 128(%rdi), %ymm10
vpaddw %ymm8, %ymm10, %ymm10
vpand mask_mod2048(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 128(%rdi)
vmovdqa %xmm4, 1984(%rsp)
vpshufb shuf48_16(%rip), %ymm7, %ymm7
vpand mask3_5_3_5(%rip), %ymm7, %ymm4
vpand mask5_3_5_3(%rip), %ymm7, %ymm7
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm10
vpor %ymm10, %ymm7, %ymm7
vpaddw %ymm7, %ymm11, %ymm11
vmovdqa %xmm4, 2240(%rsp)
vpshufb shuf48_16(%rip), %ymm2, %ymm2
vpand mask3_5_3_5(%rip), %ymm2, %ymm4
vpand mask5_3_5_3(%rip), %ymm2, %ymm2
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm10
vpor %ymm10, %ymm2, %ymm2
vpaddw %ymm2, %ymm6, %ymm6
vmovdqa %xmm4, 2496(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm4
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm10
vpor %ymm10, %ymm5, %ymm5
vpaddw %ymm5, %ymm3, %ymm3
vmovdqa %xmm4, 2752(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 384(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 640(%rdi)
vpand mask_mod2048(%rip), %ymm3, %ymm3
vmovdqa %ymm3, 896(%rdi)
vmovdqa 224(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm2
vpunpckhwd const0(%rip), %ymm5, %ymm7
vpslld $1, %ymm2, %ymm2
vpslld $1, %ymm7, %ymm7
vmovdqa 480(%rsp), %ymm8
vpunpcklwd const0(%rip), %ymm8, %ymm3
vpunpckhwd const0(%rip), %ymm8, %ymm8
vmovdqa 736(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm3, %ymm4
vpaddd %ymm6, %ymm8, %ymm10
vpsubd %ymm2, %ymm4, %ymm4
vpsubd %ymm7, %ymm10, %ymm10
vpsubd %ymm11, %ymm3, %ymm11
vpsubd %ymm6, %ymm8, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1760(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm8
vpunpckhwd const0(%rip), %ymm11, %ymm3
vpslld $1, %ymm8, %ymm8
vpslld $1, %ymm3, %ymm3
vpsubd %ymm8, %ymm4, %ymm4
vpsubd %ymm3, %ymm10, %ymm10
vpsrld $1, %ymm4, %ymm4
vpsrld $1, %ymm10, %ymm10
vpand mask32_to_16(%rip), %ymm4, %ymm4
vpand mask32_to_16(%rip), %ymm10, %ymm10
vpackusdw %ymm10, %ymm4, %ymm10
vmovdqa 992(%rsp), %ymm4
vpaddw 1248(%rsp), %ymm4, %ymm3
vpsubw 1248(%rsp), %ymm4, %ymm4
vpsrlw $2, %ymm4, %ymm4
vpsubw %ymm6, %ymm4, %ymm4
vpmullw %ymm14, %ymm4, %ymm4
vpsllw $1, %ymm5, %ymm8
vpsubw %ymm8, %ymm3, %ymm8
vpsllw $7, %ymm11, %ymm3
vpsubw %ymm3, %ymm8, %ymm3
vpsrlw $3, %ymm3, %ymm3
vpsubw %ymm10, %ymm3, %ymm3
vmovdqa 1504(%rsp), %ymm8
vpsubw %ymm5, %ymm8, %ymm8
vpmullw %ymm15, %ymm11, %ymm7
vpsubw %ymm7, %ymm8, %ymm7
vpmullw %ymm14, %ymm3, %ymm3
vpsubw %ymm3, %ymm10, %ymm10
vpmullw %ymm12, %ymm3, %ymm8
vpaddw %ymm8, %ymm10, %ymm8
vpmullw %ymm12, %ymm8, %ymm8
vpsubw %ymm8, %ymm7, %ymm8
vpmullw %ymm14, %ymm8, %ymm8
vpsubw %ymm6, %ymm8, %ymm8
vpsrlw $3, %ymm8, %ymm8
vpsubw %ymm4, %ymm8, %ymm8
vpsubw %ymm8, %ymm4, %ymm4
vpsubw %ymm4, %ymm6, %ymm6
vpmullw %ymm13, %ymm8, %ymm8
vpsubw %ymm8, %ymm6, %ymm6
vmovdqa 448(%rdi), %ymm7
vmovdqa 704(%rdi), %ymm2
vmovdqa 960(%rdi), %ymm9
vpaddw %ymm5, %ymm7, %ymm5
vpaddw %ymm6, %ymm2, %ymm6
vpaddw %ymm10, %ymm9, %ymm10
vpshufb shuf48_16(%rip), %ymm4, %ymm4
vpand mask3_5_3_5(%rip), %ymm4, %ymm9
vpand mask5_3_5_3(%rip), %ymm4, %ymm4
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm2
vpor %ymm2, %ymm4, %ymm4
vmovdqa 192(%rdi), %ymm2
vpaddw %ymm4, %ymm2, %ymm2
vpand mask_mod2048(%rip), %ymm2, %ymm2
vmovdqa %ymm2, 192(%rdi)
vmovdqa %xmm9, 2016(%rsp)
vpshufb shuf48_16(%rip), %ymm3, %ymm3
vpand mask3_5_3_5(%rip), %ymm3, %ymm9
vpand mask5_3_5_3(%rip), %ymm3, %ymm3
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm2
vpor %ymm2, %ymm3, %ymm3
vpaddw %ymm3, %ymm5, %ymm5
vmovdqa %xmm9, 2272(%rsp)
vpshufb shuf48_16(%rip), %ymm8, %ymm8
vpand mask3_5_3_5(%rip), %ymm8, %ymm9
vpand mask5_3_5_3(%rip), %ymm8, %ymm8
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm2
vpor %ymm2, %ymm8, %ymm8
vpaddw %ymm8, %ymm6, %ymm6
vmovdqa %xmm9, 2528(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm9
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm2
vpor %ymm2, %ymm11, %ymm11
vpaddw %ymm11, %ymm10, %ymm10
vmovdqa %xmm9, 2784(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 448(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 704(%rdi)
vpand mask_mod2048(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 960(%rdi)
vmovdqa 96(%r12), %ymm0
vpsubw 160(%r12), %ymm0, %ymm0
vmovdqa 352(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 224(%r12), %ymm1, %ymm1
vpsubw 32(%r12), %ymm0, %ymm0
vpaddw 288(%r12), %ymm0, %ymm0
vmovdqa 480(%r12), %ymm2
vpsubw 544(%r12), %ymm2, %ymm2
vmovdqa 736(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 608(%r12), %ymm3, %ymm3
vpsubw 416(%r12), %ymm2, %ymm2
vpaddw 672(%r12), %ymm2, %ymm2
vmovdqa 864(%r12), %ymm4
vpsubw 928(%r12), %ymm4, %ymm4
vmovdqa 1120(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 992(%r12), %ymm5, %ymm5
vpsubw 800(%r12), %ymm4, %ymm4
vpaddw 1056(%r12), %ymm4, %ymm4
vpsubw 416(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 32(%r12), %ymm1, %ymm1
vpaddw 800(%r12), %ymm1, %ymm1
vmovdqa 224(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 992(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 608(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 32(%r12), %ymm8
vmovdqa 608(%r12), %ymm9
vmovdqa %ymm8, 0(%rsp)
vmovdqa %ymm0, 32(%rsp)
vmovdqa %ymm1, 64(%rsp)
vmovdqa %ymm7, 96(%rsp)
vmovdqa %ymm5, 128(%rsp)
vmovdqa %ymm2, 160(%rsp)
vmovdqa %ymm3, 192(%rsp)
vmovdqa %ymm9, 224(%rsp)
vmovdqa 1248(%r12), %ymm0
vpsubw 1312(%r12), %ymm0, %ymm0
vmovdqa 1504(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 1376(%r12), %ymm1, %ymm1
vpsubw 1184(%r12), %ymm0, %ymm0
vpaddw 1440(%r12), %ymm0, %ymm0
vmovdqa 1632(%r12), %ymm2
vpsubw 1696(%r12), %ymm2, %ymm2
vmovdqa 1888(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 1760(%r12), %ymm3, %ymm3
vpsubw 1568(%r12), %ymm2, %ymm2
vpaddw 1824(%r12), %ymm2, %ymm2
vmovdqa 2016(%r12), %ymm4
vpsubw 2080(%r12), %ymm4, %ymm4
vmovdqa 2272(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 2144(%r12), %ymm5, %ymm5
vpsubw 1952(%r12), %ymm4, %ymm4
vpaddw 2208(%r12), %ymm4, %ymm4
vpsubw 1568(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 1184(%r12), %ymm1, %ymm1
vpaddw 1952(%r12), %ymm1, %ymm1
vmovdqa 1376(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 2144(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 1760(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 1184(%r12), %ymm8
vmovdqa 1760(%r12), %ymm9
vmovdqa %ymm8, 256(%rsp)
vmovdqa %ymm0, 288(%rsp)
vmovdqa %ymm1, 320(%rsp)
vmovdqa %ymm7, 352(%rsp)
vmovdqa %ymm5, 384(%rsp)
vmovdqa %ymm2, 416(%rsp)
vmovdqa %ymm3, 448(%rsp)
vmovdqa %ymm9, 480(%rsp)
vmovdqa 2400(%r12), %ymm0
vpsubw 2464(%r12), %ymm0, %ymm0
vmovdqa 2656(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 2528(%r12), %ymm1, %ymm1
vpsubw 2336(%r12), %ymm0, %ymm0
vpaddw 2592(%r12), %ymm0, %ymm0
vmovdqa 2784(%r12), %ymm2
vpsubw 2848(%r12), %ymm2, %ymm2
vmovdqa 3040(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 2912(%r12), %ymm3, %ymm3
vpsubw 2720(%r12), %ymm2, %ymm2
vpaddw 2976(%r12), %ymm2, %ymm2
vmovdqa 3168(%r12), %ymm4
vpsubw 3232(%r12), %ymm4, %ymm4
vmovdqa 3424(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 3296(%r12), %ymm5, %ymm5
vpsubw 3104(%r12), %ymm4, %ymm4
vpaddw 3360(%r12), %ymm4, %ymm4
vpsubw 2720(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 2336(%r12), %ymm1, %ymm1
vpaddw 3104(%r12), %ymm1, %ymm1
vmovdqa 2528(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 3296(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 2912(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 2336(%r12), %ymm8
vmovdqa 2912(%r12), %ymm9
vmovdqa %ymm8, 512(%rsp)
vmovdqa %ymm0, 544(%rsp)
vmovdqa %ymm1, 576(%rsp)
vmovdqa %ymm7, 608(%rsp)
vmovdqa %ymm5, 640(%rsp)
vmovdqa %ymm2, 672(%rsp)
vmovdqa %ymm3, 704(%rsp)
vmovdqa %ymm9, 736(%rsp)
vmovdqa 3552(%r12), %ymm0
vpsubw 3616(%r12), %ymm0, %ymm0
vmovdqa 3808(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 3680(%r12), %ymm1, %ymm1
vpsubw 3488(%r12), %ymm0, %ymm0
vpaddw 3744(%r12), %ymm0, %ymm0
vmovdqa 3936(%r12), %ymm2
vpsubw 4000(%r12), %ymm2, %ymm2
vmovdqa 4192(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 4064(%r12), %ymm3, %ymm3
vpsubw 3872(%r12), %ymm2, %ymm2
vpaddw 4128(%r12), %ymm2, %ymm2
vmovdqa 4320(%r12), %ymm4
vpsubw 4384(%r12), %ymm4, %ymm4
vmovdqa 4576(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 4448(%r12), %ymm5, %ymm5
vpsubw 4256(%r12), %ymm4, %ymm4
vpaddw 4512(%r12), %ymm4, %ymm4
vpsubw 3872(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 3488(%r12), %ymm1, %ymm1
vpaddw 4256(%r12), %ymm1, %ymm1
vmovdqa 3680(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 4448(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 4064(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 3488(%r12), %ymm8
vmovdqa 4064(%r12), %ymm9
vmovdqa %ymm8, 768(%rsp)
vmovdqa %ymm0, 800(%rsp)
vmovdqa %ymm1, 832(%rsp)
vmovdqa %ymm7, 864(%rsp)
vmovdqa %ymm5, 896(%rsp)
vmovdqa %ymm2, 928(%rsp)
vmovdqa %ymm3, 960(%rsp)
vmovdqa %ymm9, 992(%rsp)
vmovdqa 4704(%r12), %ymm0
vpsubw 4768(%r12), %ymm0, %ymm0
vmovdqa 4960(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 4832(%r12), %ymm1, %ymm1
vpsubw 4640(%r12), %ymm0, %ymm0
vpaddw 4896(%r12), %ymm0, %ymm0
vmovdqa 5088(%r12), %ymm2
vpsubw 5152(%r12), %ymm2, %ymm2
vmovdqa 5344(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 5216(%r12), %ymm3, %ymm3
vpsubw 5024(%r12), %ymm2, %ymm2
vpaddw 5280(%r12), %ymm2, %ymm2
vmovdqa 5472(%r12), %ymm4
vpsubw 5536(%r12), %ymm4, %ymm4
vmovdqa 5728(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 5600(%r12), %ymm5, %ymm5
vpsubw 5408(%r12), %ymm4, %ymm4
vpaddw 5664(%r12), %ymm4, %ymm4
vpsubw 5024(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 4640(%r12), %ymm1, %ymm1
vpaddw 5408(%r12), %ymm1, %ymm1
vmovdqa 4832(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 5600(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 5216(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 4640(%r12), %ymm8
vmovdqa 5216(%r12), %ymm9
vmovdqa %ymm8, 1024(%rsp)
vmovdqa %ymm0, 1056(%rsp)
vmovdqa %ymm1, 1088(%rsp)
vmovdqa %ymm7, 1120(%rsp)
vmovdqa %ymm5, 1152(%rsp)
vmovdqa %ymm2, 1184(%rsp)
vmovdqa %ymm3, 1216(%rsp)
vmovdqa %ymm9, 1248(%rsp)
vmovdqa 5856(%r12), %ymm0
vpsubw 5920(%r12), %ymm0, %ymm0
vmovdqa 6112(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 5984(%r12), %ymm1, %ymm1
vpsubw 5792(%r12), %ymm0, %ymm0
vpaddw 6048(%r12), %ymm0, %ymm0
vmovdqa 6240(%r12), %ymm2
vpsubw 6304(%r12), %ymm2, %ymm2
vmovdqa 6496(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 6368(%r12), %ymm3, %ymm3
vpsubw 6176(%r12), %ymm2, %ymm2
vpaddw 6432(%r12), %ymm2, %ymm2
vmovdqa 6624(%r12), %ymm4
vpsubw 6688(%r12), %ymm4, %ymm4
vmovdqa 6880(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 6752(%r12), %ymm5, %ymm5
vpsubw 6560(%r12), %ymm4, %ymm4
vpaddw 6816(%r12), %ymm4, %ymm4
vpsubw 6176(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 5792(%r12), %ymm1, %ymm1
vpaddw 6560(%r12), %ymm1, %ymm1
vmovdqa 5984(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 6752(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 6368(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 5792(%r12), %ymm8
vmovdqa 6368(%r12), %ymm9
vmovdqa %ymm8, 1280(%rsp)
vmovdqa %ymm0, 1312(%rsp)
vmovdqa %ymm1, 1344(%rsp)
vmovdqa %ymm7, 1376(%rsp)
vmovdqa %ymm5, 1408(%rsp)
vmovdqa %ymm2, 1440(%rsp)
vmovdqa %ymm3, 1472(%rsp)
vmovdqa %ymm9, 1504(%rsp)
vmovdqa 7008(%r12), %ymm0
vpsubw 7072(%r12), %ymm0, %ymm0
vmovdqa 7264(%r12), %ymm1
vpsubw %ymm0, %ymm1, %ymm1
vpsubw 7136(%r12), %ymm1, %ymm1
vpsubw 6944(%r12), %ymm0, %ymm0
vpaddw 7200(%r12), %ymm0, %ymm0
vmovdqa 7392(%r12), %ymm2
vpsubw 7456(%r12), %ymm2, %ymm2
vmovdqa 7648(%r12), %ymm3
vpsubw %ymm2, %ymm3, %ymm3
vpsubw 7520(%r12), %ymm3, %ymm3
vpsubw 7328(%r12), %ymm2, %ymm2
vpaddw 7584(%r12), %ymm2, %ymm2
vmovdqa 7776(%r12), %ymm4
vpsubw 7840(%r12), %ymm4, %ymm4
vmovdqa 8032(%r12), %ymm5
vpsubw %ymm4, %ymm5, %ymm5
vpsubw 7904(%r12), %ymm5, %ymm5
vpsubw 7712(%r12), %ymm4, %ymm4
vpaddw 7968(%r12), %ymm4, %ymm4
vpsubw 7328(%r12), %ymm1, %ymm1
vpsubw %ymm1, %ymm5, %ymm5
vpsubw %ymm3, %ymm5, %ymm5
vpsubw 6944(%r12), %ymm1, %ymm1
vpaddw 7712(%r12), %ymm1, %ymm1
vmovdqa 7136(%r12), %ymm6
vpsubw %ymm2, %ymm6, %ymm7
vmovdqa 7904(%r12), %ymm2
vpsubw %ymm7, %ymm2, %ymm2
vpsubw 7520(%r12), %ymm2, %ymm2
vpsubw %ymm0, %ymm7, %ymm7
vpaddw %ymm4, %ymm7, %ymm7
vmovdqa 6944(%r12), %ymm8
vmovdqa 7520(%r12), %ymm9
vmovdqa %ymm8, 1536(%rsp)
vmovdqa %ymm0, 1568(%rsp)
vmovdqa %ymm1, 1600(%rsp)
vmovdqa %ymm7, 1632(%rsp)
vmovdqa %ymm5, 1664(%rsp)
vmovdqa %ymm2, 1696(%rsp)
vmovdqa %ymm3, 1728(%rsp)
vmovdqa %ymm9, 1760(%rsp)
vmovdqa 0(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm8
vpunpckhwd const0(%rip), %ymm11, %ymm3
vpslld $1, %ymm8, %ymm8
vpslld $1, %ymm3, %ymm3
vmovdqa 256(%rsp), %ymm4
vpunpcklwd const0(%rip), %ymm4, %ymm10
vpunpckhwd const0(%rip), %ymm4, %ymm4
vmovdqa 512(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm10, %ymm9
vpaddd %ymm6, %ymm4, %ymm2
vpsubd %ymm8, %ymm9, %ymm9
vpsubd %ymm3, %ymm2, %ymm2
vpsubd %ymm5, %ymm10, %ymm5
vpsubd %ymm6, %ymm4, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1536(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm4
vpunpckhwd const0(%rip), %ymm5, %ymm10
vpslld $1, %ymm4, %ymm4
vpslld $1, %ymm10, %ymm10
vpsubd %ymm4, %ymm9, %ymm9
vpsubd %ymm10, %ymm2, %ymm2
vpsrld $1, %ymm9, %ymm9
vpsrld $1, %ymm2, %ymm2
vpand mask32_to_16(%rip), %ymm9, %ymm9
vpand mask32_to_16(%rip), %ymm2, %ymm2
vpackusdw %ymm2, %ymm9, %ymm2
vmovdqa 768(%rsp), %ymm9
vpaddw 1024(%rsp), %ymm9, %ymm10
vpsubw 1024(%rsp), %ymm9, %ymm9
vpsrlw $2, %ymm9, %ymm9
vpsubw %ymm6, %ymm9, %ymm9
vpmullw %ymm14, %ymm9, %ymm9
vpsllw $1, %ymm11, %ymm4
vpsubw %ymm4, %ymm10, %ymm4
vpsllw $7, %ymm5, %ymm10
vpsubw %ymm10, %ymm4, %ymm10
vpsrlw $3, %ymm10, %ymm10
vpsubw %ymm2, %ymm10, %ymm10
vmovdqa 1280(%rsp), %ymm4
vpsubw %ymm11, %ymm4, %ymm4
vpmullw %ymm15, %ymm5, %ymm3
vpsubw %ymm3, %ymm4, %ymm3
vpmullw %ymm14, %ymm10, %ymm10
vpsubw %ymm10, %ymm2, %ymm2
vpmullw %ymm12, %ymm10, %ymm4
vpaddw %ymm4, %ymm2, %ymm4
vpmullw %ymm12, %ymm4, %ymm4
vpsubw %ymm4, %ymm3, %ymm4
vpmullw %ymm14, %ymm4, %ymm4
vpsubw %ymm6, %ymm4, %ymm4
vpsrlw $3, %ymm4, %ymm4
vpsubw %ymm9, %ymm4, %ymm4
vpsubw %ymm4, %ymm9, %ymm9
vpsubw %ymm9, %ymm6, %ymm6
vpmullw %ymm13, %ymm4, %ymm4
vpsubw %ymm4, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm10, %ymm10
vpand mask3_5_3_5(%rip), %ymm10, %ymm3
vpand mask5_3_5_3(%rip), %ymm10, %ymm10
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm8
vpor %ymm8, %ymm10, %ymm10
vpaddw 2048(%rsp), %ymm11, %ymm11
vpaddw %ymm10, %ymm11, %ymm11
vmovdqa %xmm3, 2048(%rsp)
vpshufb shuf48_16(%rip), %ymm4, %ymm4
vpand mask3_5_3_5(%rip), %ymm4, %ymm3
vpand mask5_3_5_3(%rip), %ymm4, %ymm4
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm8
vpor %ymm8, %ymm4, %ymm4
vpaddw 2304(%rsp), %ymm6, %ymm6
vpaddw %ymm4, %ymm6, %ymm6
vmovdqa %xmm3, 2304(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm3
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm8
vpor %ymm8, %ymm5, %ymm5
vpaddw 2560(%rsp), %ymm2, %ymm2
vpaddw %ymm5, %ymm2, %ymm2
vmovdqa %xmm3, 2560(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 32(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 288(%rdi)
vpand mask_mod2048(%rip), %ymm2, %ymm2
vmovdqa %ymm2, 544(%rdi)
vpand mask_mod2048(%rip), %ymm9, %ymm9
vmovdqa %ymm9, 800(%rdi)
vmovdqa 32(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm4
vpunpckhwd const0(%rip), %ymm5, %ymm10
vpslld $1, %ymm4, %ymm4
vpslld $1, %ymm10, %ymm10
vmovdqa 288(%rsp), %ymm9
vpunpcklwd const0(%rip), %ymm9, %ymm2
vpunpckhwd const0(%rip), %ymm9, %ymm9
vmovdqa 544(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm2, %ymm3
vpaddd %ymm6, %ymm9, %ymm8
vpsubd %ymm4, %ymm3, %ymm3
vpsubd %ymm10, %ymm8, %ymm8
vpsubd %ymm11, %ymm2, %ymm11
vpsubd %ymm6, %ymm9, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1568(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm9
vpunpckhwd const0(%rip), %ymm11, %ymm2
vpslld $1, %ymm9, %ymm9
vpslld $1, %ymm2, %ymm2
vpsubd %ymm9, %ymm3, %ymm3
vpsubd %ymm2, %ymm8, %ymm8
vpsrld $1, %ymm3, %ymm3
vpsrld $1, %ymm8, %ymm8
vpand mask32_to_16(%rip), %ymm3, %ymm3
vpand mask32_to_16(%rip), %ymm8, %ymm8
vpackusdw %ymm8, %ymm3, %ymm8
vmovdqa 800(%rsp), %ymm3
vpaddw 1056(%rsp), %ymm3, %ymm2
vpsubw 1056(%rsp), %ymm3, %ymm3
vpsrlw $2, %ymm3, %ymm3
vpsubw %ymm6, %ymm3, %ymm3
vpmullw %ymm14, %ymm3, %ymm3
vpsllw $1, %ymm5, %ymm9
vpsubw %ymm9, %ymm2, %ymm9
vpsllw $7, %ymm11, %ymm2
vpsubw %ymm2, %ymm9, %ymm2
vpsrlw $3, %ymm2, %ymm2
vpsubw %ymm8, %ymm2, %ymm2
vmovdqa 1312(%rsp), %ymm9
vpsubw %ymm5, %ymm9, %ymm9
vpmullw %ymm15, %ymm11, %ymm10
vpsubw %ymm10, %ymm9, %ymm10
vpmullw %ymm14, %ymm2, %ymm2
vpsubw %ymm2, %ymm8, %ymm8
vpmullw %ymm12, %ymm2, %ymm9
vpaddw %ymm9, %ymm8, %ymm9
vpmullw %ymm12, %ymm9, %ymm9
vpsubw %ymm9, %ymm10, %ymm9
vpmullw %ymm14, %ymm9, %ymm9
vpsubw %ymm6, %ymm9, %ymm9
vpsrlw $3, %ymm9, %ymm9
vpsubw %ymm3, %ymm9, %ymm9
vpsubw %ymm9, %ymm3, %ymm3
vpsubw %ymm3, %ymm6, %ymm6
vpmullw %ymm13, %ymm9, %ymm9
vpsubw %ymm9, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm2, %ymm2
vpand mask3_5_3_5(%rip), %ymm2, %ymm10
vpand mask5_3_5_3(%rip), %ymm2, %ymm2
vpermq $206, %ymm10, %ymm10
vpand mask_keephigh(%rip), %ymm10, %ymm4
vpor %ymm4, %ymm2, %ymm2
vpaddw 2080(%rsp), %ymm5, %ymm5
vpaddw %ymm2, %ymm5, %ymm5
vmovdqa %xmm10, 2080(%rsp)
vpshufb shuf48_16(%rip), %ymm9, %ymm9
vpand mask3_5_3_5(%rip), %ymm9, %ymm10
vpand mask5_3_5_3(%rip), %ymm9, %ymm9
vpermq $206, %ymm10, %ymm10
vpand mask_keephigh(%rip), %ymm10, %ymm4
vpor %ymm4, %ymm9, %ymm9
vpaddw 2336(%rsp), %ymm6, %ymm6
vpaddw %ymm9, %ymm6, %ymm6
vmovdqa %xmm10, 2336(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm10
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm10, %ymm10
vpand mask_keephigh(%rip), %ymm10, %ymm4
vpor %ymm4, %ymm11, %ymm11
vpaddw 2592(%rsp), %ymm8, %ymm8
vpaddw %ymm11, %ymm8, %ymm8
vmovdqa %xmm10, 2592(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 96(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 352(%rdi)
vpand mask_mod2048(%rip), %ymm8, %ymm8
vmovdqa %ymm8, 608(%rdi)
vpand mask_mod2048(%rip), %ymm3, %ymm3
vmovdqa %ymm3, 864(%rdi)
vmovdqa 64(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm9
vpunpckhwd const0(%rip), %ymm11, %ymm2
vpslld $1, %ymm9, %ymm9
vpslld $1, %ymm2, %ymm2
vmovdqa 320(%rsp), %ymm3
vpunpcklwd const0(%rip), %ymm3, %ymm8
vpunpckhwd const0(%rip), %ymm3, %ymm3
vmovdqa 576(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm8, %ymm10
vpaddd %ymm6, %ymm3, %ymm4
vpsubd %ymm9, %ymm10, %ymm10
vpsubd %ymm2, %ymm4, %ymm4
vpsubd %ymm5, %ymm8, %ymm5
vpsubd %ymm6, %ymm3, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1600(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm3
vpunpckhwd const0(%rip), %ymm5, %ymm8
vpslld $1, %ymm3, %ymm3
vpslld $1, %ymm8, %ymm8
vpsubd %ymm3, %ymm10, %ymm10
vpsubd %ymm8, %ymm4, %ymm4
vpsrld $1, %ymm10, %ymm10
vpsrld $1, %ymm4, %ymm4
vpand mask32_to_16(%rip), %ymm10, %ymm10
vpand mask32_to_16(%rip), %ymm4, %ymm4
vpackusdw %ymm4, %ymm10, %ymm4
vmovdqa 832(%rsp), %ymm10
vpaddw 1088(%rsp), %ymm10, %ymm8
vpsubw 1088(%rsp), %ymm10, %ymm10
vpsrlw $2, %ymm10, %ymm10
vpsubw %ymm6, %ymm10, %ymm10
vpmullw %ymm14, %ymm10, %ymm10
vpsllw $1, %ymm11, %ymm3
vpsubw %ymm3, %ymm8, %ymm3
vpsllw $7, %ymm5, %ymm8
vpsubw %ymm8, %ymm3, %ymm8
vpsrlw $3, %ymm8, %ymm8
vpsubw %ymm4, %ymm8, %ymm8
vmovdqa 1344(%rsp), %ymm3
vpsubw %ymm11, %ymm3, %ymm3
vpmullw %ymm15, %ymm5, %ymm2
vpsubw %ymm2, %ymm3, %ymm2
vpmullw %ymm14, %ymm8, %ymm8
vpsubw %ymm8, %ymm4, %ymm4
vpmullw %ymm12, %ymm8, %ymm3
vpaddw %ymm3, %ymm4, %ymm3
vpmullw %ymm12, %ymm3, %ymm3
vpsubw %ymm3, %ymm2, %ymm3
vpmullw %ymm14, %ymm3, %ymm3
vpsubw %ymm6, %ymm3, %ymm3
vpsrlw $3, %ymm3, %ymm3
vpsubw %ymm10, %ymm3, %ymm3
vpsubw %ymm3, %ymm10, %ymm10
vpsubw %ymm10, %ymm6, %ymm6
vpmullw %ymm13, %ymm3, %ymm3
vpsubw %ymm3, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm8, %ymm8
vpand mask3_5_3_5(%rip), %ymm8, %ymm2
vpand mask5_3_5_3(%rip), %ymm8, %ymm8
vpermq $206, %ymm2, %ymm2
vpand mask_keephigh(%rip), %ymm2, %ymm9
vpor %ymm9, %ymm8, %ymm8
vpaddw 2112(%rsp), %ymm11, %ymm11
vpaddw %ymm8, %ymm11, %ymm11
vmovdqa %xmm2, 2112(%rsp)
vpshufb shuf48_16(%rip), %ymm3, %ymm3
vpand mask3_5_3_5(%rip), %ymm3, %ymm2
vpand mask5_3_5_3(%rip), %ymm3, %ymm3
vpermq $206, %ymm2, %ymm2
vpand mask_keephigh(%rip), %ymm2, %ymm9
vpor %ymm9, %ymm3, %ymm3
vpaddw 2368(%rsp), %ymm6, %ymm6
vpaddw %ymm3, %ymm6, %ymm6
vmovdqa %xmm2, 2368(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm2
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm2, %ymm2
vpand mask_keephigh(%rip), %ymm2, %ymm9
vpor %ymm9, %ymm5, %ymm5
vpaddw 2624(%rsp), %ymm4, %ymm4
vpaddw %ymm5, %ymm4, %ymm4
vmovdqa %xmm2, 2624(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 160(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 416(%rdi)
vpand mask_mod2048(%rip), %ymm4, %ymm4
vmovdqa %ymm4, 672(%rdi)
vpand mask_mod2048(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 928(%rdi)
vmovdqa 96(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm3
vpunpckhwd const0(%rip), %ymm5, %ymm8
vpslld $1, %ymm3, %ymm3
vpslld $1, %ymm8, %ymm8
vmovdqa 352(%rsp), %ymm10
vpunpcklwd const0(%rip), %ymm10, %ymm4
vpunpckhwd const0(%rip), %ymm10, %ymm10
vmovdqa 608(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm4, %ymm2
vpaddd %ymm6, %ymm10, %ymm9
vpsubd %ymm3, %ymm2, %ymm2
vpsubd %ymm8, %ymm9, %ymm9
vpsubd %ymm11, %ymm4, %ymm11
vpsubd %ymm6, %ymm10, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1632(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm10
vpunpckhwd const0(%rip), %ymm11, %ymm4
vpslld $1, %ymm10, %ymm10
vpslld $1, %ymm4, %ymm4
vpsubd %ymm10, %ymm2, %ymm2
vpsubd %ymm4, %ymm9, %ymm9
vpsrld $1, %ymm2, %ymm2
vpsrld $1, %ymm9, %ymm9
vpand mask32_to_16(%rip), %ymm2, %ymm2
vpand mask32_to_16(%rip), %ymm9, %ymm9
vpackusdw %ymm9, %ymm2, %ymm9
vmovdqa 864(%rsp), %ymm2
vpaddw 1120(%rsp), %ymm2, %ymm4
vpsubw 1120(%rsp), %ymm2, %ymm2
vpsrlw $2, %ymm2, %ymm2
vpsubw %ymm6, %ymm2, %ymm2
vpmullw %ymm14, %ymm2, %ymm2
vpsllw $1, %ymm5, %ymm10
vpsubw %ymm10, %ymm4, %ymm10
vpsllw $7, %ymm11, %ymm4
vpsubw %ymm4, %ymm10, %ymm4
vpsrlw $3, %ymm4, %ymm4
vpsubw %ymm9, %ymm4, %ymm4
vmovdqa 1376(%rsp), %ymm10
vpsubw %ymm5, %ymm10, %ymm10
vpmullw %ymm15, %ymm11, %ymm8
vpsubw %ymm8, %ymm10, %ymm8
vpmullw %ymm14, %ymm4, %ymm4
vpsubw %ymm4, %ymm9, %ymm9
vpmullw %ymm12, %ymm4, %ymm10
vpaddw %ymm10, %ymm9, %ymm10
vpmullw %ymm12, %ymm10, %ymm10
vpsubw %ymm10, %ymm8, %ymm10
vpmullw %ymm14, %ymm10, %ymm10
vpsubw %ymm6, %ymm10, %ymm10
vpsrlw $3, %ymm10, %ymm10
vpsubw %ymm2, %ymm10, %ymm10
vpsubw %ymm10, %ymm2, %ymm2
vpsubw %ymm2, %ymm6, %ymm6
vpmullw %ymm13, %ymm10, %ymm10
vpsubw %ymm10, %ymm6, %ymm6
vpshufb shuf48_16(%rip), %ymm4, %ymm4
vpand mask3_5_3_5(%rip), %ymm4, %ymm8
vpand mask5_3_5_3(%rip), %ymm4, %ymm4
vpermq $206, %ymm8, %ymm8
vpand mask_keephigh(%rip), %ymm8, %ymm3
vpor %ymm3, %ymm4, %ymm4
vpaddw 2144(%rsp), %ymm5, %ymm5
vpaddw %ymm4, %ymm5, %ymm5
vmovdqa %xmm8, 2144(%rsp)
vpshufb shuf48_16(%rip), %ymm10, %ymm10
vpand mask3_5_3_5(%rip), %ymm10, %ymm8
vpand mask5_3_5_3(%rip), %ymm10, %ymm10
vpermq $206, %ymm8, %ymm8
vpand mask_keephigh(%rip), %ymm8, %ymm3
vpor %ymm3, %ymm10, %ymm10
vpaddw 2400(%rsp), %ymm6, %ymm6
vpaddw %ymm10, %ymm6, %ymm6
vmovdqa %xmm8, 2400(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm8
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm8, %ymm8
vpand mask_keephigh(%rip), %ymm8, %ymm3
vpor %ymm3, %ymm11, %ymm11
vpaddw 2656(%rsp), %ymm9, %ymm9
vpaddw %ymm11, %ymm9, %ymm9
vmovdqa %xmm8, 2656(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 224(%rdi)
vextracti128 $1, %ymm5, %xmm5
vpshufb shufmin5_mask3(%rip), %ymm5, %ymm5
vmovdqa %xmm5, 1792(%rsp)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 480(%rdi)
vextracti128 $1, %ymm6, %xmm6
vpshufb shufmin5_mask3(%rip), %ymm6, %ymm6
vmovdqa %xmm6, 1824(%rsp)
vpand mask_mod2048(%rip), %ymm9, %ymm9
vmovdqa %ymm9, 736(%rdi)
vextracti128 $1, %ymm9, %xmm9
vpshufb shufmin5_mask3(%rip), %ymm9, %ymm9
vmovdqa %xmm9, 1856(%rsp)
vpand mask_mod2048(%rip), %ymm2, %ymm2
vmovdqa %ymm2, 992(%rdi)
vextracti128 $1, %ymm2, %xmm2
vpshufb shufmin5_mask3(%rip), %ymm2, %ymm2
vmovdqa %xmm2, 1888(%rsp)
vmovdqa 128(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm10
vpunpckhwd const0(%rip), %ymm11, %ymm4
vpslld $1, %ymm10, %ymm10
vpslld $1, %ymm4, %ymm4
vmovdqa 384(%rsp), %ymm2
vpunpcklwd const0(%rip), %ymm2, %ymm9
vpunpckhwd const0(%rip), %ymm2, %ymm2
vmovdqa 640(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm9, %ymm8
vpaddd %ymm6, %ymm2, %ymm3
vpsubd %ymm10, %ymm8, %ymm8
vpsubd %ymm4, %ymm3, %ymm3
vpsubd %ymm5, %ymm9, %ymm5
vpsubd %ymm6, %ymm2, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1664(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm2
vpunpckhwd const0(%rip), %ymm5, %ymm9
vpslld $1, %ymm2, %ymm2
vpslld $1, %ymm9, %ymm9
vpsubd %ymm2, %ymm8, %ymm8
vpsubd %ymm9, %ymm3, %ymm3
vpsrld $1, %ymm8, %ymm8
vpsrld $1, %ymm3, %ymm3
vpand mask32_to_16(%rip), %ymm8, %ymm8
vpand mask32_to_16(%rip), %ymm3, %ymm3
vpackusdw %ymm3, %ymm8, %ymm3
vmovdqa 896(%rsp), %ymm8
vpaddw 1152(%rsp), %ymm8, %ymm9
vpsubw 1152(%rsp), %ymm8, %ymm8
vpsrlw $2, %ymm8, %ymm8
vpsubw %ymm6, %ymm8, %ymm8
vpmullw %ymm14, %ymm8, %ymm8
vpsllw $1, %ymm11, %ymm2
vpsubw %ymm2, %ymm9, %ymm2
vpsllw $7, %ymm5, %ymm9
vpsubw %ymm9, %ymm2, %ymm9
vpsrlw $3, %ymm9, %ymm9
vpsubw %ymm3, %ymm9, %ymm9
vmovdqa 1408(%rsp), %ymm2
vpsubw %ymm11, %ymm2, %ymm2
vpmullw %ymm15, %ymm5, %ymm4
vpsubw %ymm4, %ymm2, %ymm4
vpmullw %ymm14, %ymm9, %ymm9
vpsubw %ymm9, %ymm3, %ymm3
vpmullw %ymm12, %ymm9, %ymm2
vpaddw %ymm2, %ymm3, %ymm2
vpmullw %ymm12, %ymm2, %ymm2
vpsubw %ymm2, %ymm4, %ymm2
vpmullw %ymm14, %ymm2, %ymm2
vpsubw %ymm6, %ymm2, %ymm2
vpsrlw $3, %ymm2, %ymm2
vpsubw %ymm8, %ymm2, %ymm2
vpsubw %ymm2, %ymm8, %ymm8
vpsubw %ymm8, %ymm6, %ymm6
vpmullw %ymm13, %ymm2, %ymm2
vpsubw %ymm2, %ymm6, %ymm6
vmovdqa 288(%rdi), %ymm4
vmovdqa 544(%rdi), %ymm10
vmovdqa 800(%rdi), %ymm7
vpaddw %ymm11, %ymm4, %ymm11
vpaddw %ymm6, %ymm10, %ymm6
vpaddw %ymm3, %ymm7, %ymm3
vpshufb shuf48_16(%rip), %ymm8, %ymm8
vpand mask3_5_3_5(%rip), %ymm8, %ymm7
vpand mask5_3_5_3(%rip), %ymm8, %ymm8
vpermq $206, %ymm7, %ymm7
vpand mask_keephigh(%rip), %ymm7, %ymm10
vpor %ymm10, %ymm8, %ymm8
vmovdqa 32(%rdi), %ymm10
vpaddw 1920(%rsp), %ymm10, %ymm10
vpaddw %ymm8, %ymm10, %ymm10
vpand mask_mod2048(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 32(%rdi)
vmovdqa %xmm7, 1920(%rsp)
vpshufb shuf48_16(%rip), %ymm9, %ymm9
vpand mask3_5_3_5(%rip), %ymm9, %ymm7
vpand mask5_3_5_3(%rip), %ymm9, %ymm9
vpermq $206, %ymm7, %ymm7
vpand mask_keephigh(%rip), %ymm7, %ymm10
vpor %ymm10, %ymm9, %ymm9
vpaddw 2176(%rsp), %ymm11, %ymm11
vpaddw %ymm9, %ymm11, %ymm11
vmovdqa %xmm7, 2176(%rsp)
vpshufb shuf48_16(%rip), %ymm2, %ymm2
vpand mask3_5_3_5(%rip), %ymm2, %ymm7
vpand mask5_3_5_3(%rip), %ymm2, %ymm2
vpermq $206, %ymm7, %ymm7
vpand mask_keephigh(%rip), %ymm7, %ymm10
vpor %ymm10, %ymm2, %ymm2
vpaddw 2432(%rsp), %ymm6, %ymm6
vpaddw %ymm2, %ymm6, %ymm6
vmovdqa %xmm7, 2432(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm7
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm7, %ymm7
vpand mask_keephigh(%rip), %ymm7, %ymm10
vpor %ymm10, %ymm5, %ymm5
vpaddw 2688(%rsp), %ymm3, %ymm3
vpaddw %ymm5, %ymm3, %ymm3
vmovdqa %xmm7, 2688(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 288(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 544(%rdi)
vpand mask_mod2048(%rip), %ymm3, %ymm3
vmovdqa %ymm3, 800(%rdi)
vmovdqa 160(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm2
vpunpckhwd const0(%rip), %ymm5, %ymm9
vpslld $1, %ymm2, %ymm2
vpslld $1, %ymm9, %ymm9
vmovdqa 416(%rsp), %ymm8
vpunpcklwd const0(%rip), %ymm8, %ymm3
vpunpckhwd const0(%rip), %ymm8, %ymm8
vmovdqa 672(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm3, %ymm7
vpaddd %ymm6, %ymm8, %ymm10
vpsubd %ymm2, %ymm7, %ymm7
vpsubd %ymm9, %ymm10, %ymm10
vpsubd %ymm11, %ymm3, %ymm11
vpsubd %ymm6, %ymm8, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1696(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm8
vpunpckhwd const0(%rip), %ymm11, %ymm3
vpslld $1, %ymm8, %ymm8
vpslld $1, %ymm3, %ymm3
vpsubd %ymm8, %ymm7, %ymm7
vpsubd %ymm3, %ymm10, %ymm10
vpsrld $1, %ymm7, %ymm7
vpsrld $1, %ymm10, %ymm10
vpand mask32_to_16(%rip), %ymm7, %ymm7
vpand mask32_to_16(%rip), %ymm10, %ymm10
vpackusdw %ymm10, %ymm7, %ymm10
vmovdqa 928(%rsp), %ymm7
vpaddw 1184(%rsp), %ymm7, %ymm3
vpsubw 1184(%rsp), %ymm7, %ymm7
vpsrlw $2, %ymm7, %ymm7
vpsubw %ymm6, %ymm7, %ymm7
vpmullw %ymm14, %ymm7, %ymm7
vpsllw $1, %ymm5, %ymm8
vpsubw %ymm8, %ymm3, %ymm8
vpsllw $7, %ymm11, %ymm3
vpsubw %ymm3, %ymm8, %ymm3
vpsrlw $3, %ymm3, %ymm3
vpsubw %ymm10, %ymm3, %ymm3
vmovdqa 1440(%rsp), %ymm8
vpsubw %ymm5, %ymm8, %ymm8
vpmullw %ymm15, %ymm11, %ymm9
vpsubw %ymm9, %ymm8, %ymm9
vpmullw %ymm14, %ymm3, %ymm3
vpsubw %ymm3, %ymm10, %ymm10
vpmullw %ymm12, %ymm3, %ymm8
vpaddw %ymm8, %ymm10, %ymm8
vpmullw %ymm12, %ymm8, %ymm8
vpsubw %ymm8, %ymm9, %ymm8
vpmullw %ymm14, %ymm8, %ymm8
vpsubw %ymm6, %ymm8, %ymm8
vpsrlw $3, %ymm8, %ymm8
vpsubw %ymm7, %ymm8, %ymm8
vpsubw %ymm8, %ymm7, %ymm7
vpsubw %ymm7, %ymm6, %ymm6
vpmullw %ymm13, %ymm8, %ymm8
vpsubw %ymm8, %ymm6, %ymm6
vmovdqa 352(%rdi), %ymm9
vmovdqa 608(%rdi), %ymm2
vmovdqa 864(%rdi), %ymm4
vpaddw %ymm5, %ymm9, %ymm5
vpaddw %ymm6, %ymm2, %ymm6
vpaddw %ymm10, %ymm4, %ymm10
vpshufb shuf48_16(%rip), %ymm7, %ymm7
vpand mask3_5_3_5(%rip), %ymm7, %ymm4
vpand mask5_3_5_3(%rip), %ymm7, %ymm7
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm2
vpor %ymm2, %ymm7, %ymm7
vmovdqa 96(%rdi), %ymm2
vpaddw 1952(%rsp), %ymm2, %ymm2
vpaddw %ymm7, %ymm2, %ymm2
vpand mask_mod2048(%rip), %ymm2, %ymm2
vmovdqa %ymm2, 96(%rdi)
vmovdqa %xmm4, 1952(%rsp)
vpshufb shuf48_16(%rip), %ymm3, %ymm3
vpand mask3_5_3_5(%rip), %ymm3, %ymm4
vpand mask5_3_5_3(%rip), %ymm3, %ymm3
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm2
vpor %ymm2, %ymm3, %ymm3
vpaddw 2208(%rsp), %ymm5, %ymm5
vpaddw %ymm3, %ymm5, %ymm5
vmovdqa %xmm4, 2208(%rsp)
vpshufb shuf48_16(%rip), %ymm8, %ymm8
vpand mask3_5_3_5(%rip), %ymm8, %ymm4
vpand mask5_3_5_3(%rip), %ymm8, %ymm8
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm2
vpor %ymm2, %ymm8, %ymm8
vpaddw 2464(%rsp), %ymm6, %ymm6
vpaddw %ymm8, %ymm6, %ymm6
vmovdqa %xmm4, 2464(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm4
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm4, %ymm4
vpand mask_keephigh(%rip), %ymm4, %ymm2
vpor %ymm2, %ymm11, %ymm11
vpaddw 2720(%rsp), %ymm10, %ymm10
vpaddw %ymm11, %ymm10, %ymm10
vmovdqa %xmm4, 2720(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 352(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 608(%rdi)
vpand mask_mod2048(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 864(%rdi)
vmovdqa 192(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm8
vpunpckhwd const0(%rip), %ymm11, %ymm3
vpslld $1, %ymm8, %ymm8
vpslld $1, %ymm3, %ymm3
vmovdqa 448(%rsp), %ymm7
vpunpcklwd const0(%rip), %ymm7, %ymm10
vpunpckhwd const0(%rip), %ymm7, %ymm7
vmovdqa 704(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm5
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm5, %ymm10, %ymm4
vpaddd %ymm6, %ymm7, %ymm2
vpsubd %ymm8, %ymm4, %ymm4
vpsubd %ymm3, %ymm2, %ymm2
vpsubd %ymm5, %ymm10, %ymm5
vpsubd %ymm6, %ymm7, %ymm6
vpsrld $1, %ymm5, %ymm5
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm5, %ymm5
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm5, %ymm6
vmovdqa 1728(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm7
vpunpckhwd const0(%rip), %ymm5, %ymm10
vpslld $1, %ymm7, %ymm7
vpslld $1, %ymm10, %ymm10
vpsubd %ymm7, %ymm4, %ymm4
vpsubd %ymm10, %ymm2, %ymm2
vpsrld $1, %ymm4, %ymm4
vpsrld $1, %ymm2, %ymm2
vpand mask32_to_16(%rip), %ymm4, %ymm4
vpand mask32_to_16(%rip), %ymm2, %ymm2
vpackusdw %ymm2, %ymm4, %ymm2
vmovdqa 960(%rsp), %ymm4
vpaddw 1216(%rsp), %ymm4, %ymm10
vpsubw 1216(%rsp), %ymm4, %ymm4
vpsrlw $2, %ymm4, %ymm4
vpsubw %ymm6, %ymm4, %ymm4
vpmullw %ymm14, %ymm4, %ymm4
vpsllw $1, %ymm11, %ymm7
vpsubw %ymm7, %ymm10, %ymm7
vpsllw $7, %ymm5, %ymm10
vpsubw %ymm10, %ymm7, %ymm10
vpsrlw $3, %ymm10, %ymm10
vpsubw %ymm2, %ymm10, %ymm10
vmovdqa 1472(%rsp), %ymm7
vpsubw %ymm11, %ymm7, %ymm7
vpmullw %ymm15, %ymm5, %ymm3
vpsubw %ymm3, %ymm7, %ymm3
vpmullw %ymm14, %ymm10, %ymm10
vpsubw %ymm10, %ymm2, %ymm2
vpmullw %ymm12, %ymm10, %ymm7
vpaddw %ymm7, %ymm2, %ymm7
vpmullw %ymm12, %ymm7, %ymm7
vpsubw %ymm7, %ymm3, %ymm7
vpmullw %ymm14, %ymm7, %ymm7
vpsubw %ymm6, %ymm7, %ymm7
vpsrlw $3, %ymm7, %ymm7
vpsubw %ymm4, %ymm7, %ymm7
vpsubw %ymm7, %ymm4, %ymm4
vpsubw %ymm4, %ymm6, %ymm6
vpmullw %ymm13, %ymm7, %ymm7
vpsubw %ymm7, %ymm6, %ymm6
vmovdqa 416(%rdi), %ymm3
vmovdqa 672(%rdi), %ymm8
vmovdqa 928(%rdi), %ymm9
vpaddw %ymm11, %ymm3, %ymm11
vpaddw %ymm6, %ymm8, %ymm6
vpaddw %ymm2, %ymm9, %ymm2
vpshufb shuf48_16(%rip), %ymm4, %ymm4
vpand mask3_5_3_5(%rip), %ymm4, %ymm9
vpand mask5_3_5_3(%rip), %ymm4, %ymm4
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm8
vpor %ymm8, %ymm4, %ymm4
vmovdqa 160(%rdi), %ymm8
vpaddw 1984(%rsp), %ymm8, %ymm8
vpaddw %ymm4, %ymm8, %ymm8
vpand mask_mod2048(%rip), %ymm8, %ymm8
vmovdqa %ymm8, 160(%rdi)
vmovdqa %xmm9, 1984(%rsp)
vpshufb shuf48_16(%rip), %ymm10, %ymm10
vpand mask3_5_3_5(%rip), %ymm10, %ymm9
vpand mask5_3_5_3(%rip), %ymm10, %ymm10
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm8
vpor %ymm8, %ymm10, %ymm10
vpaddw 2240(%rsp), %ymm11, %ymm11
vpaddw %ymm10, %ymm11, %ymm11
vmovdqa %xmm9, 2240(%rsp)
vpshufb shuf48_16(%rip), %ymm7, %ymm7
vpand mask3_5_3_5(%rip), %ymm7, %ymm9
vpand mask5_3_5_3(%rip), %ymm7, %ymm7
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm8
vpor %ymm8, %ymm7, %ymm7
vpaddw 2496(%rsp), %ymm6, %ymm6
vpaddw %ymm7, %ymm6, %ymm6
vmovdqa %xmm9, 2496(%rsp)
vpshufb shuf48_16(%rip), %ymm5, %ymm5
vpand mask3_5_3_5(%rip), %ymm5, %ymm9
vpand mask5_3_5_3(%rip), %ymm5, %ymm5
vpermq $206, %ymm9, %ymm9
vpand mask_keephigh(%rip), %ymm9, %ymm8
vpor %ymm8, %ymm5, %ymm5
vpaddw 2752(%rsp), %ymm2, %ymm2
vpaddw %ymm5, %ymm2, %ymm2
vmovdqa %xmm9, 2752(%rsp)
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 416(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 672(%rdi)
vpand mask_mod2048(%rip), %ymm2, %ymm2
vmovdqa %ymm2, 928(%rdi)
vmovdqa 224(%rsp), %ymm5
vpunpcklwd const0(%rip), %ymm5, %ymm7
vpunpckhwd const0(%rip), %ymm5, %ymm10
vpslld $1, %ymm7, %ymm7
vpslld $1, %ymm10, %ymm10
vmovdqa 480(%rsp), %ymm4
vpunpcklwd const0(%rip), %ymm4, %ymm2
vpunpckhwd const0(%rip), %ymm4, %ymm4
vmovdqa 736(%rsp), %ymm6
vpunpcklwd const0(%rip), %ymm6, %ymm11
vpunpckhwd const0(%rip), %ymm6, %ymm6
vpaddd %ymm11, %ymm2, %ymm9
vpaddd %ymm6, %ymm4, %ymm8
vpsubd %ymm7, %ymm9, %ymm9
vpsubd %ymm10, %ymm8, %ymm8
vpsubd %ymm11, %ymm2, %ymm11
vpsubd %ymm6, %ymm4, %ymm6
vpsrld $1, %ymm11, %ymm11
vpsrld $1, %ymm6, %ymm6
vpand mask32_to_16(%rip), %ymm11, %ymm11
vpand mask32_to_16(%rip), %ymm6, %ymm6
vpackusdw %ymm6, %ymm11, %ymm6
vmovdqa 1760(%rsp), %ymm11
vpunpcklwd const0(%rip), %ymm11, %ymm4
vpunpckhwd const0(%rip), %ymm11, %ymm2
vpslld $1, %ymm4, %ymm4
vpslld $1, %ymm2, %ymm2
vpsubd %ymm4, %ymm9, %ymm9
vpsubd %ymm2, %ymm8, %ymm8
vpsrld $1, %ymm9, %ymm9
vpsrld $1, %ymm8, %ymm8
vpand mask32_to_16(%rip), %ymm9, %ymm9
vpand mask32_to_16(%rip), %ymm8, %ymm8
vpackusdw %ymm8, %ymm9, %ymm8
vmovdqa 992(%rsp), %ymm9
vpaddw 1248(%rsp), %ymm9, %ymm2
vpsubw 1248(%rsp), %ymm9, %ymm9
vpsrlw $2, %ymm9, %ymm9
vpsubw %ymm6, %ymm9, %ymm9
vpmullw %ymm14, %ymm9, %ymm9
vpsllw $1, %ymm5, %ymm4
vpsubw %ymm4, %ymm2, %ymm4
vpsllw $7, %ymm11, %ymm2
vpsubw %ymm2, %ymm4, %ymm2
vpsrlw $3, %ymm2, %ymm2
vpsubw %ymm8, %ymm2, %ymm2
vmovdqa 1504(%rsp), %ymm4
vpsubw %ymm5, %ymm4, %ymm4
vpmullw %ymm15, %ymm11, %ymm10
vpsubw %ymm10, %ymm4, %ymm10
vpmullw %ymm14, %ymm2, %ymm2
vpsubw %ymm2, %ymm8, %ymm8
vpmullw %ymm12, %ymm2, %ymm4
vpaddw %ymm4, %ymm8, %ymm4
vpmullw %ymm12, %ymm4, %ymm4
vpsubw %ymm4, %ymm10, %ymm4
vpmullw %ymm14, %ymm4, %ymm4
vpsubw %ymm6, %ymm4, %ymm4
vpsrlw $3, %ymm4, %ymm4
vpsubw %ymm9, %ymm4, %ymm4
vpsubw %ymm4, %ymm9, %ymm9
vpsubw %ymm9, %ymm6, %ymm6
vpmullw %ymm13, %ymm4, %ymm4
vpsubw %ymm4, %ymm6, %ymm6
vextracti128 $1, %ymm8, %xmm10
vpshufb shufmin5_mask3(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 2816(%rsp)
vextracti128 $1, %ymm9, %xmm10
vpshufb shufmin5_mask3(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 2848(%rsp)
vextracti128 $1, %ymm2, %xmm10
vpshufb shufmin5_mask3(%rip), %ymm10, %ymm10
vmovdqa %ymm10, 2880(%rsp)
vmovdqa 480(%rdi), %ymm10
vmovdqa 736(%rdi), %ymm7
vmovdqa 992(%rdi), %ymm3
vpaddw %ymm5, %ymm10, %ymm5
vpaddw %ymm6, %ymm7, %ymm6
vpaddw %ymm8, %ymm3, %ymm8
vpshufb shuf48_16(%rip), %ymm9, %ymm9
vpand mask3_5_3_5(%rip), %ymm9, %ymm3
vpand mask5_3_5_3(%rip), %ymm9, %ymm9
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm7
vpor %ymm7, %ymm9, %ymm9
vmovdqa 224(%rdi), %ymm7
vpaddw 2016(%rsp), %ymm7, %ymm7
vpaddw %ymm9, %ymm7, %ymm7
vpand mask_mod2048(%rip), %ymm7, %ymm7
vmovdqa %ymm7, 224(%rdi)
vextracti128 $1, %ymm7, %xmm7
vpshufb shufmin5_mask3(%rip), %ymm7, %ymm7
vmovdqa %xmm7, 1792(%rsp)
vmovdqa %xmm3, 2016(%rsp)
vpshufb shuf48_16(%rip), %ymm2, %ymm2
vpand mask3_5_3_5(%rip), %ymm2, %ymm3
vpand mask5_3_5_3(%rip), %ymm2, %ymm2
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm7
vpor %ymm7, %ymm2, %ymm2
vpaddw 2272(%rsp), %ymm5, %ymm5
vpaddw %ymm2, %ymm5, %ymm5
vmovdqa %xmm3, 2272(%rsp)
vpshufb shuf48_16(%rip), %ymm4, %ymm4
vpand mask3_5_3_5(%rip), %ymm4, %ymm3
vpand mask5_3_5_3(%rip), %ymm4, %ymm4
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm7
vpor %ymm7, %ymm4, %ymm4
vpaddw 2528(%rsp), %ymm6, %ymm6
vpaddw %ymm4, %ymm6, %ymm6
vmovdqa %xmm3, 2528(%rsp)
vpshufb shuf48_16(%rip), %ymm11, %ymm11
vpand mask3_5_3_5(%rip), %ymm11, %ymm3
vpand mask5_3_5_3(%rip), %ymm11, %ymm11
vpermq $206, %ymm3, %ymm3
vpand mask_keephigh(%rip), %ymm3, %ymm7
vpor %ymm7, %ymm11, %ymm11
vpaddw 2784(%rsp), %ymm8, %ymm8
vpaddw %ymm11, %ymm8, %ymm8
vmovdqa %xmm3, 2784(%rsp)
vpand mask_mod2048(%rip), %ymm5, %ymm5
vmovdqa %ymm5, 480(%rdi)
vpand mask_mod2048(%rip), %ymm6, %ymm6
vmovdqa %ymm6, 736(%rdi)
vpand mask_mod2048(%rip), %ymm8, %ymm8
vmovdqa %ymm8, 992(%rdi)
vmovdqa 0(%rdi), %ymm11
vpaddw 1888(%rsp), %ymm11, %ymm11
vpaddw 2816(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 0(%rdi)
vmovdqa 256(%rdi), %ymm11
vpaddw 2528(%rsp), %ymm11, %ymm11
vpaddw 2848(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 256(%rdi)
vmovdqa 512(%rdi), %ymm11
vpaddw 2784(%rsp), %ymm11, %ymm11
vpaddw 2880(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 512(%rdi)
vmovdqa 64(%rdi), %ymm11
vpaddw 2048(%rsp), %ymm11, %ymm11
vpaddw 1920(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 64(%rdi)
vmovdqa 320(%rdi), %ymm11
vpaddw 2304(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 320(%rdi)
vmovdqa 576(%rdi), %ymm11
vpaddw 2560(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 576(%rdi)
vmovdqa 128(%rdi), %ymm11
vpaddw 2080(%rsp), %ymm11, %ymm11
vpaddw 1952(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 128(%rdi)
vmovdqa 384(%rdi), %ymm11
vpaddw 2336(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 384(%rdi)
vmovdqa 640(%rdi), %ymm11
vpaddw 2592(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 640(%rdi)
vmovdqa 192(%rdi), %ymm11
vpaddw 2112(%rsp), %ymm11, %ymm11
vpaddw 1984(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 192(%rdi)
vmovdqa 448(%rdi), %ymm11
vpaddw 2368(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 448(%rdi)
vmovdqa 704(%rdi), %ymm11
vpaddw 2624(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 704(%rdi)
vmovdqa 256(%rdi), %ymm11
vpaddw 2144(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 256(%rdi)
vmovdqa 512(%rdi), %ymm11
vpaddw 2400(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 512(%rdi)
vmovdqa 768(%rdi), %ymm11
vpaddw 2656(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 768(%rdi)
vmovdqa 320(%rdi), %ymm11
vpaddw 2176(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 320(%rdi)
vmovdqa 576(%rdi), %ymm11
vpaddw 2432(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 576(%rdi)
vmovdqa 832(%rdi), %ymm11
vpaddw 2688(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 832(%rdi)
vmovdqa 384(%rdi), %ymm11
vpaddw 2208(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 384(%rdi)
vmovdqa 640(%rdi), %ymm11
vpaddw 2464(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 640(%rdi)
vmovdqa 896(%rdi), %ymm11
vpaddw 2720(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 896(%rdi)
vmovdqa 448(%rdi), %ymm11
vpaddw 2240(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 448(%rdi)
vmovdqa 704(%rdi), %ymm11
vpaddw 2496(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 704(%rdi)
vmovdqa 960(%rdi), %ymm11
vpaddw 2752(%rsp), %ymm11, %ymm11
vpand mask_mod2048(%rip), %ymm11, %ymm11
vmovdqa %ymm11, 960(%rdi)
mov %r8, %rsp
pop %r12
ret