Tag: AVX2
Me gustaría tener una implementación para una función como _mm256_lzcnt_epi8(__m256i a), donde se cuenta y extrae el número de ceros finales para cada elemento de 8 bits. En una pregunta anterior sobre cómo implementar el conteo de ceros principales, hay una solución que utiliza una tabla de búsqueda. Me pregunto . . . Read more
Por ejemplo, si compilo FFTW con soporte AVX2 y lo ejecuto en una máquina que solo tiene SSE3, ¿verificará y usará las instrucciones SSE3 o se estrellará inmediatamente? Si no determina de forma dinámica la versión de SIMD, lo compilaría en una máquina de destino más baja.
¿Alguien puede explicar qué es el “stride trick” en general? ¿Cómo puedo usarlo al implementar algoritmos de multiplicación polinomial en los que los polinomios se representan como arreglos de coeficientes? ¿Cómo puede el “stride trick” hacer que la implementación sea más eficiente? ¿Es algo más adecuado para instrucciones vectoriales AVX/AVX2? . . . Read more
Digamos que tengo un vector de 256 bits de ancho como este: 00000000 00000000 11100110 00000000 00000000 00000000 00000000 00000000 00000000 00000000 10000101 00000000 00000000 00000000 01111110 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00001100 00000000 00000000 00000000 00000000 00000000 ¿Cuál sería la forma más eficiente . . . Read more