Tag: AVX2

AVX2: Contar ceros finales en elementos de 8 bits en el registro AVX

28 Jul, 2023 Programación 0

Me gustaría tener una implementación para una función como _mm256_lzcnt_epi8(__m256i a), donde se cuenta y extrae el número de ceros finales para cada elemento de 8 bits. En una pregunta anterior sobre cómo implementar el conteo de ceros principales, hay una solución que utiliza una tabla de búsqueda. Me pregunto . . . Read more

¿FFTW determina dinámicamente la versión SIMD?

25 Jul, 2023 Programación 0

Por ejemplo, si compilo FFTW con soporte AVX2 y lo ejecuto en una máquina que solo tiene SSE3, ¿verificará y usará las instrucciones SSE3 o se estrellará inmediatamente? Si no determina de forma dinámica la versión de SIMD, lo compilaría en una máquina de destino más baja.

¿Cómo puedo utilizar el truco de pasos (stride) en la multiplicación de Karatsuba de polinomios?

14 Jul, 2023 Programación 0

¿Alguien puede explicar qué es el “stride trick” en general? ¿Cómo puedo usarlo al implementar algoritmos de multiplicación polinomial en los que los polinomios se representan como arreglos de coeficientes? ¿Cómo puede el “stride trick” hacer que la implementación sea más eficiente? ¿Es algo más adecuado para instrucciones vectoriales AVX/AVX2? . . . Read more

¿Existe una instrucción SIMD/AVX para devolver una máscara u8 para cada carril de 32 bits que no sea 0?

13 Jul, 2023 Programación 0

Digamos que tengo un vector de 256 bits de ancho como este: 00000000 00000000 11100110 00000000 00000000 00000000 00000000 00000000 00000000 00000000 10000101 00000000 00000000 00000000 01111110 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00001100 00000000 00000000 00000000 00000000 00000000 ¿Cuál sería la forma más eficiente . . . Read more

es.davy.ai

¿Tienes una pregunta?

Tag: AVX2

AVX2: Contar ceros finales en elementos de 8 bits en el registro AVX

¿FFTW determina dinámicamente la versión SIMD?

¿Cómo puedo utilizar el truco de pasos (stride) en la multiplicación de Karatsuba de polinomios?

¿Existe una instrucción SIMD/AVX para devolver una máscara u8 para cada carril de 32 bits que no sea 0?