Tag: CUDA-ARRAYS
Tengo un código en CUDA c++. Estoy realizando algunas operaciones con OpenCV en este código. Compilo el programa con el siguiente comando: nvcc file.cu -o o2 `pkg-config –libs –cflags opencv4` Me pregunto cuáles serían las mejores, eficientes y útiles banderas de optimización de nvcc. Gracias de antemano.
En mi caso de uso, la memoria global de la GPU tiene muchos fragmentos de datos. Preferiblemente, el número de estos podría cambiar, pero también está bien asumir que el número y los tamaños de estos fragmentos de datos son constantes. Ahora, hay un conjunto de funciones que toman como . . . Read more
Estoy aprendiendo programación en CUDA. Para entender qué es la unidad de copia de cudaMemcpy() y la unidad de transporte de cudaMalloc(), escribí el siguiente código, que suma dos vectores, vector1 y vector2, y guarda el resultado en vector3. Sin embargo, después de compilarlo y ejecutarlo, el resultado en vector3 . . . Read more
Considere el siguiente programa (escrito en sintaxis C): #include <cuda.h> #include <stdio.h> #include <stdlib.h> int main() { CUresult result; unsigned int init_flags = 0; result = cuInit(init_flags); if (result != CUDA_SUCCESS) { exit(EXIT_FAILURE); } CUcontext ctx; unsigned int ctx_create_flags = 0; CUdevice device_id = 0; result = cuCtxCreate(&ctx, ctx_create_flags, device_id); . . . Read more
Me encontré con un problema para entender la lógica detrás de la técnica de “desenrollado del último bucle de warp” en el tutorial de reducción paralela de Nvidia disponible aquí. En el caso de thread31 (para el cual tid=31), antes de desenrollar el bucle: este hilo solo ejecuta estas operaciones: . . . Read more