Tag: OUT-OF-MEMORY
Me gustaría convertir un rdd.PipelinedRDD en un sql.dataframe.DataFrame con PySpark. El PipelinedRDD se ve así: [(1.0, ‘#1John #2Doe’), (2.0, ‘#1Adam #2Smith’), (3.0, ‘#1Benjamin #2Miller’)] El DataFrame debería verse así: [Row(_1=1, _2=’#1John #2Doe’), Row(_1=2, _2=’#1Adam #2Smith’), Row(_1=3, _2=’#1Benjamin #2Miller’)] Logré hacer esto con el siguiente código: df = sc.parallelize(rdd.collect()).map(lambda x: [int(x[0]), . . . Read more
Suponiendo una matriz de Numpy X_train de forma (4559552, 13, 22), el siguiente código funciona bien una vez. Cuando lo vuelvo a ejecutar (después de realizar pequeñas modificaciones en X_train), entonces se produce un InternalError debido a que la GPU se queda sin memoria: 2021-12-19 15:36:58.460497: W tensorflow/core/common_runtime/bfc_allocator.cc:457] Allocator (GPU_0_bfc) . . . Read more
Estoy utilizando la actividad de flujo de datos para convertir datos de MongoDB a SQL. Hasta ahora, MongoDB/Atlas no es compatible como origen en el flujo de datos. Estoy convirtiendo los datos de MongoDB en un archivo JSON en AzureBlob Storage y luego utilizando ese archivo JSON como origen en . . . Read more
Estoy ejecutando microservicios en contenedores de Samza conectados mediante streams de mensajería Kafka. En algunas tareas, la memoria utilizada aumenta constantemente incluso si no se está realizando ningún proceso. No estoy seguro de por qué está sucediendo esto y a veces el contenedor falla debido a problemas de falta de . . . Read more
En un e-commerce tengo un modelo Productos, con aproximadamente 20 relaciones con otras partes del sitio. Una de estas relaciones es una relación belongsToMany llamada relatedProducts, que apunta a la tabla Productos en sí misma. public function relatedProducts() { return $this->belongsToMany(Product::class, ‘product_related_products’, ‘product_id’, ‘related_product_id’); } El punto final para mostrar . . . Read more