Tengo el siguiente código que ejecuta dos entrenamientos de TensorFlow en paralelo utilizando trabajadores de Dask implementados en contenedores Docker. Necesito lanzar dos procesos, utilizando el mismo cliente de Dask, donde cada uno entrenará sus respectivos modelos con N trabajadores. Para lograr esto, hago lo siguiente: – Utilizo <code>joblib.delayed</code> para . . . Read more
Tengo esta función def dec(x): “””Convertir a Decimal y quitar el exponente y los ceros finales””” if not x: return Decimal(0) if not isinstance(x, Decimal): x = Decimal(str(x)) return x.quantize(Decimal(1)) if x == x.to_integral() else x.normalize() En pandas, lo haría así df[‘price’].apply(dec) Sin embargo, dask no soporta esto, entonces ¿cuál . . . Read more
No pude averiguar cómo calcular objetos retrasados que provienen de la operación df.groupby.apply(). Realmente agradezco si alguien puede ayudar. Aquí hay un código de muestra que escribí: import pandas as pd import dask df = pd.DataFrame(columns=[‘id’,’id2′,’val1′]) df[‘id’] = [‘A’,’A’,’A’,’B’,’C’,’C’,’D’,’D’] df[‘id2’]=[‘a’,’a’,’b’,’a’,’a’,’b’,’b’,’b’] df[‘val1′]= [1,2,3,4,5,6,7,8] @dask.delayed def dask_test(group,val_col): for idx,row in group.iterrows(): group.loc[idx,’test’]=2*group.loc[idx,val_col] . . . Read more
Quiero generar una matriz aleatoria de forma (1e7, 800). Pero encuentro que numpy.random.rand() se vuelve muy lento a esta escala. ¿Existe una manera más rápida?
Estoy tratando de calcular un gráfico personalizado de dask en un clúster remoto utilizando el método Client.get, pero me he encontrado con el siguiente error: AssertionError: no se permiten procesos daemon con hijos. Me di cuenta de que uno de los métodos subyacentes en el gráfico de dask utiliza un . . . Read more