Tag: DISTRIBUTED-SYSTEM
Tengo una pregunta. He leído muchos blogs y páginas web sobre el teorema CAP. Dicen que los sistemas de un solo nodo son CA, pero ¿cómo puede ser “A” si ese único nodo falla? Porque si lo hace, el sistema estará no disponible, ¿verdad? Y ¿es la “disponibilidad” en CAP . . . Read more
Estoy tratando de implementar algo como esto para 2 nodos (cada nodo con 2 GPUs): Proceso paralelo iniciado con torch.distributed.init_process_group () Todas las GPUs trabajan en paralelo y generan listas como: [20, 0, 1, 17] para GPU0 del nodo A [1, 2, 3, 4] para GPU1 del nodo A [5, . . . Read more
Mi proyecto tiene un problema con el rendimiento de la CPU para un único servidor. Creo que convertir el proyecto en un sistema de distribución sería una forma de solucionar este problema. Sin embargo, la parte central de mi proyecto se basa en un recurso compartido (un mapa con información . . . Read more
Estoy tratando de comprender mejor los matices de diseñar un sistema distribuido utilizando colas en general y RabbitMQ en particular. Supongamos que tengo mensajes como: { “id”: 12, “name”: “John”, “role”: “Empleado” } y { “id”: 13, “name”: “Alex”, “role”: “Gerente”, “level”: 1 } Ten en cuenta la propiedad role. . . . Read more
Esto es de la documentación de Kubernetes: Almacenamiento clave-valor consistente y altamente disponible utilizado como almacenamiento de respaldo de Kubernetes para todos los datos del clúster. ¿Tiene Kubernetes un mecanismo separado internamente para hacer que ETCD sea más disponible? ¿O ETCD utiliza, digamos, una versión modificada de Raft que permite . . . Read more