Tag: AMAZON-REDSHIFT
import psycopg2 import os host = ‘xxxx.us-east-1.redshift.amazonaws.com’ db_name = ‘dev’ user = ‘awsuser’ password = ‘xxxx’ port = ‘5439’ conn = psycopg2.connect(“host={} dbname={} user={} password={} port={}”.format(host, db_name,user,password,port)) cur = conn.cursor() print(“conectado”) crearconsulta_de_tabla = “create table if not exists testdata (col1 varchar, col2 varchar)” cur.execute(crear_consulta_de_tabla) print(‘tabla creada’) conn.commit() print(‘comprometido’) “` Este . . . Read more
Tengo datos que contienen una matriz de cadenas en documentdb. Pero cuando los vuelco a Redshift mediante glue, toda la matriz se trata como una cadena. Sé que no hay una forma directa de convertirlo en una matriz en Redshift, ¿hay alguna otra forma de hacerlo?
Estaba revisando el FAQ oficial para Redshift. Indicaron que si un “Nodo falla, el clúster permanece no disponible mientras Redshift reemplaza el nodo”. Me preguntaba si esto se aplica a clústeres de Redshift con múltiples nodos. Redshift admite hasta 120 nodos – entonces, si 1 nodo se cae, ¿sigue siendo . . . Read more
Suponga que tengo una tabla con un gran volumen. ¿Cuál de los siguientes sería más optimizado? SELECT DISTINCT shipping_address_id AS address_id FROM table_A UNION SELECT DISTINCT billing_address_id AS address_id FROM table_A vs. SELECT DISTINCT address_id FROM ( SELECT shipping_address_id AS address_id FROM table_A UNION ALL SELECT billing_address_id AS address_id FROM . . . Read more
En un DataFrame tengo dos columnas A y B. Me gustaría agregar una nueva columna que contenga un nuevo valor calculado en función de la fila actual y anterior de las columnas A y B. Mi primer enfoque fue usar la función apply: def calc_C(A,B): if A.shift() > A: C . . . Read more