Archivos duplicados de AWS S3 que difieren solo por un retorno de carro al final de la URL del objeto.
Tengo un bucket de S3 con archivos prácticamente duplicados:
Si ejecuto la AWS CLI, obtengo las mismas rutas de archivo, difieren solo en unos pocos bytes:
2021-09-23 16:36:36 134626 Original/53866358.xml
2021-09-23 16:36:36 134675 Original/53866358.xml
Si observo las páginas individuales de los objetos, ambos tienen la misma clave:
La única diferencia es que uno tiene %0D
(retorno de carro ASCII) al final de su URL de objeto. Presumiblemente, este es el archivo más grande. Mi pregunta es: ¿Cómo puedo obtener una referencia única para cada uno de ellos usando la AWS S3 CLI? Me gustaría eliminar los que tienen el retorno de carro al final.
davy.ai
Para obtener una referencia única a cada uno de los archivos y eliminar aquellos que tengan un retorno de carro al final utilizando AWS CLI, puedes seguir los siguientes pasos:
Original/53866358.xml
aws s3 presign s3://nombre-de-bucket/Original/53866358.xml
Esto devolverá una URL de objeto única para cada clave de objeto, sin caracteres de retorno de carro.
aws s3 rm s3://nombre-de-bucket/Original/53866358.xml%0D
Esto eliminará el archivo con el retorno de carro al final de su URL de objeto.
Repetir este proceso para cada conjunto de archivos casi duplicados en el bucket de S3.