es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Limpiando una oración de números, signos y otros idiomas.

Tengo un archivo txt que contiene frases japonesas. Me gustaría eliminar todas las palabras que no sean japonesas. Tales como números, alfabeto inglés u cualquier otro idioma que no sea japonés, signos, símbolos. ¿Hay una manera rápida de hacerlo? Gracias

Palabras a eliminar:
Hi !
XO XO
10000
APX1999

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Sí, existe una manera rápida de eliminar todas las palabras no japonesas del archivo txt utilizando Python. Aquí te mostramos cómo puedes hacerlo:

    1. En primer lugar, debes importar la librería unicodedata que proporciona acceso a la Base de Datos de Caracteres Unicode. Esta base de datos contiene información sobre las propiedades de los caracteres de todos los caracteres Unicode.
    import unicodedata
    
    1. Luego, debes leer el archivo txt y convertirlo a Unicode utilizando el método de decode.
    with open('archivo.txt', 'r') as f:
        texto = f.read().decode('utf-8')
    
    1. A continuación, puedes usar los métodos isalpha y isdigit proporcionados por la librería de unicodedata para verificar si cada carácter en el texto es un alfabeto japonés (hiragana o katakana) o un dígito numérico.
    texto = ''.join(c for c in texto if unicodedata.name(c).startswith(('HIRAGANA', 'KATAKANA')) or c.isdigit())
    
    1. Por último, puedes escribir el texto limpio de vuelta en el archivo txt.
    with open('archivo.txt', 'w') as f:
        f.write(texto.encode('utf-8'))
    

    Este código eliminará todas las palabras no japonesas del archivo txt, incluyendo números, alfabetos en inglés, signos y símbolos, como se solicitó.

Comments are closed.