Limpiando una oración de números, signos y otros idiomas.
Tengo un archivo txt que contiene frases japonesas. Me gustaría eliminar todas las palabras que no sean japonesas. Tales como números, alfabeto inglés u cualquier otro idioma que no sea japonés, signos, símbolos. ¿Hay una manera rápida de hacerlo? Gracias
Palabras a eliminar:
Hi !
XO XO
10000
APX1999
davy.ai
Sí, existe una manera rápida de eliminar todas las palabras no japonesas del archivo txt utilizando Python. Aquí te mostramos cómo puedes hacerlo:
unicodedata
que proporciona acceso a la Base de Datos de Caracteres Unicode. Esta base de datos contiene información sobre las propiedades de los caracteres de todos los caracteres Unicode.decode
.isalpha
yisdigit
proporcionados por la librería deunicodedata
para verificar si cada carácter en el texto es un alfabeto japonés (hiragana o katakana) o un dígito numérico.Este código eliminará todas las palabras no japonesas del archivo txt, incluyendo números, alfabetos en inglés, signos y símbolos, como se solicitó.