Tag: APACHE-TIKA
En Hibernate Search 6, se ha eliminado el puente de Apache Tika: https://docs.jboss.org/hibernate/search/6.0/migration/html_single/#tikabridge ¿Cuál es la mejor manera de indexar ahora el contenido de un archivo PDF o de documento de Word? ¿Existe alguna alternativa?
Utilizamos Apache Tika para extraer datos de archivos en múltiples formatos. Llamamos a los puntos finales de REST del servidor Tika internamente desde el código .Net para llevar a cabo el proceso de extracción de datos. Estamos tratando de investigar y ver si podemos añadir soporte SSL/TLS a los puntos . . . Read more
Después de actualizar tika-core de 1.26 a 2.1.0, no se lanzará ninguna excepción para los documentos .doc cifrados. protected boolean checkMsmime(InputStream stream) throws IOException, SAXException { Metadata metadata = new Metadata(); ContentHandler handler = new DefaultHandler(); ParseContext context = new ParseContext(); BodyContentHandler bch = new BodyContentHandler(); try { new AutoDetectParser().parse(stream, . . . Read more
Estoy tratando de detectar los tipos de mime basados en un flujo de entrada de archivo, sin información disponible con respecto a la extensión del archivo. Estoy utilizando Tika 2.1.0. Sin embargo, para un archivo de oficina, como por ejemplo la detección de tipos de contenido de una hoja de . . . Read more
Aquí está mi método: public String retrieveMimeType(InputStream stream, String filename) throws Exception { TikaConfig config = TikaConfig.getDefaultConfig(); Detector detector = config.getDetector(); TikaInputStream streams = TikaInputStream.get(stream); Metadata metadata = new Metadata(); metadata.add(TikaCoreProperties.RESOURCE_NAME_KEY, filename); MediaType mediaType = null; mediaType = detector.detect(stream, metadata); return mediaType.toString(); } Me da esto en el registro: java.lang.NoSuchMethodError: . . . Read more