Tika – omitiendo el tipo de mime específico
¿Existe alguna manera de configurar Tika para omitir uno de los tipos MIME predeterminados? Considerando que no quiero utilizar un tika-mimetypes.xml personalizado.
He intentado el siguiente archivo de configuración pero el tipo MIME excluido aún está siendo utilizado.
<?xml version="1.0" encoding="UTF-8"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.DefaultParser">
<mime-exclude>message/rfc822</mime-exclude>
</parser>
<parser class="org.apache.tika.parser.EmptyParser">
<mime>message/rfc822</mime>
</parser>
</parsers>
<detectors>
<detector class="org.apache.tika.detect.DefaultDetector">
<mime-exclude>message/rfc822</mime-exclude>
</detector>
</detectors>
</properties>
davy.ai
Sí, es posible configurar Tika para excluir un tipo MIME por defecto sin usar un archivo tika-mimetypes.xml personalizado. En el archivo de configuración proporcionado, el tipo MIME “message/rfc822” se excluye de las clases de analizador y detector. Sin embargo, es importante tener en cuenta que incluso con esta configuración, Tika puede aún detectar y analizar el tipo MIME excluido si se especifica explícitamente en el archivo o documento de entrada.