Projet

Général

Profil

Actions

Bug #2757

fermé

Feature #2390: Metadonnées de fichiers Office "*.docx" non récupérées

Erreur sur l'extraction des métadonnées avec Tika

Ajouté par Emmanuel Hugonnet il y a presque 13 ans. Mis à jour il y a presque 13 ans.

Statut:
Closed
Priorité:
Normal
Assigné à:
Catégorie:
Moteur de recherche
Début:
13/12/2011
Echéance:
% réalisé:

0%

Temps estimé:
4.00 h
Navigateur:
Tous
Votre version de Silverpeas:
5.8-SNAPSHOT
Système d'exploitation:
Votre base de données:
Toutes
Livraison en TEST:
Livraison en PROD:

Description

Suite à l'évolution #2390 l'erreur suivante se produit avec un fichier TIFF :

12/12/11-15:10:53,073 - ERROR : indexEngine.MSG_ADD_REQUEST_FAILED | MODULE : indexEngine.IndexManager.indexDocs | Echec de l'ajout d'une entrée dans l'index (72470.tif)
java.io.IOException: 
    at org.apache.tika.parser.ParsingReader.read(ParsingReader.java:271)
    at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizerImpl.zzRefill(SilverTokenizerImpl.java:403)
    at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizerImpl.getNextToken(SilverTokenizerImpl.java:562)
    at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizer.next(SilverTokenizer.java:112)
    at org.apache.lucene.analysis.standard.StandardFilter.next(StandardFilter.java:43)
    at org.apache.lucene.analysis.LowerCaseFilter.next(LowerCaseFilter.java:34)
    at org.apache.lucene.analysis.StopFilter.next(StopFilter.java:120)
    at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:47)
    at com.stratelia.webactiv.util.indexEngine.analysis.ElisionFilter.next(ElisionFilter.java:67)
    at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:91)
    at org.apache.lucene.analysis.ISOLatin1AccentFilter.next(ISOLatin1AccentFilter.java:37)
    at org.apache.lucene.index.DocInverterPerField.processFields(DocInverterPerField.java:134)
    at org.apache.lucene.index.DocFieldConsumersPerField.processFields(DocFieldConsumersPerField.java:36)
    at org.apache.lucene.index.DocFieldProcessorPerThread.processDocument(DocFieldProcessorPerThread.java:234)
    at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:765)
    at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:743)
    at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1917)
    at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1895)
    at com.stratelia.webactiv.util.indexEngine.model.IndexManager.indexDocs(IndexManager.java:355)
    at com.stratelia.webactiv.util.indexEngine.model.IndexManager.addIndexEntry(IndexManager.java:117)
    at com.stratelia.webactiv.util.indexEngine.model.AddIndexEntryRequest.process(IndexerThread.java:212)
    at com.stratelia.webactiv.util.indexEngine.model.IndexerThread.run(IndexerThread.java:109)
Caused by: java.lang.NoSuchMethodError: com.drew.imaging.tiff.TiffMetadataReader.readMetadata(Ljava/io/InputStream;)Lcom/drew/metadata/Metadata;
    at org.apache.tika.parser.image.ImageMetadataExtractor.parseTiff(ImageMetadataExtractor.java:101)
    at org.apache.tika.parser.image.TiffParser.parse(TiffParser.java:65)
    at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:91)
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:135)
    at org.apache.tika.parser.ParsingReader$ParsingTask.run(ParsingReader.java:232)
    at java.lang.Thread.run(Thread.java:662)

Mis à jour par Emmanuel Hugonnet il y a presque 13 ans

  • Statut changé de New à In progress...

Mis à jour par Emmanuel Hugonnet il y a presque 13 ans

  • Statut changé de In progress... à Closed

Creation d'un patch pour Tika afin qu'il utilise la même version de MetadataExtractor que nous 2.5.0-RC3

Actions

Formats disponibles : Atom PDF