Project

General

Profile

Actions

Feature #2390

closed

Metadonnées de fichiers Office "*.docx" non récupérées

Added by Alban KARNAVOS about 14 years ago. Updated almost 14 years ago.

Status:
Closed
Priority:
Normal
Category:
Import/Export
Start date:
12/13/2011
Due date:
% Done:

100%

Estimated time:
(Total: 4.00 h)
Spent time:
Livraison en TEST:
Livraison en PROD:

Description

Lorsque l'on crée une publication en glisser / déposer, les propriétés des fichiers :
- ne sont pas récupérées quand le fichier est au format Office 2007
- sont récupérées quand le fichier est au format Office 93-2003, à l'exception du champ "Auteur" (cf. Bug 2384 https://www.silverpeas.org/redmine/issues/2384)

En illustration : 2 publications créées à partir du même fichier (propriétés identiques) mais enregistré sous les 2 formats.

Pour info, test réalisé en 5.7.1 (version non dispo dans le menu déroulant lors de la création de ce ticket).


Files

5.7.1.bug_ged_metadata.ppt (201 KB) 5.7.1.bug_ged_metadata.ppt Alban KARNAVOS, 09/07/2011 06:00 PM

Subtasks 1 (0 open1 closed)

Bug #2757: Erreur sur l'extraction des métadonnées avec TikaClosedEmmanuel Hugonnet12/13/2011

Actions

Related issues 1 (0 open1 closed)

Blocked by Silverpeas Core - Bug #1787: Pb d'indexation de certains documents PPTClosedEmmanuel Hugonnet03/21/2011

Actions
Actions #1

Updated by Nicolas Eysseric about 14 years ago

  • Tracker changed from Bug to Feature
  • Status changed from New to Assigned
  • Assignee set to Emmanuel Hugonnet

On ne peut pas considérer cela comme un anomalie mais plutôt comme une limitation.
Il n'y a pas de régression puisque nous n'avons jamais pris en compte ce format pour cette fonctionnalité.

Actions #2

Updated by Emmanuel Hugonnet about 14 years ago

  • Status changed from Assigned to Resolved
  • Target version set to Version 5.8
  • % Done changed from 0 to 100

Intégration d'Apache Tika.
La version d'Apache Tika en cours de développement fonctionne nettement mieux cependant en attendant sa stabilisation (et poi 3.8 qui lui est nécessaire) nous utilisons Apache Tika 0.9 avec de légères modifications sur les parsers cf. org.apache.tika dans lib-core).
Attention cette mise à jour demande aussi une mise à jour de Components

Actions #3

Updated by Emmanuel Hugonnet about 14 years ago

  • Project changed from GED to Silverpeas Core
Actions #4

Updated by Emmanuel Hugonnet about 14 years ago

  • Category set to Import/Export
Actions #5

Updated by Nicolas Eysseric about 14 years ago

  • Status changed from Resolved to Closed

OK. Validé.

Actions #6

Updated by Nicolas Eysseric almost 14 years ago

  • Status changed from Closed to Assigned

Suite à cette évolution, l'erreur suivante se produit avec un fichier TIFF :

12/12/11-15:10:53,073 - ERROR : indexEngine.MSG_ADD_REQUEST_FAILED | MODULE : indexEngine.IndexManager.indexDocs | Echec de l'ajout d'une entrée dans l'index (72470.tif)
java.io.IOException: 
    at org.apache.tika.parser.ParsingReader.read(ParsingReader.java:271)
    at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizerImpl.zzRefill(SilverTokenizerImpl.java:403)
    at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizerImpl.getNextToken(SilverTokenizerImpl.java:562)
    at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizer.next(SilverTokenizer.java:112)
    at org.apache.lucene.analysis.standard.StandardFilter.next(StandardFilter.java:43)
    at org.apache.lucene.analysis.LowerCaseFilter.next(LowerCaseFilter.java:34)
    at org.apache.lucene.analysis.StopFilter.next(StopFilter.java:120)
    at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:47)
    at com.stratelia.webactiv.util.indexEngine.analysis.ElisionFilter.next(ElisionFilter.java:67)
    at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:91)
    at org.apache.lucene.analysis.ISOLatin1AccentFilter.next(ISOLatin1AccentFilter.java:37)
    at org.apache.lucene.index.DocInverterPerField.processFields(DocInverterPerField.java:134)
    at org.apache.lucene.index.DocFieldConsumersPerField.processFields(DocFieldConsumersPerField.java:36)
    at org.apache.lucene.index.DocFieldProcessorPerThread.processDocument(DocFieldProcessorPerThread.java:234)
    at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:765)
    at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:743)
    at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1917)
    at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1895)
    at com.stratelia.webactiv.util.indexEngine.model.IndexManager.indexDocs(IndexManager.java:355)
    at com.stratelia.webactiv.util.indexEngine.model.IndexManager.addIndexEntry(IndexManager.java:117)
    at com.stratelia.webactiv.util.indexEngine.model.AddIndexEntryRequest.process(IndexerThread.java:212)
    at com.stratelia.webactiv.util.indexEngine.model.IndexerThread.run(IndexerThread.java:109)
Caused by: java.lang.NoSuchMethodError: com.drew.imaging.tiff.TiffMetadataReader.readMetadata(Ljava/io/InputStream;)Lcom/drew/metadata/Metadata;
    at org.apache.tika.parser.image.ImageMetadataExtractor.parseTiff(ImageMetadataExtractor.java:101)
    at org.apache.tika.parser.image.TiffParser.parse(TiffParser.java:65)
    at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:91)
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:135)
    at org.apache.tika.parser.ParsingReader$ParsingTask.run(ParsingReader.java:232)
    at java.lang.Thread.run(Thread.java:662)

Actions #7

Updated by Emmanuel Hugonnet almost 14 years ago

  • Status changed from Assigned to Closed
Actions

Also available in: Atom PDF