Projet

Général

Profil

Actions

Support #11042

fermé

SilverCrawler-Problème sur indexation

Ajouté par Marc Avenel il y a plus de 4 ans. Mis à jour il y a environ 3 ans.

Statut:
Closed
Priorité:
Normal
Assigné à:
Version cible:
-
Début:
16/10/2019
Echéance:
% réalisé:

0%

Temps estimé:
Navigateur:
Firefox
Votre version de Silverpeas:
5.15.9
Système d'exploitation:
Livraison en TEST:
Livraison en PROD:

Description

SilverCrawler concerné:EUROPE - MEA > CHA - CHAMPFROMIER > LOGISTIQUE > Expédition > Bons expédition (https://www.akwel.net/silverpeas/RsilverCrawler/silverCrawler34102/Main)

Sur les logs du serveur de la production j'ai les messages suivants (extrait):

15/10/19-23:05:09,253 - ERROR : indexEngine.MSG_ADD_REQUEST_FAILED | MODULE : indexEngine.IndexManager.index | 
         Echec de l'ajout d'une entrée dans l'index 
         (silverCrawler34102|LinkedFile|/opt/scantofolder/log/eu/cha/supply/2017/CHA_LOG_SUPPLY-20170224-date to total sender destinataire - jzKi91318276yws4SOzYj4.pdf)

java.io.IOException: 
    at org.apache.tika.parser.ParsingReader.read(ParsingReader.java:260)
    at org.silverpeas.search.indexEngine.analysis.SilverTokenizerImpl.zzRefill(SilverTokenizerImpl.java:433)
    at org.silverpeas.search.indexEngine.analysis.SilverTokenizerImpl.getNextToken(SilverTokenizerImpl.java:640)
    at org.silverpeas.search.indexEngine.analysis.SilverTokenizer.incrementToken(SilverTokenizer.java:127)
    at org.apache.lucene.analysis.standard.StandardFilter.incrementToken(StandardFilter.java:55)

15/10/19-23:05:09,265 - ERROR : indexEngine.MSG_ADD_REQUEST_FAILED | MODULE : indexEngine.IndexManager.index | 
Echec de l'ajout d'une entrée dans l'index (silverCrawler34102|LinkedFile|/opt/scantofolder/log/eu/cha/supply/2017/CHA_LOG_SUPPLY-20170224-date to total sender destinataire - jzKi91318276yws4SOzYj4.pdf, 
EXCEPTION : java.io.IOException: 

15/10/19-23:05:09,486 - ERROR : indexEngine.MSG_ADD_REQUEST_FAILED | MODULE : indexEngine.IndexManager.index | 
Echec de l'ajout d'une entrée dans l'index (silverCrawler34102|LinkedFile|/opt/scantofolder/log/eu/cha/supply/2017/CHA_LOG_SUPPLY-20170224-the of and transporteur ii - JHwrI1318098fqTcHVc4yC.pdf, 
EXCEPTION : java.io.IOException: 

Echec de l'ajout d'une entrée dans l'index (silverCrawler34102|LinkedFile|/opt/scantofolder/log/eu/cha/supply/2017/CHA_LOG_SUPPLY-20170224-total date chargement timbre transporteur - aYrEd1318102YWHDxGleVZ.pdf)

Si je recherche dans le composant les publications au format PDF (via le titre) je ne les trouve pas.

Comment gérer cette erreur qui revient sans cesse?


Fichiers

Mis à jour par Nicolas Eysseric il y a plus de 4 ans

  • Tracker changé de Bug à Support
  • Statut changé de New à Feedback
  • Votre base de données Toutes supprimé

Le parser Tika n'arrive pas à extraire le contenu du fichier pour une raison ou pour une autre lors de l'indexation du fichier.
Avec la version 6 de Silverpeas, les parsers dans des versions plus modernes sont utilisés. Pouvez-vous nous fournir le fichier cité ici ?

Mis à jour par Marc Avenel il y a plus de 4 ans

Je viens de contrôler ces fichiers .
Ils ne sont pas indexés car le format PDF n'est pas bon.
Si j'essaye de les ouvrir sur mon poste:

Le type de fichier n'est pas pris en charge ou le fichier est endommagé (il a été envoyé en tant que pièce jointe et n'a pas été décodé correctement

Mis à jour par Nicolas Eysseric il y a plus de 4 ans

En effet, les fichiers transmis font tous 0ko !

Mis à jour par Marc Avenel il y a plus de 4 ans

Par contre si je regarde la V6 (https://v6.akwel.net/silverpeas/)
Les dossiers de stockage sont les suivants (https://v6.akwel.net/silverpeas/RsilverCrawler/silverCrawler34102/Main):
  • L'année en cours :indexée
  • 2016 : indexée
  • 2017: pas indexée
  • 2018: pas indexée

Pourquoi ?

Mis à jour par Marc Avenel il y a plus de 4 ans

Pour ce composant Silvercrawler (https://www.akwel.net/silverpeas/RsilverCrawler/silverCrawler34102/Main), les paramètres sont les suivants:
  • Root directory: /opt/scantofolder/log/eu/cha/supply
  • Use a dedicated serarch engine (Y/N):Y
  • Periodic indexing (Y/N): Y
  • Allow browsing of files and directories (Y/N): Y

L’arborescence des fichiers est décrit sur https://tracker.silverpeas.org/issues/11042#note-5

Comment se passe l'indexation de ce composant:
  • Indexation des fichiers PDF qui ne sont pas listés comme non indexés (i n'apparait pas)
  • Ou
  • Indexation complète des fichiers dans tous les répertoires

C'est IMPORTANT Merci

Mis à jour par Marc Avenel il y a plus de 4 ans

Faut-il renseigner : Periodic indexing (Y/N): N
Pour n'indexer que ce qui ne l'est pas ?

Mis à jour par David Lesimple il y a plus de 4 ans

Marc Avenel a écrit :

Faut-il renseigner : Periodic indexing (Y/N): N
Pour n'indexer que ce qui ne l'est pas ?

Pour indexer périodiquement, oui, mais pour indexer manuellement, vous pouvez le faire en sélectionnant les éléments à indexer (fichiers ou dossiers)

Mis à jour par Marc Avenel il y a plus de 4 ans

L'indexation est par différence ou globale à chaque fois ?
Merci

Mis à jour par David Lesimple il y a plus de 4 ans

Marc Avenel a écrit :

L'indexation est par différence ou globale à chaque fois ?
Merci

De quelle indexation parlez-vous ?

Mis à jour par Marc Avenel il y a plus de 4 ans

L'indexation de la numérisation qui sont ans le dossier opt/scantofolder
celle que vous avez repris car on ne pouvait y accéder

Mis à jour par Marc Avenel il y a plus de 4 ans

Periodic indexing (Y/N): Y
Indexation périodiquement que pour les nouveaux fichiers ajoutés.
C'est bien cela.

Merci

Mis à jour par Marc Avenel il y a plus de 4 ans

De plus , le composant nous indique que les sous dossiers ne sont pas indexés
Nous n'avons pas le petit icône associé (i) sur les dossiers et les fichiers associés
  • 2016: quelques uns
  • 2017 & 2018 non
Par contre si je vais des recherches sur ces dossiers
  • la recherche fonctionne.

Mis à jour par Marc Avenel il y a plus de 4 ans

Je me permets de vous relancer sur ce sujet.
Ceci devient Urgent, les tests vont bientôt s'achever.
D'avance merci

Mis à jour par David Lesimple il y a plus de 4 ans

Marc Avenel a écrit :

Je me permets de vous relancer sur ce sujet.
Ceci devient Urgent, les tests vont bientôt s'achever.
D'avance merci

?? ce ticket est relatif à la version 5.x, je pense que vous vous êtes trompé de ticket non ?

Mis à jour par Marc Avenel il y a plus de 4 ans

J'y ai mis aussi la v6 (https://tracker.silverpeas.org/issues/11042#note-5) pour comparer.

Mis à jour par David Lesimple il y a plus de 4 ans

  • Assigné à mis à David Lesimple

Marc Avenel a écrit :

De plus , le composant nous indique que les sous dossiers ne sont pas indexés
Nous n'avons pas le petit icône associé (i) sur les dossiers et les fichiers associés
  • 2016: quelques uns
  • 2017 & 2018 non
Par contre si je vais des recherches sur ces dossiers
  • la recherche fonctionne.

Et vous avez lancé un indexation sur ces dossiers ?

Mis à jour par Marc Avenel il y a plus de 4 ans

Sur 2016 au début de la semaine qui est indexé à moitié si on parcourt l'arborescence (i)

Mis à jour par David Lesimple il y a plus de 4 ans

Marc Avenel a écrit :

Sur 2016 au début de la semaine qui est indexé à moitié si on parcourt l'arborescence (i)

Je vais regarder..

Mis à jour par Marc Avenel il y a plus de 4 ans

Merci et les autres dossiers ne le sont pas 2017,2018

Mis à jour par David Lesimple il y a plus de 4 ans

David Lesimple a écrit :

Marc Avenel a écrit :

Sur 2016 au début de la semaine qui est indexé à moitié si on parcourt l'arborescence (i)

Je vais regarder..

J'ai lancé l'indexation de 2016 Vendredi et il apparait bien complètement indexé ce matin.
Je viens de faire de même pour 2018.

Mis à jour par Marc Avenel il y a plus de 4 ans

Comment se fait-il que l'indexation globale (dossier ne cours et sous dossiers) ne soit pas faite lors de votre action globale.
  • Pourquoi sommes nous obligés de relancer une indexation par dossier ?
  • Pourquoi le dossier 2016, a été partiel?

Mis à jour par David Lesimple il y a plus de 4 ans

Marc Avenel a écrit :

Comment se fait-il que l'indexation globale (dossier ne cours et sous dossiers) ne soit pas faite lors de votre action globale.
  • Pourquoi sommes nous obligés de relancer une indexation par dossier ?
  • Pourquoi le dossier 2016, a été partiel?

En fait, l'indexation fonctionne bien, il semble qu'il y ait juste un problème sur l'affichage de la pastille bleue.

Mis à jour par Marc Avenel il y a plus de 4 ans

je suis tout à fait d'accord avec vous.
car j'ai fait des tests sur des publications qui n'ont pas la pastille bleue et la recherche fonctionne sur celles-ci

Mis à jour par Marc Avenel il y a environ 3 ans

  • Statut changé de Feedback à Closed

clos

Actions

Formats disponibles : Atom PDF