Notion de pages blanches dans le contexte de la dématérialisation

Sujet à priori sans intérêt, quoi-que…

Existe-il une définition de la notion de page blanche ? La meilleure que je connaissance, dans le contexte de la dématérialisation, est : une image non porteuse d’information

Le problème de cette définition, c’est qu’elle est finalement très subjective. Quelques visuels qui ne posent problème à personne :

miniature d'une page blanche

page blanche avec légère bordure noire

miniature page avec pb de transparence

page verso avec par transparence texte du recto

miniature d'une image avec trous de perforation

page blanche verso mais présence bordures noires et trous de perforation

On voit bien que ces trois images répondent bien à la définition, même si elles ne sont pas blanches.

La raison de cet article est que les logiciels de scan vont avoir des difficultés à supprimer ces images, avec le seul outil standard qui est en général proposé. Il supprime les images au regard du poids de celle-ci (en octets) ou de la couverture noire sur l’image (exprimé en %).

Des produits permettent de supprimer les bordures noires, d’autres les trous de perforation, mais cela ne fait que réduire le problème, pas le supprimer.

Voici un exemple d’image qui est à conserver :

miniature d'une image avec qu'un numéro de page

page ne contenant qu’un numéro de page

C’est bien sûr l’exemple extrême, d’une page ne contenant qu’un numéro de page. Le poids d’une telle image est inférieure aux images à supprimer ci-dessus.

L’image ci-dessous est en général à supprimer, même si elle est loin d’être blanche, mais elle répond à la définition.

miniature d'une image couverte de texte

Conditions générale de vente

Ce type de page, sur certaines prestations est présent sur tous les versos, et n’apporte donc aucune information particulière.

Nous avons résolu en automatique, la suppression des pages blanches dans nos chaines de production, par du traitement d’images et par l’utilisation de modèles, en ce qui concerne les conditions générales de vente. L’OCR peut-être une idée, mais elle ne fonctionne pas sur tous les documents, dont le manuscrit, de plus la transparence peut être vue comme du texte.

Un peu d’humour..

miniature d'une image comportant un texte "page blanche"

image volontairement blanche

Pour une question de pagination, des documents comportent ce type de page…

.

Laisser un commentaire