Quality
Fonctions de validation des données extraites.
Valider les zones repérées
- Tous les en-têtes commencent à 0 ;
- Tous les pieds-de-pages terminent à la longueur du document ;
- En-tête et pied-de-page sont disjoints ;
drop_no_errors_arr(df_arr)
Supprime les arrêtés sans erreur.
Parameters: |
|
---|
Returns: |
|
---|
error_classe_manquante(df)
Signale les arrêtés dont la classe n'a pu être déterminée.
Les causes les plus fréquentes sont une erreur d'OCR sur un document mal numérisé, ou une mise en page du document sur plusieurs colonnes qui n'est pas explicitement gérée par les scripts actuels, et dont le résultat ne permet pas la reconnaissance des motifs recherchés.
Parameters: |
|
---|
Returns: |
|
---|
error_codeinsee_13055(df)
Signale les arrêtés dont le code INSEE est 13055.
13055 est le code pour tout Marseille, alors que l'on devrait avoir le code propre à l'arrondissement (13201 à 13216).
Ignore les valeurs manquantes.
Parameters: |
|
---|
Returns: |
|
---|
error_codeinsee_manquant(df)
Signale les arrêtés dont le code INSEE est manquant.
Le code INSEE est déterminé sur base du nom de la commune, croisé avec la table des codes communes dans data/external/ (actuellement restreint au périmètre de la métropole Aix-Marseille Provence).
Parameters: |
|
---|
Returns: |
|
---|
error_cpostal_manquant(df)
Signale les adresses d'arrêtés sans ville.
Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), ou pas d'adresse incluant la ville, auquel cas la ville est déterminée selon d'autres indices (ex: lieu de signature), sinon recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement.
Ignore les valeurs manquantes.
Parameters: |
|
---|
Returns: |
|
---|
error_date_manquante(df)
Signale les arrêtés dont la date n'a pu être déterminée.
La cause la plus fréquente est une erreur d'OCR sur une date manuscrite ou tamponnée, ou un document mal numérisé ; il est possible que le script échoue à extraire la date dans certaines tournures de rédaction.
Parameters: |
|
---|
Returns: |
|
---|
error_num_voie_manquant(df)
Signale les adresses d'arrêtés sans numéro de voie.
Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement ou totalement.
Ignore les valeurs manquantes.
Parameters: |
|
---|
Returns: |
|
---|
error_urgence_manquante(df)
Signale les arrêtés dont l'urgence n'a pu être déterminée.
La cause la plus fréquente est une classe d'arrêté qui ne donne pas explicitement cette information.
Parameters: |
|
---|
Returns: |
|
---|
error_ville_manquante(df)
Signale les adresses d'arrêtés sans ville.
Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), ou pas d'adresse incluant la ville, auquel cas la ville est déterminée selon d'autres indices (ex: lieu de signature), sinon recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement.
Ignore les valeurs manquantes.
Parameters: |
|
---|
Returns: |
|
---|
error_voie_manquante(df)
Signale les adresses d'arrêtés sans voie.
Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement.
Ignore les valeurs manquantes.
Parameters: |
|
---|
Returns: |
|
---|
examine_doc_content(fn_pdf, doc_content)
Vérifie des hypothèses de bonne formation sur le contenu extrait du document.
Parameters: |
|
---|
expect_footer_end_len(df)
Vérifie que les en-têtes commencent tous à 0.
Ignore les valeurs manquantes (aucun en-tête détecté).
Parameters: |
|
---|
Returns: |
|
---|
expect_header_beg_zero(df)
Vérifie que les en-têtes commencent tous à 0.
Ignore les valeurs manquantes (aucun en-tête détecté).
Parameters: |
|
---|
Returns: |
|
---|
generate_html_report(run, df_adr, df_arr, df_not, df_par)
Générer un rapport d'erreurs en HTML
Parameters: |
|
---|
Returns: |
|
---|
warn_adresse_empty(df)
Signale les arrêtés sans aucune adresse.
Certains arrêtés ne contiennent pas d'adresse (ex: mainlevée, abrogation), auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer.
Ignore les valeurs manquantes.
C'est une erreur pour l'utilisateur final mais un warning du point de vue du script, car la probabilité que l'adresse ne soit pas dans l'arrêté, sachant qu'aucune adresse n'a été extraite, est relativement élevée.
Parameters: |
|
---|
Returns: |
|
---|
warn_par_ref_cad_empty(df)
Signale les arrêtés sans aucune référence de parcelle cadastrale.
Certains arrêtés ne contiennent pas de référence cadastrale, auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs références cadastrales que les scripts échouent à repérer.
Ignore les valeurs manquantes.
C'est une erreur pour l'utilisateur final mais un warning du point de vue du script, car la probabilité que la référence ne soit pas dans l'arrêté, sachant qu'aucune référence n'a été extraite, est élevée.
Parameters: |
|
---|
Returns: |
|
---|