Quality

Fonctions de validation des données extraites.

Valider les zones repérées

  • Tous les en-têtes commencent à 0 ;
  • Tous les pieds-de-pages terminent à la longueur du document ;
  • En-tête et pied-de-page sont disjoints ;

drop_no_errors_arr(df_arr)

Supprime les arrêtés sans erreur.

Parameters:
  • df_arr (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df_arr( DataFrame ) –

    DataFrame contenant les arrêtés sans erreurs.

error_classe_manquante(df)

Signale les arrêtés dont la classe n'a pu être déterminée.

Les causes les plus fréquentes sont une erreur d'OCR sur un document mal numérisé, ou une mise en page du document sur plusieurs colonnes qui n'est pas explicitement gérée par les scripts actuels, et dont le résultat ne permet pas la reconnaissance des motifs recherchés.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_codeinsee_13055(df)

Signale les arrêtés dont le code INSEE est 13055.

13055 est le code pour tout Marseille, alors que l'on devrait avoir le code propre à l'arrondissement (13201 à 13216).

Ignore les valeurs manquantes.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_codeinsee_manquant(df)

Signale les arrêtés dont le code INSEE est manquant.

Le code INSEE est déterminé sur base du nom de la commune, croisé avec la table des codes communes dans data/external/ (actuellement restreint au périmètre de la métropole Aix-Marseille Provence).

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_cpostal_manquant(df)

Signale les adresses d'arrêtés sans ville.

Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), ou pas d'adresse incluant la ville, auquel cas la ville est déterminée selon d'autres indices (ex: lieu de signature), sinon recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement.

Ignore les valeurs manquantes.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_date_manquante(df)

Signale les arrêtés dont la date n'a pu être déterminée.

La cause la plus fréquente est une erreur d'OCR sur une date manuscrite ou tamponnée, ou un document mal numérisé ; il est possible que le script échoue à extraire la date dans certaines tournures de rédaction.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_num_voie_manquant(df)

Signale les adresses d'arrêtés sans numéro de voie.

Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement ou totalement.

Ignore les valeurs manquantes.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_urgence_manquante(df)

Signale les arrêtés dont l'urgence n'a pu être déterminée.

La cause la plus fréquente est une classe d'arrêté qui ne donne pas explicitement cette information.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_ville_manquante(df)

Signale les adresses d'arrêtés sans ville.

Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), ou pas d'adresse incluant la ville, auquel cas la ville est déterminée selon d'autres indices (ex: lieu de signature), sinon recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement.

Ignore les valeurs manquantes.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

error_voie_manquante(df)

Signale les adresses d'arrêtés sans voie.

Certains arrêtés ne contiennent pas d'adresse (ex: certaines mainlevées ou abrogations), auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer ou à analyser correctement.

Ignore les valeurs manquantes.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

examine_doc_content(fn_pdf, doc_content)

Vérifie des hypothèses de bonne formation sur le contenu extrait du document.

Parameters:
  • doc_content (list[dict]) –

    Empans de contenu extraits du document

Vérifie que les en-têtes commencent tous à 0.

Ignore les valeurs manquantes (aucun en-tête détecté).

Parameters:
  • df (DataFrame) –

    DataFrame contenant les zones repérées dans les documents.

Returns:
  • success( bool ) –

    True si tous les en-têtes détectés commencent à 0.

expect_header_beg_zero(df)

Vérifie que les en-têtes commencent tous à 0.

Ignore les valeurs manquantes (aucun en-tête détecté).

Parameters:
  • df (DataFrame) –

    DataFrame contenant les zones repérées dans les documents.

Returns:
  • success( bool ) –

    True si tous les en-têtes détectés commencent à 0.

generate_html_report(run, df_adr, df_arr, df_not, df_par)

Générer un rapport d'erreurs en HTML

Parameters:
  • run (str) –

    Identifiant de l'exécution

  • df_adr (DataFrame) –

    Adresses

  • df_arr (DataFrame) –

    Arrêtés

  • df_not (DataFrame) –

    Notifiés

  • df_par (DataFrame) –

    Parcelles

Returns:
  • html_report( string ) –

    Rapport HTML

warn_adresse_empty(df)

Signale les arrêtés sans aucune adresse.

Certains arrêtés ne contiennent pas d'adresse (ex: mainlevée, abrogation), auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs adresses que les scripts échouent à repérer.

Ignore les valeurs manquantes.

C'est une erreur pour l'utilisateur final mais un warning du point de vue du script, car la probabilité que l'adresse ne soit pas dans l'arrêté, sachant qu'aucune adresse n'a été extraite, est relativement élevée.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.

warn_par_ref_cad_empty(df)

Signale les arrêtés sans aucune référence de parcelle cadastrale.

Certains arrêtés ne contiennent pas de référence cadastrale, auquel cas cette information doit être recherchée puis renseignée manuellement. D'autres arrêtés contiennent une ou plusieurs références cadastrales que les scripts échouent à repérer.

Ignore les valeurs manquantes.

C'est une erreur pour l'utilisateur final mais un warning du point de vue du script, car la probabilité que la référence ne soit pas dans l'arrêté, sachant qu'aucune référence n'a été extraite, est élevée.

Parameters:
  • df (DataFrame) –

    DataFrame contenant les arrêtés.

Returns:
  • df( DataFrame ) –

    DataFrame contenant avec une colonne indiquant si cette erreur est présente.