Domain Knowledge
Definit les expressions régulières et les dictionnaires utilisés pour l'extraction des données.
Actes
Traces de télétransmission de documents par @ctes.
is_accusedereception_page(page_txt)
Détecte si une page contient un accusé de réception.
Parameters: |
|
---|
Returns: |
|
---|
is_stamped_page(page_txt)
Détecte si une page contient un tampon (encadré) de transmission @actes.
Parameters: |
|
---|
Returns: |
|
---|
Adresses
Reconnaissance et traitement des adresses.
create_adresse_normalisee(adr_num, adr_ind, adr_voie, adr_compl, adr_cpostal, adr_ville)
Créer une adresse normalisée.
L'adresse normalisée rassemble les champs extraits de l'adresse brute, et ailleurs dans le document si nécessaire (eg. autorité prenant l'arrêté, template).
Le complément d'adresse est ignoré.
Parameters: |
|
---|
Returns: |
|
---|
normalize_adresse(adresse)
Normalise les champs d'adresse.
Les formes normales de chaque champ sont: - indice de répétition en minuscules, - voie en minuscules, - ville en forme canonique tirée du fichier des codes communes INSEE.
Les espaces superflues ont normalement été supprimées en amont.
Parameters: |
|
---|
Returns: |
|
---|
process_adresse_brute(adr_ad_brute)
Extraire une ou plusieurs adresses d'une adresse brute.
Chaque adresse comporte différents champs: numéro, indicateur, voie, (éventuellement complement d'adresse,) code postal, commune.
Parameters: |
|
---|
Returns: |
|
---|
Agences immobilières
Reconnaissance des noms d'agences immobilières.
- Certains noms de syndics incluent "syndic", les capturer explicitement avant le motif général permet d'éviter les conflits.
- Lister les syndics connus peut accélérer et mieux focaliser la capture.
normalize_nom_cabinet(nom_cab)
Normalise un nom de cabinet.
La version actuelle requiert une déclaration explicite dans LISTE_NOMS_CABINETS, mais des traitements de normalisation standard pourraient être définis en complément.
Parameters: |
|
---|
Returns: |
|
---|
Arrêtés
Structure d'un arrêté de collectivité territoriale.
contains_arrete(page_txt)
Détecte si une page contient ARRET(E|ONS).
Parameters: |
|
---|
Returns: |
|
---|
contains_article(page_txt)
Détecte si une page contient un Article.
Parameters: |
|
---|
Returns: |
|
---|
contains_considerant(page_txt)
Détecte si une page contient un CONSIDERANT.
Parameters: |
|
---|
Returns: |
|
---|
contains_vu(page_txt)
Détecte si une page contient un VU.
Parameters: |
|
---|
Returns: |
|
---|
get_commune_maire(page_txt)
Extrait le nom de la commune précédé de la mention du maire.
Parameters: |
|
---|
Returns: |
|
---|
get_date(page_txt)
Récupère la date de l'arrêté.
Actuellement, correspond à la date de signature, en fin d'arrêté.
Parameters: |
|
---|
Returns: |
|
---|
get_nom(page_txt)
Récupère le nom de l'arrêté.
Parameters: |
|
---|
Returns: |
|
---|
get_num(page_txt)
Récupère le numéro de l'arrêté.
Parameters: |
|
---|
Returns: |
|
---|
Cadastre
Reconnaissance et analyse de références cadastrales.
generate_refcadastrale_norm(codeinsee, refcad, arr_pdf, adr_cpostal)
Génère une référence cadastrale normalisée à une entrée.
Parameters: |
|
---|
Returns: |
|
---|
get_parcelles(page_txt)
Récupère la ou les références de parcelles cadastrales.
Parameters: |
|
---|
Returns: |
|
---|
Cadre réglementaire
Références au cadre réglementaire.
contains_cc(page_txt)
Détecte si une page contient une référence au Code Civil.
Parameters: |
|
---|
Returns: |
|
---|
contains_cc_art(page_txt)
Détecte si une page contient une référence à des articles du Code Civil.
Parameters: |
|
---|
Returns: |
|
---|
contains_cch(page_txt)
Détecte si une page contient une référence au Code de la Construction et de l'Habitation.
Parameters: |
|
---|
Returns: |
|
---|
contains_cch_L111(page_txt)
Détecte si une page contient une référence à l'article L111 du Code de la Construction et de l'Habitation.
Parameters: |
|
---|
Returns: |
|
---|
contains_cch_L511(page_txt)
Détecte si une page contient une référence à l'article L511 du Code de la Construction et de l'Habitation.
Parameters: |
|
---|
Returns: |
|
---|
contains_cch_L521(page_txt)
Détecte si une page contient une référence à l'article L521 du Code de la Construction et de l'Habitation.
Parameters: |
|
---|
Returns: |
|
---|
contains_cch_L541(page_txt)
Détecte si une page contient une référence à l'article L541 du Code de la Construction et de l'Habitation.
Parameters: |
|
---|
Returns: |
|
---|
contains_cch_R511(page_txt)
Détecte si une page contient une référence à l'article R511 du Code de la Construction et de l'Habitation.
Parameters: |
|
---|
Returns: |
|
---|
contains_cgct(page_txt)
Détecte si une page contient une référence au Code Général des Collectivités Territoriales.
Parameters: |
|
---|
Returns: |
|
---|
contains_cgct_art(page_txt)
Détecte si une page contient une référence à des articles du Code Général des Collectivités Territoriales.
Parameters: |
|
---|
Returns: |
|
---|
parse_refs_reglement(txt_body, span_beg, span_end)
Repère dans un texte des références au cadre réglementaire.
Parameters: |
|
---|
Returns: |
|
---|
Codes géographiques
Accès aux codes géographiques (codes INSEE, codes postaux) des communes.
TODO créer des modules similaires pour les autres bases de connaissances: * les variantes de graphies des communes (TODO), * une liste de syndics (TODO).
get_codeinsee(nom_commune, cpostal)
Récupérer le code INSEE d'une commune.
Le code postal est utilisé pour les arrondissements de Marseille.
Parameters: |
|
---|
Returns: |
|
---|
get_codepostal(nom_commune, codeinsee)
Récupérer le code postal d'une commune à partir de son code INSEE.
Attention, risque d'erreurs car certaines communes étendues sont couvertes par plusieurs codes postaux: Marseille (1 par arrondissement, chaque arrondissement a aussi son COG) mais aussi Aix-en-Provence (1 COG mais 6 codes postaux: 13080, 13090, 13098, 13100, 13290, 13540), Martigues (codes postaux: 13117, 13500).
TODO Le nom de la commune est-il utile?
Parameters: |
|
---|
Returns: |
|
---|
load_codes_insee_amp()
Charger les codes INSEE des communes
Actuellement restreint à la Métropole Aix-Marseille Provence.
Returns: |
|
---|
load_codes_postaux_amp()
Charger les codes postaux des communes, associés aux codes INSEE.
Actuellement restreint à la Métropole Aix-Marseille Provence. Attention, le fichier actuel (2023-03-18) utilise un séparateur ";".
Returns: |
|
---|
normalize_ville(raw_ville)
Normalise un nom de ville.
Les formes reconnues par S_RE_COMMUNES_VARS
sont réécrites dans la forme canonique
tirée de DF_INSEE["commune"]
.
Pour les villes absentes de cette ressource externe, le nom est renvoyé tel quel.
Parameters: |
|
---|
Returns: |
|
---|
simplify_commune(com)
Simplifier le nom d'une commune pour faciliter le matching.
Parameters: |
|
---|
Returns: |
|
---|
Relations entre documents
Template de documents
Motifs de reconnaissance des en-têtes, pieds-de-page et annexes.
TODO - [ ] exploiter les éléments de template (discriminants) pour déterminer la ville (en complément des autres emplacements: autorité, signature)
Logements
Repérage et extraction de données propres aux arrêtés sur le logement.
Propriétaire, gestionnaire, syndic ou administrateur, adresse de l'immeuble concerné.
get_adr_doc(page_txt)
Extrait la ou les adresses visées par l'arrêté.
Parameters: |
|
---|
Returns: |
|
---|
get_gest(page_txt)
Détecte si une page contient un nom de gestionnaire immobilier.
Parameters: |
|
---|
Returns: |
|
---|
get_proprio(page_txt)
Extrait le nom et l'adresse du propriétaire.
Parameters: |
|
---|
Returns: |
|
---|
get_syndic(page_txt)
Détecte si une page contient un nom de syndic.
Parameters: |
|
---|
Returns: |
|
---|
Typologie
Typologie des arrêtés de mise en sécurité.
get_classe(page_txt)
Récupère la classification de l'arrêté.
Parameters: |
|
---|
Returns: |
|
---|
get_demo(page_txt)
Détermine si l'arrêté porte une démolition ou déconstruction.
Parameters: |
|
---|
Returns: |
|
---|
get_equ_com(page_txt)
Détermine si l'arrêté porte sur la sécurité des équipements communs.
Parameters: |
|
---|
Returns: |
|
---|
get_int_hab(page_txt)
Détermine si l'arrêté porte interdiction d'habiter et d'occuper.
Parameters: |
|
---|
Returns: |
|
---|
get_urgence(page_txt)
Récupère le caractère d'urgence de l'arrêté.
Parameters: |
|
---|
Returns: |
|
---|