Utils
Diverses fonctions utilitaires.
Fonctions utiles pour la gestion des fichiers
get_file_digest(fp_pdf, digest='blake2b', digest_size=10)
Extraire le hachage d'un fichier avec la fonction digest
.
Fonctionne pour Python >= 3.8, mais le code pourra être simplifié pour Python >= 3.11 quand ce sera la version minimale requise par les principaux projets.
Parameters: |
|
---|
Returns: |
|
---|
Reconnaissance et mise en forme des dates
process_date_brute(arr_date)
Extraire les différents champs d'une date brute et la normaliser.
Parameters: |
|
---|
Returns: |
|
---|
Fonctions utilitaires génériques pour le texte
create_file_name_url(file_name, allowance=155)
Creates a URL-compliant filename by removing non-alphanumeric characters, accentuated letters, and maintaining the Windows path length limit.
Parameters: |
|
---|
normalize_string(raw_str, num=False, apos=False, hyph=False, spaces=False)
Normaliser une chaîne de caractères.
Remplacer les séquences d'espaces par une unique espace.
Parameters: |
|
---|
Returns: |
|
---|
remove_accents(str_in)
Enlève les accents d'une chaîne de caractères.
cf. https://stackoverflow.com/a/517974
Parameters: |
|
---|
Returns: |
|
---|
Charger les fichiers de texte extraits des PDF, natifs ou non
load_pages_text(fp_txt, page_break='\x0c')
Charge le texte d'un document, découpé en pages.
Parameters: |
|
---|
Returns: |
|
---|