Difference between revisions 14176687 and 14176813 on frwiktionary[[Catégorie:JackBot]] <source lang=python> #!/usr/bin/env python # coding: utf-8 # Ce script formate les pages du Wiktionnaire, tous les jours après minuit depuis le Toolserver : # 1) Retire certains doublons. # 2) Ajoute les clés de tris, prononciations vides, et certains liens vers les conjugaisons. (contracted; show full) PageTemp = PageTemp[0:position+1+position2] + codelangue + PageTemp[position+1+position2+len(PageTemp2[0:PageTemp2.find(u'}}')]):len(PageTemp2)] # Clé de tri propre à une langue if PageTemp.find(u'|clé=') == -1 or PageTemp.find(u'|clé=') > PageTemp.find(u'}}'): if codelangue == u'ru': if PageHSTitreTemp = PageHS if TitreTemp.find(u'ё') !=-1: PagTitreTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'ё',u'е€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'ӕ') !=-1TitreTemp.replace(u'ё',u'е€') if TitreTemp.find(u'ӕ') !=-1: TitreTemp = TitreTemp.replace(u'ӕ',u'а€') if TitreTemp != PageHS: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'ӕ',u'а€')TitreTemp + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] elif codelangue == u'os': if PageHSTitreTemp = PageHS if TitreTemp.find(u'ё') !=-1: PagTitreTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'ё',u'е€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)]TitreTemp.replace(u'ё',u'е€') if PageHSTitreTemp.find(u'ӕ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'ӕ',u'а€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] # Digrammes if PageHS.find(u'гъ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'гъ',u'г€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'дж') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'дж',u'д€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'дз') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'дз',u'д€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'къ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'къ',u'к€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'пъ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'пъ',u'п€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'тъ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'тъ',u'т€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'хъ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'хъ',u'х€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'цъ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'цъ',u'ц€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] if PageHS.find(u'чъ') !=-1: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + PageHS.replace(u'чъ',u'ч€') + PageTemp[PageTemp.find(u'}}'):len(PageTemp)]⏎ TitreTemp = TitreTemp.replace(u'ӕ',u'а€') # Digrammes if TitreTemp.find(u'гъ') !=-1: TitreTemp = TitreTemp.replace(u'гъ',u'г€') if TitreTemp.find(u'дж') !=-1: TitreTemp = TitreTemp.replace(u'дж',u'д€') if TitreTemp.find(u'дз') !=-1: TitreTemp = TitreTemp.replace(u'дз',u'д€') if TitreTemp.find(u'къ') !=-1: TitreTemp = TitreTemp.replace(u'къ',u'к€') if TitreTemp.find(u'пъ') !=-1: TitreTemp = TitreTemp.replace(u'пъ',u'п€') if TitreTemp.find(u'тъ') !=-1: TitreTemp = TitreTemp.replace(u'тъ',u'т€') if TitreTemp.find(u'хъ') !=-1: TitreTemp = TitreTemp.replace(u'хъ',u'х€') if TitreTemp.find(u'цъ') !=-1: TitreTemp = TitreTemp.replace(u'цъ',u'ц€') if TitreTemp.find(u'чъ') !=-1: TitreTemp = TitreTemp.replace(u'чъ',u'ч€') if TitreTemp != PageHS: PageTemp = PageTemp[0:PageTemp.find(u'}}')] + u'|clé=' + TitreTemp + PageTemp[PageTemp.find(u'}}'):len(PageTemp)] PageEnd = PageEnd + PageTemp[0:PageTemp.find(u'}}')+2] elif p < limit2: # Paragraphe sans code langue EstCodeLangue = "false" trad = u'false' PageEnd = PageEnd + PageTemp[0:position] + "}}" elif p < limit3: # Paragraphe sans code langue contenant un texte EstCodeLangue = "false" (contracted; show full) print "ServerError en sauvegarde" return except wikipedia.BadTitle: print "BadTitle en sauvegarde" return # Lancement TraitementCategorie = crawlerCat(u'Catégorie:ossète',False,u'') TraitementCategorie = crawlerCat(u'Catégorie:russe',False,u'') '''⏎ TraitementCategorie = crawlerCat(u'Catégorie:Wiktionnaire:Codes langue manquants',True,u'') TraitementCategorie = crawlerCat(u'Catégorie:Wiktionnaire:Flexions à vérifier',True,u'') TraitementLiens = crawlerLink(u'Modèle:1ergroupe',u'') TraitementLiens = crawlerLink(u'Modèle:2egroupe',u'') TraitementLiens = crawlerLink(u'Modèle:3egroupe',u'') TraitementLiens = crawlerLink(u'Modèle:trad',u'') TraitementLiens = crawlerLink(u'Modèle:-',u'') TraitementCategorie = crawlerCat(u'Catégorie:Appels de modèles incorrects:fr-verbe-flexion incomplet',False,u'') TraitementLiens = crawlerLink(u'Modèle:-ortho-alt-',u'') TraitementLiens = crawlerLink(u'Modèle:=langue=',u'') TraitementLiens = crawlerLink(u'Modèle:trad-',u'')⏎ ''' TraitementCategorie = crawlerCat(u'Catégorie:ossète',False,u'') TraitementCategorie = crawlerCat(u'Catégorie:russe',False,u'') TraitementLiens = crawlerLink(u'Modèle:mascul',u'') TraitementLiens = crawlerLink(u'Modèle:fémin',u'') TraitementLiens = crawlerLink(u'Modèle:femin',u'') TraitementLiens = crawlerLink(u'Modèle:sing',u'') TraitementLiens = crawlerLink(u'Modèle:plur',u'') TraitementLiens = crawlerLink(u'Modèle:pluri',u'') TraitementPage = modification(u'Utilisateur:JackBot/test') TraitementLiens = crawlerLink(u'Modèle:R:DAF8',u'homme') TraitementFichier = crawlerFile('articles_list.txt') TraitementLiensCategorie = crawlerCatLink(u'Modèles de code langue',u'') TraitementCategorie = crawlerCat(u'Catégorie:Appels de modèles incorrects',True) TraitementRecherche = crawlerSearch(u'clé de tri') TraitementUtilisateur = crawlerUser(u'Utilisateur:JackBot') TraitementRedirections = crawlerRedirects() TraitementTout = crawlerAll(u'') while 1: TraitementRC = crawlerRC() ''' </source> All content in the above text box is licensed under the Creative Commons Attribution-ShareAlike license Version 4 and was originally sourced from https://fr.wiktionary.org/w/index.php?diff=prev&oldid=14176813.
![]() ![]() This site is not affiliated with or endorsed in any way by the Wikimedia Foundation or any of its affiliates. In fact, we fucking despise them.
|