par
Yvesbe » 10 févr. 2017, 20:06
Bonjour,
Je viens vers vous après 3 jours d'arrachage de cheveux et un mal de crâne qui s'installe bien.
J'ai récupéré un fichier de donnée contenant des points d'intérêts , quelque part sur le net et je suis en train de le parser pour intégrer son contenu dans une base de donnée Mysql.
Ne connaissant pas le charset du fichier, j'ai utilisé une fonction (trouvée sur le net également) qui permet d'aider à l'identification du jeu de caractère du fichier: double boucle sur un tableau de nom de charset a utiliser, et conversion de la chaine avec ces élements. Si l'output est lisble, c'est un bon candidat.
J'obtiens divers résultats à éliminer directement, du genre:
Windows-1252 Windows-1252
M�HLENSTRASSE
ou encore :
ISO-8859-15 ISO-8859-1
M�HLENSTRASSE
Mais d'autres résultats sont beaucoup plus prometteurs comme :
Windows-1252 UTF-8
ISO-8859-15 UTF-8
et
ISO-8859-1 UTF-8
qui me renvoient tous MüHLENSTRASSE.
Le problème, c'est que lorsque je transfère mes données de ma table temporaire vers ma table de production, j'ai, quelle que soit le charset utilisé une discordance entre la source et la table de destination. En effet,
MüHLENSTRASSE devient MÃŒHLENSTRASSE.
Quelqu'un peut-il m'aider à identifier la source du problème ? Voir déterminer quel autre charset j'aurais dû utiliser ? En effet, il est possible qu'aucun des 3 précités ne convienne.
Bonjour,
Je viens vers vous après 3 jours d'arrachage de cheveux et un mal de crâne qui s'installe bien.
J'ai récupéré un fichier de donnée contenant des points d'intérêts , quelque part sur le net et je suis en train de le parser pour intégrer son contenu dans une base de donnée Mysql.
Ne connaissant pas le charset du fichier, j'ai utilisé une fonction (trouvée sur le net également) qui permet d'aider à l'identification du jeu de caractère du fichier: double boucle sur un tableau de nom de charset a utiliser, et conversion de la chaine avec ces élements. Si l'output est lisble, c'est un bon candidat.
J'obtiens divers résultats à éliminer directement, du genre:
Windows-1252 Windows-1252
M�HLENSTRASSE
ou encore :
ISO-8859-15 ISO-8859-1
M�HLENSTRASSE
Mais d'autres résultats sont beaucoup plus prometteurs comme :
Windows-1252 UTF-8
ISO-8859-15 UTF-8
et
ISO-8859-1 UTF-8
qui me renvoient tous MüHLENSTRASSE.
Le problème, c'est que lorsque je transfère mes données de ma table temporaire vers ma table de production, j'ai, quelle que soit le charset utilisé une discordance entre la source et la table de destination. En effet,
MüHLENSTRASSE devient MÃŒHLENSTRASSE.
Quelqu'un peut-il m'aider à identifier la source du problème ? Voir déterminer quel autre charset j'aurais dû utiliser ? En effet, il est possible qu'aucun des 3 précités ne convienne.