je viens d'entamer un stage en bioinfo et j'ai pour mission de transformer tous leurs fichiers .csv (environ une trentaine contenant chacun entre 200 à 5000 lignes) en vrai SGBD.
J'ai déjà préparé la base de données, mon problème se situe au niveau de l'importation.
Chaque fichier csv contient le profil d'individus. Je dois importer les données pour chaque individu dans mes tables et là je coince complètement..
En effet, si j'importe d'abord chaque fichier en tant que table avant de les dispacher dans les vraies tables (le nom dans la table 'malade', le stade tumoral dans la table 'état de santé', le profil génomique dans 'gène', etc...) je vais avoir un nombre de redondance impressionnant, non?
De plus, comment faire persister le lien ligne comme étant un lien relationnel dans le SGBD afin de pouvoir garder toute les informations?
Je devrais avoir des tables d'association mais elles vont pas se remplir toutes seules! (et à la main.. je peux pas, y'a trop d'individus!)
Ai-je été claire?
Merci de votre aide!