Tag Archives: bases de données

Quelle est la réponse? Base de données des anomalies

Biostar est un site pour poser des, répondre et discuter de questions bioinformatique. Nous sommes membres de la communauté et de trouver cela très utile. Souvent, les questions et réponses se posent à BioStar qui sont propres à nos lecteurs (les utilisateurs finaux des ressources en génomique). Chaque jeudi, nous mettrons l'accent sur l'une de ces questions et de réponses ici, à ce fil. Vous pouvez poser des questions sur ce sujet, ou vous pouvez toujours participer à au BioStar.

La question de la semaine:

Des entrées incorrectes / inhabituel dans les bases de données principales (GenBank, UniProt, APB)? Pierre Poulain asks ” Dans… conseille à mes élèves d'être prudents avec les données qu'ils peuvent trouver dans ces bases de données. Pour illustrer cette, J'ai trouvé des entrées tout à fait inhabituel dans GenBank:..” et il énumère ensuite quelques bons.

Il y avait plusieurs intéressante, et drôle, réponses dont celle de notre propre Mary,

Mon article préféré base de données PubMed bizarre était une une. C'était bien avant que le blog a été créé NCBI ROLF. J'étais à la recherche des gènes identifiés dans la transition vers des cheveux gris. Ce n'était pas utile….

http://www.ncbi.nlm.nih.gov/pubmed/12079806

Il s'agit de la TITRE (Remarque, pas de l'abstrait):

Je suis un homme de 64 ans, et j'ai toujours été fière de mon dossier de santé parfaite. J'ai aussi été fier de ma tête pleine de cheveux, même après la grise a commencé à ramper. Il ya quatre mois j'ai attrapé une pneumonie et a passé huit jours à l'hôpital (trois en soins intensifs). Il a fallu un certain temps, mais je suis finalement de retour à la normale – sauf que mon cheveux tombent. Il sort en touffes quand je le shampooing ou même peigne, et c'est devenu nettement plus minces tous les. Je me souviens avoir lu sur le Propecia dans votre newsletter, mais je n'ai pas la vieille question. Devrais-je essayer le médicament?

Consultez les réponses d'autres pour des exemples de bonnes raisons pour lesquelles le chercheur doit toujours vérifier les données.

Il ya une base de données pour tout, même uber-opérons

Je jouais autour avec Google Scholar est caractéristique nouvelle citation ce qui m'a permis de recueillir mes papiers dans un endroit facilement (a fonctionné assez bien, TVA, sauver quelques pépins, voir ci-dessous) quand j'ai remarqué qu'il manqué un papier de la mine de 2000: “La conservation des gènes cadre un ordre supérieur opérons.” Le résumé:

Opérons, co-transcrits et co-régulés ensembles contigus de gènes, sont mal conservés sur de courtes périodes de temps évolutionnaire. L'ordre des gènes, contenu des gènes et des mécanismes de régulation des opérons peuvent être très différentes, même dans les espèces étroitement apparentées. Ici,, Nous présentons plusieurs lignes de preuves qui suggèrent que, bien un opéron et ses gènes individuels et les structures réglementaires sont réarrangés en comparant les génomes de différentes espèces, ce réarrangement est un processus conservateur. Des réarrangements génomiques invariablement conserver les gènes individuels dans des contextes fonctionnels très spécifiques et réglementaires. Nous appelons ce contexte conservé une uber-opéron.

L'uber-opéron. Il a été suggéré mon mandat PI. Vivre et travailler en Allemagne à l'époque, Je pensais que c'était plutôt drôle. De toute façon, Je n'ai jamais vraiment progressé plus que l'autre sorte de papier ou sur cette recherche et le genre de piste perdue si ce document a donné lieu à peu près. J'ai tapé «uber-opéron’ dans Google aujourd'hui et constaté que ça a été cité à quelques reprises (88) et, J'ai trouvé cela intéressant: il ya eu quelques bases de données construite sur “uber-opérons.”

Un groupe de recherche chinois a créé la Uber-Operon base de données. Le papier semble intéressant, mais malheureusement le serveur est en panne (si cela est temporaire ou permanente, Je ne sais pas), l' ODB (Operon base de données) utilise uber-opérons (qu'ils appellent opérons de référence) de prédire opérons dans la base de données , Nebulon est un autre, HUGO est un autre. Lire le chapitre sur les méthodes de calcul pour prédire uber-opérons :)

Va juste pour vous montrer, il ya une base de données pour tout.

Oh, et retour à Google Scholar citations. Il ne trouve presque tous les papiers que j'ai publié, mais il a manqué deux (dont celle ci-dessus) et a eu deux faux positifs. En outre, de nombreuses citations sont manquants (comme le 88 pour cet article, et bien d'autres des autres papiers). Cela ne veut pas dire que c'est pas utile, Je trouve ça un bel outil mais il n'est pas parfait. Vous pouvez fen savoir plus sur Google Scholar citations ind ici, et environ Une fonction similaire de Microsoft ici.

Oh, et ne ce post m'a mis dans le HumbleBrag Hall of Fame? Si c'est réservé à twitter, que je devrais peut-twitter-ce si je peux y arriver :). (si je ne suis pas sûr en soulignant les bases de données relativement petite base un document relativement mineur constitue vanter, humblement ou pas LOL).

“Quelle est la réponse”

Biostar est un site pour poser des, répondre et de discuter la question bioinformatique

avec. Nous sommes membres de la communauté et trouve cela très utile. Souvent, les questions et réponses se posent à BioStar qui sont propres à nos lecteurs (les utilisateurs finaux des ressources en génomique). Chaque jeudi, nous mettrons l'accent sur l'une de ces questions et de réponses ici, à ce fil. Vous pouvez poser des questions sur ce sujet, ou vous pouvez toujours participer à au BioStar.

Aujourd'hui la question et la réponse est:

Recommander facile à utiliser logiciel de clustering microarray

La réponse la plus voté (l'auteur qui a posté le fil recommandation):

Un de mes favoris est le MEV micro-array outil d'analyse de données. Il est simple à utiliser et il a un très grand nombre de fonctionnalités.

Fonctionne bien pour tout type de données. Vous pouvez également charger dedans des données à partir d'un fichier qui est dans un format texte simple:

GENE1, valeur1, valeur2, valeur1, valeur2

N'hésitez pas à poster votre outil de clustering préférée.

Plusieurs autres excellents outils ont été suggérées, vous pouvez les consulter ici.

Bioinformaticiens réel écrire du code, vrais scientifiques…

Un peu plus il ya une semaine, Neil Saunders écrit un post, j'ai convenu avec: Bioinformaticiens réel écrire du code. Le poste a été en réponse à une conversation qui a commencé Tweet:

Beaucoup des questions # Biostar commencer "Je suis à la recherche d'une ressource ..". La réponse est souvent que vous avez besoin de coder une solution en utilisant les données que vous avez.

Il a raison, et c'est très vrai pour les bioinformaticiens à qui il parle. Mon souci est pour le reste de chercheurs en biologie. Il déclare dans le poste:

En d'autres termes: connaître les sources de données, connaître les bons outils et vous pouvez toujours sculpter une solution pour votre propre situation.

Cela est très vrai et je de tout coeur d'accord. Ainsi de nombreuses solutions existent déjà dans des milliers de bases de données et des outils d'analyse. C'est ce que nous faisons ici au OpenHelix, aider les biologistes expérimentaux, les chercheurs en génomique et aux bioinformaticiens de trouver les sources de données et les outils adéquats et ensuite aller “sculpter une solution à leur situation.”

Dans la dernière partie de mon commentaire,

BioMart, UCSC Genome Browser, Galaxy, etc, etc, sont d'excellents outils et sources de données et pourrait probablement répondre au sujet 80% des questions les plus posées :). Mais ma mise en garde serait que la connaissance des sources de données et des outils de droit peut être un peu une tâche ardue.

Et il est, malgré la réponse quelque peu dédaigneux :). Nous avons tous vu les graphiques, quantités exponentiellement croissante de données au fil du temps. C'est une question que la Chronicle of Higher Education stipule l'article Titre:

Sous-évaluées sur des données par les: Les scientifiques disent un déluge n'est Recherche sur les noyades

Le journal La science a également eu un ensemble de 10 section d'article sur la question. Ce n'est pas un problème qui va disparaître.

Avec ce déluge de données, a parcouru un déluge de bases de données et des outils d'analyse de données (créées pour la plupart par les bioinformaticiens!), dont beaucoup sont assez intimidante _alone_ de trouver les bonnes données et un outil au sein de. Il ya des milliers de bases de données et ces outils. J'ai perdu le compte.

Neil Saunders est correcte. La solution est là, trouver les bons outils et les données, sculpter une solution. Il répond à mon commentaire avec “Apprendre ce que vous devez savoir en bioinformatique peut certainement être intimidant. Mais alors, science n'est pas pour la facile intimidé :-).” En d'autres termes, “Si vous êtes intimidé, vous n'êtes pas un scientifique?”

Nous donnons des ateliers pour les chercheurs du monde entier de Singapour vers les Etats-Unis au Maroc et dans des établissements aussi variés que Harvard, Stanford, Université du Missouri, Mt. Sinaï, Stowers et Hudson-Alpha. Les chercheurs que nous avons donné des ateliers et répondu aux questions ont été aussi varié, biologistes du développement, évolutif, chercheurs en médecine, bioinformaticiens, chercheurs bien versés dans la génomique et de ceux qui n'ont pas.

Le thème principal est de trouver et connaître les données et les outils ne sont pas seulement intimidant, mais parfois pas possible. Non pas parce qu'ils n'existent pas, mais parce que la recherche et les connaître est un drain de ressources personnelles et de laboratoire compte tenu du champ de cisaillement croissant de choses à trouver et savoir. Je vous renvoie à l'article Chronique… noyade dans les données..

Ils sont les vrais scientifiques pas facilement intimidé, mais intimidé tout de même, par ce qui est en face d'eux. Et oui, beaucoup de ces questions spécifiques aux besoins de recherche spécifiques peuvent être répondues par les outils existants. Nous rencontrons de nombreuses questions sur Biostar qu'une base de données bien conçu recherche ou analyse étape répondra magnifiquement, sans avoir besoin de réinventer la roue avec plus de code (et les réponses sont souvent le code).

Je soupçonne que la plupart de ces scientifiques là-bas qui appellent eux-mêmes «bioinformaticiens” devraient avoir une bonne connaissance des outils et des bases de données mises à leur disposition (mais je peux vous dire, même les plus brillants d'entre eux ne parfois). Alors, les conseils et les dernières paroles du blog lié ci-dessus…

En d'autres termes: connaître les sources de données, connaître les bons outils et vous pouvez toujours sculpter une solution pour votre propre situation…. bioinformaticiens vraie écriture de code

Oui, bioinformaticiens vraie écriture de code, mais ce conseil est insuffisante pour l'autre 90% des vrais scientifiques qui n'ont pas. Peut-être Biostar n'est pas la solution (Je soupçonne que beaucoup de ces questions étant posées, il souligne sont ceux par des non-bioinformaticiens qui ont seulement une base, le cas échéant, connaissances de codage, ni l'accès à ceux qui ne). Peut-être, ou quelque chose comme ça, peut être.

Astuce de la semaine: PhylomeDB

Gene phylogénies (par opposition aux espèces phylogénies) peut être très utile dans la fonction des gènes déterminés, l'histoire, prévisions orthologie et paralogie. PhylomeDB (Lien ajouté!) est une base de données des phylogénies de gènes (ou comme ils les appellent, Phylomes.. pas de fin à l'omes 'est là? :). Actuellement, il ya plus d'une douzaine d'espèces telles phylomes comme les humains et la levure. La base de données vous permet d'obtenir des phylogénies de gènes basée sur l'ID du gène ou BLAST, vous pouvez également obtenir des prédictions orthologues et les alignements et plus. pointe d'aujourd'hui est pour vous présenter la base de données.

Nouvelle base de données NCBI image

Mary apporté un papier tout récemment sur ce qui nous manque quand les papiers d'exploration de données: Les figures et les légendes des figures.

Entrez le Base de données NCBI image. Cette base de données comprend plus très nouveau 3 millions d'images qui se trouvent dans les ressources en texte intégral (i.e. PubMed Central) au NCBI. Alors, J'ai fait une recherche pour le “phylogénie drosophile” et j'ai trouvé quelques belles images et des chiffres. Les résultats seront non seulement sortir la figure, mais aussi la légende de la figure. J'ai obtenu plus de 200 les résultats. Les liens dans les titres de recherche sur la figure résultat vous amène directement à la figure. Ci-dessous la légende, vous pouvez voir des liens vers le texte intégral. C'est un excellent début de chercher les chiffres et les légendes des figures.

Parallèlement à cette, Les résultats de recherche PubMed sont maintenant améliorées avec des images de cette base de données (si, Rappelez-vous, l'article est dans les ressources en texte intégral.. mais au fil du temps beaucoup de recherches publiées avec

Financement du NIH va il n'y aura pas qu'ils?). Par exemple, aller à ce résumé pour le papier “Le text mining et de conservation manuelle des réseaux chimiques-gène-maladie pour la base de données comparative toxicogénomique.” Descendez un peu, vous allez voir les chiffres de ce document, qui ont été déposés dans la banque d'images NCBI. Vous pouvez aller directement à la liaison à toutes les figures ou les papiers.

Bien sûr,, comme indiqué, pas tous les articles auront des images dans la base de données, seuls ceux qui sont déposés dans PubMed Central. Vous trouverez un grand nombre de vos recherches n'auront pas cette bande d'image, car le journal n'est pas déposé il ya . Mais avec 3 millions d'images et articles de revues plus aller à PMC chaque jour, cette base de données PubMed et disposent d'pourraient s'avérer très utiles.

Hattip: APD au CTD :)

Nous avons des widgets

J'ai D'autres ont mentionné’ widgets avant. Ils peuvent être des outils très utiles sur les sites et les blogs pour ajouter du contenu et utiles recherches interactives, etc.

Eh bien, nous avons maintenant notre propre. Comme beaucoup de nos lecteurs le savent, nous avons une génomique et bioinformatique moteur de recherche qui aide le chercheur à trouver l'outil base de données ou d'analyse qui correspond le mieux à leur besoin. Tapez un terme et vous obtenez une liste de ressources en génomique qui sont en attente dans le classement de pertinence. En outre, vous êtes montré où en contexte (le site Web de ressources, ou dans nos tutoriels ou blog si il ya) où le terme a été trouvé. En outre, vous trouverez des tutoriels, nous avons créé sur près de 100 d'entre eux, environ une douzaine gratuit pour l'utilisateur comme le PDB, SGKB, UCSC Genome Browser, et une autre 80 ou si par abonnement.

De toute façon, vous pouvez maintenant mettre à la recherche (ce qui bien sûr est disponible publiquement) sur votre blog ou site web en utilisant l'un des widgets que nous venons d'avoir créé (par le les mêmes personnes qui a aidé à créer notre base de données de recherche). Nous avons trois tailles et vous pouvez les trouver et le code pour eux à cette page.

Vous verrez aussi que j'ai mis le petit widget sur la colonne de droite ici sur le blog. Vous pouvez mettre un terme là-dedans et de le tester. Il va ouvrir une autre page avec les résultats de notre recherche. Essayez-le!

Astuce de la semaine: WAVE, Analyse Web de l'Variome

Astuce du jour de la semaine est une courte introduction à WAVE, ou l'analyse Web de l'Variome. L'outil a été récemment présenté à nous, et j'ai trouvé que c'était une bonne entrée les outils disponibles pour le chercheur d'analyser les variations de l'homme. C'est à propos compte tenu de la publication récente, nous avons discuté sur l'évaluation clinique d'un génome personnels (ici, ici et ici) et que les implications des documents pour la médecine personnalisée et l'utilisation des ressources en ligne variation. WAVE a aussi m'a présenté à d'autres outils que j'ai soit pas au courant de, ou n'ont pas utilisé, qui pourraient être utiles tels que: LOVD (Base de données Open Leiden Variation), QuExT (Outil d'extension des requêtes, également par les développeurs même que WAVE), et d'autres. Bien sûr il ya aussi des informations de base de données tirée à partir de Ensembl, Reactome, KEGG, InterPro, PIB, UniProt, NCBI et beaucoup d'autres. Prenez le temps de le vérifier.

Guest Post: Nouvel outil de CHOP, CNV Atelier – Xiaowu Gai

Ce post suivant dans notre poursuite de semi-série régulière Message Invité est d'Xiaowu Gai, l' Bioinformatique de base au directeur CHOP . Si vous êtes un fournisseur d'une société libre, disposition du public d'outils de génomique, base de données ou de ressources et tient à transmettre quelque chose aux utilisateurs sur notre fonctionnalité après invités, S'il vous plaît, n'hésitez pas à nous contacter à wlathe AT openhelix DOT com.

Merci à Marie pour l'exécution d'un Astuce de la semaine - "CHOP CNV base de données" un couple de mois en arrière. CHOP CNV base de données est une haute résolution du génome enquête à l'échelle des variations du nombre de copies d'un grand nombre (2,026) des individus apparemment sains. Il est accessible au public et a été largement utilisé par un grand nombre de groupes de recherche dans le monde entier. Je suis maintenant heureux d'annoncer la sortie de notre système de logiciels derrière elle: CNV Atelier. CNV Atelier est une suite d'outils logiciels que nous avons développés au cours des dernières quelques années. Il fournit un workflow complet d'analyse de, gestion, et la variation de visualiser le numéro de copie du génome (CNV) des données.

Il peut être utilisé pour presque toutes les recherches CNV ou d'un projet clinique en offrant les fonctionnalités suivantes pour les deux échantillons individuels et les études de cohorte:

CNV d'identification
Implémente un algorithme de circulaires modifiées de segmentation binaire qui réduit les faux positifs
Entièrement configurable pour les paramètres de sensibilité / spécificité de gestion
Annotation
Individuels spécifiques de locus annotations telles que la position, type de variation, métriques appel, et le chevauchement avec d'CNV autres ensembles de données, y compris la Base de données des variantes génomiques.
Annotations des gènes fonctionnels tels que les gènes touchés et les associations de maladies connues
Accepte fourni par l'utilisateur des annotations
Présentation
GBrowse-visuels a permis d'interroger, parcourant, interprétation, et les rapports CNV
Export des résultats dans Excel, XML, CSV, BED et des fichiers
Des liens directs vers des ressources publiques telles que le navigateur de génome UCSC, NCBI Entrez, Entrez Gene, et de la fable
Projet et de gestion de compte
Authentification et autorisation que dispositif est particulièrement utile pour les réglages de diagnostic clinique
Résultat de l'analyse de partage au sein et entre les projets
Simple interface Web d'administration
L'accès à distance et l'administration ont permis

CNV Atelier accepte actuellement les données de génotypage de gamme 550K Illumina, 610- et 660-quad, et les tableaux Omni, avec Affymetrix est 5.0 et 6.0 tableaux, et peut être facilement configuré pour accepter des données provenant d'autres plateformes. Le paquet est préchargé avec des données de référence disponibles publiquement à partir de plus de 2,000 sujets sains (la base de données CHOP CNV). CNV Atelier permet également à l'utilisateur de télécharger des appels déjà traitées CNV pour l'annotation et la présentation.

Le logiciel est disponible gratuitement à http://sourceforge.net / projects / CNV /. Il est également décrit de manière plus détaillée dans notre récent article sur BMC Bioinformatics.

-Xiaowu Gai

A venir, Postes Clients

Salutations! Blog OpenHelix institue une nouvelle fonction semi-hebdomadaire. Chaque mercredi, nous avons nos “Astuce de la semaine,” les jeudis, nous avons notre “Quel est votre problème,” et maintenant sur une mardis occasionnels que nous allons avoir notre “Invité Message fournisseur.” Ces messages seront des fournisseurs d'outils de génomique et de la base de données et sera opinions, mises à jour et fonctionnalités à venir de la ressource, quel que soit le fournisseur de la ressource tiens à transmettre aux utilisateurs. Nous avons plusieurs alignés pour les semaines à venir, alors gardez le contrôle de retour.

En outre, Si vous êtes un développeur ou le fournisseur d'un libre, génomique publiquement disponibles ou des ressources biologiques, outil de base de données ou d'analyses et voudrait à notre fonction invités, que ce soit une introduction à votre outil, mises à jour ou fonctionnalités à venir ou même une opinion sur l'état actuel de la recherche en génomique et les données, S'il vous plaît écrivez-nous à wlathe AT openhelix DOT com. Nous serions ravis de vous mettre dans la file pour le poste client suivant.

Notre premier poste client mardi prochain sera de Inna Dubchak , chercheur principal au sein du groupe LBNL / JGI, développeurs de la VISTA comparative de ressources en génomique (qui parraine un tutoriel, gratuite pour les utilisateurs). Elle va discuter de certains nouveaux outils à VISTA et vous donner un aperçu rapide de quelques nouvelles fonctionnalités à venir.