Tag Archives: BioMart

Astuce Vidéo de la semaine: TargetMine, Data Warehouse for Drug Discovery

Browsing around genomic regions, layering on lots of associated data, and beginning to explore new data types I might come across are things that really fire up my brain. Pour moi, visualization is key to forming new ideas about the relationships between genomic features and patterns of data. But frequently I want to take this to the next step–asking where else these patterns appear, how many other instances of this situation are there in a data set, and maybe adding additional complexity to the problem and refine the quest. This is not always easy to do with primarily visual software tools. This is when I turn to tools like the Table Browser UCSC, BioMart, et InterMine to handle some list of genes, or regions, or features.

We’ve touched on all of these before–sometimes with full tutorial suites (UCSC, BioMart), and sometimes as a Astuce de la semaine, InterMine et InterMine pour les requêtes complexes. Learning about the foundations of these tools will let you use various versions or flavors of them at other sites. I love to see tools that are re-used for different topics when that’s possible, rather than building a whole new system. There are ModENCODE, rat, yeast mines, et plus. This week’s tip is about one of those others–TargetMine is built on the InterMine foundation, with a specific focus on prioritizing candidate genes for pharmaceutical interventions. De their site overview, I’ll add this description they use: TargetMine

TargetMine is an integrated data warehouse system which has been primarily developed for the purpose of target prioritisation and early stage drug discovery.

For more details about their framework and philosophy, you should see their papers (lien ci-dessous). The earlier one sets out the rationale, the data types, and the data sources they are incorporating. They also establish their place in the ecosystem of other databases in this arena, which helps you to understand their role. But you should see the next paper for a really good grasp of how their candidate prioritization work with the “Integrated Pathway Clusters” concept they’ve added. They combined data from KEGG, Reactome, et NCI’s PID collections to enhance the features of their data warehouse system.

This week’s Video Tip of the Week highlights one of the tutorial movies that the TargetMine team provides. There’s no spoken audio with it, but the captions that help you to understand what’s going on are in English. I followed along on a browser with their example–they have a sample list to simply click on, and you can see various enrichments of the sets–voies, Gene Ontology, Disease Ontology, InterPro, CATH, and compounds. They call these the “biological themes” and I find them really useful. You can create new lists from these theme collections. They also illustrate the “template” option–pre-defined queries with typical features people may wish to search. The example shows how to go from the list of genes you had to pathways–but there are other templates as well.

Another section of the video has an example of a custom query with the Query Builder. They ask for structural information for proteins targeted by acetaminophen. It’s a nice example of how to go from a compound to protein structure–a question I’ve seen come up before in discussion threads.

In their more recent paper (also below), they have some case studies that illustrate the concepts of prioritizing targets for different disease situations with their system. They also expand on the functions with additional software to explore the pathways: http://targetmine.mizuguchilab.org/pathclust/ .

So have a look at the features of TargetMine for prioritization of candidate genes. I think the numerous “themes” are a really useful way to assess lists of genes (or whatever you are starting with).

Liens rapides:

TargetMine: http://targetmine.mizuguchilab.org/ [Remarque: their domain name has changed since the publications, this is the one that will persist.]

InterMine: http://intermine.github.io/intermine.org/

Références:

Chen, Y., Tripathi, L., & Mizuguchi, C. (2011). TargetMine, an Integrated Data Warehouse for Candidate Gene Prioritisation and Target Discovery PLoS ONE, 6 (3) DOI: 10.1371/journal.pone.0017844

Chen, Y., Tripathi, L., Dessailly, B., Nyström-Persson, J., Ahmad, S., & Mizuguchi, C. (2014). Integrated Pathway Clusters with Coherent Biological Themes for Target Prioritisation PLoS ONE, 9 (6) DOI: 10.1371/journal.pone.0099030

Kalderimis A., R. Lyne, D. Butano, S. Contrino, M. Lyne, J. Heimbach, F. Hu, R. Smith, R. Stěpán, J. Sullivan & G. Micklem & (2014). InterMine: extensive web services for modern biology, Nucleic Acids Research, 42 (W1) W468-W472. DOI: http://dx.doi.org/10.1093/nar/gku301

Astuce Vidéo de la semaine: InterMine pour les requêtes complexes

Nous avons été fans de InterMine pendant une longue période. Nous avons fait un pointe-de-la-semaine il ya un certain temps qui ont souligné façons que ce logiciel peut être utilisé pour la mine de grands projets de données de plusieurs types. Le cadre générique de InterMine peut être personnalisé pour une utilisation à différents projets–aujourd'hui, je vais inclure des vidéos de l'installation de FlyMine et la saveur de YeastMine–mais vous pouvez trouver des versions de cet outil pratique dans de nombreux autres endroits.

La première vidéo est un aperçu plus large des différents types de choses que vous pouvez faire–et bien que cela soit FlyMine, vous trouverez un comportement similaire dans les autres mines trop.

La vidéo suivante est plus spécifique à une tâche que les gens ont besoin pour accomplir–travailler avec une liste de gènes. Cet exemple a été récemment publié par les gens de YeastMine, mais encore une fois cela devrait fonctionner de la même façon dans d'autres mines. Vous devriez également lire l' SGD blog sur elle–Créer, Analyser, Sauver: la puissance des listes de gènes dans YeastMine.

L'autre chose que j'ai remarqué ce cadre, c'est l'effort de plusieurs de ces mines d'organismes modèles de coordonner dans ce Intermod structure. Même si je suis souvent méfiants de “un clic pour les gouverner tous” sortes d'efforts, il peut être utile de cela comme un principe central d'organisation que nous continuons d'ajouter plus d'espèces génomes qui peuvent ne pas avoir les communautés et les infrastructures pour les soutenir ainsi développés.

J'utilise certainement un grand nombre d'outils de requêtes qui sont similaires à celles–comme le Table Browser UCSC, et BioMart. UniProt offre les moyens de construire des requêtes qui est différent mais conceptuellement similaire. L'utilisation de ces interfaces, vous pouvez construire des moyens ingénieux et complexes à extraire des informations sur les référentiels de données.

Liens rapides:

InterMine: http://intermine.github.io/intermine.org/

FlyMine: http://www.flymine.org/

YeastMine: http://yeastmine.yeastgenome.org/

Intermod: http://intermod.intermine.org

Références:

Smith R.N., Aleksic, J., Butano D., Carr A., Contrino S., Hu F., Lyne M., Lyne R., Un Kalderimis. & Rutherford K. & (2012). InterMine: un système d'entrepôt de données flexible pour l'intégration et l'analyse de données biologiques hétérogènes., Bio-informatique (Oxford, Angleterre), DOI:

Lyne R., Smith R., Rutherford K., M. Wakeling, Varley A., Guillier F., Janssens, H., Ji W., Mclaren P. & Nord P. & (2012). FlyMine: une base de données intégrée pour la drosophile et Anopheles génomique., La biologie du génome, PMID:

Balakrishnan R., J. parc, K. Karra, Hitz la Colombie-Britannique, Binkley G., Hong E.L., J. Sullivan, Micklem G. & Cerise J.M. (2012). YeastMine–un entrepôt de données intégré pour les données Saccharomyces cerevisiae comme un outil polyvalent-kit., Base de données : la revue des bases de données biologiques et la conservation, PMID:

J. Sullivan, K. Karra, Moxon S.A.T., Vallejos, A., Motenko H., Wong J.D., Aleksic, J., Balakrishnan R., Binkley G. & Harris T. & (2013). Intermod: intégré les données et les outils pour l'unification de modèle de recherche de l'organisme., Rapports scientifiques, 3 (1802) PMID:

Astuce Vidéo de la semaine: Portail ICGC pour la génomique du cancer

Une question à Biostar sur le cancer “ensembles de gènes” récemment m'a fait regarder une de mes sources de données préférées nouveau–l' ICGC, Consortium international sur le génome du cancer, et son portail de données. Précédent messages nous avons fait étaient fondées sur leur portail héritage (qui est toujours disponible sur le site). Ils ont changé un peu les choses avec une sortie à l'automne dernier, et je n'avais pas encore couvert ces changements.

Idéalement, ils ont fait une courte vidéo expliquant comment accéder aux données qu'ils offrent. Ils ont continué à ajouter de nouvelles données, et d'affiner le logiciel. Vous devriez vérifier.

ICGC Tutorial Data Portal à partir de ICGC sur Vimeo.

Dans le passé, j'ai trouvé quelques informations vraiment utiles pour comparer avec une lignée de cellules de cancer du poumon j'avais examine. J'ai vu la même mutation dans des échantillons de tumeurs réelles avaient été trouvés dans cette lignée cellulaire années. Mais il ya eu aussi récemment des publications qui parlent plus en détail sur le projet et des résultats intéressants à partir de données qui a été trouvé il (lien ci-dessous).

Vous devez vraiment être l'exploitation minière de ces projets pour les données si elles couvrent votre zone de recherche. Il ya beaucoup à apprendre qui n'a pas encore été publié–juste être sûr de lire sur leur politiques d'utilisation avant de vous livrer vos grandes découvertes aux revues!

Quick link:

portail des données: http://dcc.icgc.org/

page d'accueil du projet: http://icgc.org/

Références:

Hudson (Président) T.J., W. Anderson, Areta A., Barker ap, Cloche C., Bernabé R.R., Bhan M.K., Calvo F., Je Eerola. & Gerhard D.S. & beaucoup d'autres dans un grand consortium… (2010). Réseau international de projets sur le génome du cancer, Nature, 464 (7291) 993-998. DOI:

Alexandrov L.B., Nik-Zainal S., Wedge courant continu, Aparicio S.A.J.R., Behjati S., Biankin A.V., Bignell G.R., Bolli N., Borg A. & Borresen-Dale A.L. & beaucoup d'autres dans un grand consortium…; (2013). Signatures des processus de mutation dans le cancer humain, Nature, 500 (7463) 415-421. DOI:

Gonzalez-Perez A., Mustonen, V., Reva B., Ritchie G.R.S., Creixell P., Karchin R., Vazquez M., Fink J.L., Kassahn K.S. & Pearson J.V. & beaucoup d'autres dans un grand consortium… (2013). Computational approches pour identifier les variants génétiques fonctionnelles dans le génome du cancer, Nature Methods, 10 (8) 723-729. DOI:

Quelle est la réponse? (Gene ID de conversion)

Biostar est un site pour poser des, répondre et discuter de questions bioinformatique. Nous sommes membres de lacommunauté et de trouver cela très utile. Souvent, les questions et réponses se posent à BioStar qui sont propres à nos lecteurs (les utilisateurs finaux des ressources en génomique). Chaque jeudi, nous mettrons l'accent sur l'une de ces questions et de réponses ici, à ce fil. Vous pouvez poser des questions sur ce sujet, ou vous pouvez toujours participer à au BioStar.

Question ont souligné cette semaine:

Qu'est-ce qu'un bon “outil de conversion génique ID

Ceci est une ancienne question, à partir de 2 ans, mais toujours pertinentes et les réponses encore très serviable et plein de ressources telles que DAVID, BioDBnet, BioMart et d'autres.

Check it out. Aussi, voudrez peut-être pas de consulter la troisième exercice de notre UCSC Tutorial avancée . L'exercice:

“Partir d'une liste de gènes UCSC, ajouter des symboles de gènes et GO ID pour obtenir des informations supplémentaires sur l'ensemble des gènes. Étape de bonus: ajouter termes GO.”

Promenades à travers la façon dont vous pourriez être en mesure de le faire avec le navigateur de table UCSC avec quelques modifications simples.

Conseils Vidéo de la semaine: Revue annuelle IV, 2e semestre

Comme vous le savez peut-être, nous avons fait ces vidéos conseils de-la-semaine pour QUATRE ans maintenant. Nous avons terminé autour de 200 introductions petite friandise à diverses ressources de l'an dernier, 2011 (oui, c'est 2012 aujourd'hui). À la fin de l'année, nous avons établi une sorte de tradition des fêtes: nous faisons un résumé post pour recueillir tous. Si vous avez manqué l'un d'eux, c'est un excellent moyen d'avoir un aperçu de ce que pourrait être utile à votre travail.

Vous pouvez voir ces dernières années’ conseils ici: 2008 Dans, 2008 II, 2009 Dans, 2009 II, 2010 Dans, 2010 II. L' résumé de la première moitié du 2011 est disponible depuis la semaine dernière.

Juillet 2011

Juillet 6: Prioriser les gènes en utilisant le Portail Priorisation Gene

Juillet 13: PolySearch, chercher de nombreuses bases à la fois

Juillet 20: Homme Hub visualisation Epigenomics

Juillet 27: Le nouveau portail SIB bioinformatique

 

Août 2011

Août 3: SNPexp, corrélation entre les SNP et l'expression du gène

Août 10: CompaGB pour comparer le logiciel de navigation génome

Août 17: Prenez, génomes comparant revisité

Août 24: Tirage de domaine pour les schémas de motifs rapides

Août 31: De UniProt à l'SBKB PSI et retour

 

Septembre 2011

Septembre 7: La génomique végétale comparative utilisant Plaza

Septembre 14: phiGENOME pour l'exploration du génome des bactériophages

Septembre 21: Obtenir des séquences flanquantes des emplacements génomiques

Septembre 28: Introduction au logiciel statistique R

 

Octobre 2011

Octobre 5: Ressources dôngs pour l'information de variation génétique et la drogue

Octobre 12: Moyeux Piste dans le navigateur du génome UCSC

Octobre 19: Mitochondrial transcriptome GBrowser

Octobre 26: Variation par rapport à des données Ensembl

 

Novembre 2011

Novembre 2: MizBee synténie navigateur

Novembre 9: La nouvelle base de données des variantes génomiques: DGV2

Novembre 16: MapMi, cartographie automatisée des microARN loci

Novembre 23: BioMart portail central de neuf

Novembre 30: Phosphida, une base de données de modification post-traductionnelle

Décembre 2011

Décembre 7: VarSifter, pour identifier les variations de la séquence de touches

Décembre 14: De grands changements aux ressources NCBI génome

Décembre 21: Lait de poule pour les fêtes (ou pour explorer les gènes orthologues)

Décembre 28: Conseils Vidéo de la semaine: Revue annuelle IV (premier semestre de 2011)

Astuce Vidéo de la semaine: BioMart portail central de neuf

BioMart est largement utilisé les données de gestion de logiciels open-source, avec une interface qui permet aux utilisateurs finaux pour générer des requêtes complexes et personnalisées à travers de nombreux types et sources de données biologiques. Il fait partie de la GMOD trousse à outils, et de nombreuses équipes de projet qui ont des données big ont choisi la BioMart logiciel pour organiser et rendre leurs données disponibles pour vous.

Nous avons été fans de BioMart pendant des années. Il était l'un des plus anciens outils logiciels que nous avons décrit, comme il a été intégré dans la plupart des sites que nous avons couvert–tels que Ensembl. Finalement nous l'avons éclaté dans son propre tutorial Suite, si, comme il ya maintenant des dizaines de groupes qui ont construit de leurs propres Marts. Bien que la peau peut changer et les ensembles de données qui sont disponibles varient sur différents sites, les fonctionnalités du logiciel sous-jacents sont les mêmes. Apprendre à utiliser le portail principal BioMart vous aidera à utiliser tous les. Jusqu'à récemment, la liste des fournisseurs de données qui a été utilisé BioMart sur la page d'accueil, mais voici un avant-goût de cette liste de mes diapositives:

Dans cette astuce, je vais présenter la vidéo du nouveau site de BioMart re-conçu principale, et touchent à certains de l'autre version de BioMart que vous devriez apprendre à se connaître. Nous mettrons à jour notre suite tutoriel avec le nouveau look dès, mais la plupart des fonctionnalités du logiciel est le même que nous avons couvert autrement (disponible par abonnement).

Il existe deux versions principales de BioMart circulant en ce moment. La v 0.7 est celui qui sera probablement le plus familier aux gens qui ont rencontré BioMart à l'un des sites de la génomique qui ont des installations en ce moment. Mais il ya un nouveau et re-conçu v 0.8 qui est en cours de développement. C'est celui qui est utilisé à l'International Cancer Genome Consortium (ICGC.org) et il ya aussi une 0.8 BioMart portail central disponibles pour essayer. Finalement cela peut remplacer un grand nombre de 0.7 configurations, mais cela dépend du site. Certains peuvent persister 0.7 pendant un moment plutôt que de la mise à jour. Donc, il est probablement sage d'avoir une idée de la façon d'utiliser les deux en ce moment.

Une des caractéristiques de l'interface BioMart nouvelle qui a déjà eu des gens parler de bioinformatique est le convertisseur d'ID. C'est un problème commun dans le domaine, et Steven Turner pensais que c'était un bel aspect du lifting: BioMart Gene ID convertisseur.

Je voulais aussi souligner que BioMart est l'un des outils que vous pouvez utiliser à Galaxy d'accéder à de larges pans de données pour analyse ultérieure. Au Galaxie, ouvrir le “Obtenir des données” menu pour voir que BioMart est l'une des options.

Il y avait aussi beaucoup de buzz autour de BioMart la semaine dernière quand un “Numéro Virtuel”de la base de revues a été libéré qui avait non seulement une Article aperçu sur BioMart comme un tout, mais aussi plusieurs des ressources que l'utilisation BioMart pour leur gestion et des interfaces de requête ainsi. Donc vous pouvez voir combien largement utiles de ce logiciel est, parmi les différents types de fournisseurs de données. Vous pouvez utiliser les installations locales de BioMart au site d'un fournisseur, ou vous pouvez utiliser le site principal d'interroger à partir de ces sources ainsi–et plus puissamment que vous pouvez traverser base de données de requête trop.

Liens rapides:

BioMart site principal: http://www.biomart.org/

BioMart nouveau style Bio portail central: http://central.biomart.org/

Pages BioMart au gmod: http://gmod.org/wiki/BioMart

Numéro virtuelle de base de données sur BioMart: http://www.oxfordjournals.org/our_journals/databa/biomart_virtual_issue.html

Références:

Kasprzyk, Une. (2011). BioMart: conduire un changement de paradigme dans la gestion des données biologiques Base de données, 2011 DOI: 10.1093/database/bar049

Zhang, J., Haider, S., Baran, J., Cros, A., Guberman, J., Hsu, J., Liang, Y., Yao, L., & Kasprzyk, Une. (2011). BioMart: un cadre fédération de données pour les grands projets de collaboration Base de données, 2011 DOI: 10.1093/database/bar038

Guberman, J., Pour, J., Arnaiz, O., Baran, J., Blake, A., Baldock, R., Chelala, C., Petite ferme, D., Cros, A., Cutts, R., De Gênes, A., Forbes, S., Fujisawa, T., Gadaleta, E., Goodstein, D., Gündem, G., Haggarty, B., Haider, S., Salle, M., Harris, T., Haw, R., Hu, S., Hubbard, S., Hsu, J., Iyer, V., Jones, P., Katayama, T., Kinsella, R., Kong, L., Lawson, D., Liang, Y., Lopez-Bigas, N., Luo, J., Luxuriante, M., Mason, J., Moreews, F., Ndegwa, N., Oakley, D., Perez-lamas, C., Primig, M., Rivkin, E., Rosanoff, S., Shepherd, R., Simon, R., Skarnes, B., Smedley, D., Sperling, L., Spooner, W., Stevenson, P., Pierre, K., Teague, J., Wang, J., Wang, J., Whitty, B., Wong, D., Wong-Erasmus, M., Yao, L., Youens-Clark, K., J'ai, C., Zhang, J., & Kasprzyk, Une. (2011). BioMart portail central: un réseau de bases de données ouverte pour la communauté biologique Base de données, 2011 DOI: 10.1093/database/bar041

Haider, S., Ballester, B., Smedley, D., Zhang, J., Riz, P., & Kasprzyk, Une. (2009). BioMart portail central–un accès unifié aux données biologiques Nucleic Acids Research, 37 (Serveur Web) DOI: 10.1093/nar/gkp265

Tour du monde des ateliers, cesser de ces dernières: Maroc, L'Afrique

Formateurs & organisateurs

L'année dernière, j'ai eu l'occasion de donner une atelier à Ifrane Maroc (UCSC Genome navigateurs et le tableau, Galaxy) Allez, at Akhawayn University. Cette année,, Mary et moi sommes retournés pour un atelier de plus de 3 jours au Université Hassan II Mohammedia dans le. OpenHelix était un co-sponsor de l'atelier (don de notre temps, matériaux et l'expertise). L'atelier portait sur une pléthore de sujets à partir d'un tour du monde des ressources (tutoriel-libre) et d'introduction UCSC Genome Browser (tutoriel-libre) et ENCODE (tutoriel-libre) à l'analyse des variations du génome dans dbSNP (tutoriel-Abonnement) et l'analyse à l'aide Galaxy (tutoriel-Abonnement). Vous pouvez consulter le calendrier complet des sujets Mohammadia Calendrier des ateliers ici (pdf).

Comme l'année dernière, nous avons été impressionnés par les étudiants (il y avait 117 au total, sur 50/50 rapport entre les sexes). L'anglais est leur langue 3ème ou 4ème dans la plupart des cas, L'arabe marocain, Français ou diverses langues africaines étant la langue de leur choix. Pourtant,, ils étaient attentifs et ont posé des questions très perspicace et fascinant. Ils étaient également très enthousiastes

Les étudiants atelier

apprenants. Ce fut un plaisir de leur enseigner.

Nous tenons à remercier Mohammed Bourdi au NIH, qui a passé de grandes quantités de temps et de ressources financières pour organiser cette (et l'année dernière) atelier de. Nous espérons répéter et étendre ces pour l'année prochaine et peut-être les années à venir. Nous serons la recherche de sponsors.

Plusieurs questions ont été posées lors de l'atelier, nous aimerions réitérer ici les réponses et de chercher des réponses de nos lecteurs:

*Un étudiant a été la recherche de ressources pour la conception de génome du blé amorces. Le génome du blé est encore incomplète, mais il ya quelques ressources pour commencer:
Blé Genome Sequencing Consortium
Les ressources de blé de GRAMENE
Centre de ressources blé génétique et génomique @ Kansas State
Peut-être aussi CATCH pour les séquences conservées
éditée à ajouter:
CerealsDB et
James’ post sur la séquence du blé projet pourraient donner un aperçu de cette énorme génome.
*Un autre étudiant a demandé au sujet des outils dotplot:
Galaxy offre une grande collection de EMBOSS outils, y compris l'analyse dotplot, comme le fait EBI Emboss outil

* Une autre question concernait la recherche d'une programmation «dynamique’ (solution optimale) plusieurs outils d'alignement de séquences, par opposition à une heuristique. Le problème avec ceci est la complexité de l'espace de recherche d'une solution de programmation dynamique, cette série de diapositives pourrait aider à la compréhension, diapositives particulier 1-5 et 17-22. Il est trop calculs intensifs. Cela dit, l'élève pourrait vouloir vérifier MSAProps et cette liste sur Wikipedia.

Ne nos lecteurs ont tous d'autres indications sur cette?

Moment d'enseignement

* Un autre étudiant a demandé si nous savons comment trouver des stages DC-région en sciences biologiques. Un autre étudiant (mathematician from Mali) cherchais quelque chose aux États-Unis en bioinformatique. Toutes les idées de programmes pour mettre les étudiants en biologie africains aux Etats-Unis ou au Canada?

Si nos étudiants marocains (ou toute autre personne) Pour toutes questions supplémentaires, S'il vous plaît n'hésitez pas à les poser ici!

 

Et une note latérale. L'année dernière, j'ai eu tous 3 heures pour visiter Fès. Cette année, j'ai profité de mon voyage. Mary et moi avons passé quelques jours à Fès et à Marrakech. Ma famille nous a rejoint à Marrakech et plus tard, ma famille et j'ai fait le tour des 8 jours à visiter les montagnes de l'Atlas, le Sahara et Fès. Inutile de dire que, c'était un voyage d'une vie. Le Maroc est un endroit fascinant et beau. J'ai hâte de visiter à nouveau.

Portails et portes de Fès sont belles

Excursion de chameau dans le Sahara

 

 

 

 

Consortium international sur le génome du cancer; Entretien avec Tom Hudson

Nous avons parlé l'International Cancer Genome Consortium (ICGC) avant un certain nombre de fois, et nous avons eu une Astuce de la semaine sur le projet et base de données l'année dernière. Il peut être temps pour une nouvelle astuce parce que leur site et le logiciel a changé. Un des aspects très cool de l'accès aux données est qu'ils utilisent le BioMart outil de requête pour l'interface–mais c'est la v0.8 style avant-gardiste du BioMart qui a quelques fonctionnalités intéressantes nouvelles.

De toute façon, J'ai vu un tweet ce matin un entretien avec l'un des directeurs de l'ICGC, Tom Hudson. C'est une interview sympa qui parle du projet, les progrès, et plus. Si vous n'avez pas suivi le travail de l'ICGC, vous pouvez utiliser cette interview comme un point d'entrée de Nice à celui. Et puis vérifier les données–et l'interface BioMart qui est disponible sur le site.

Interview (Pointe du chapeau et de le tweeter qui m'a signalé il ya):

RT @ ResearchMedia: Le Dr Thomas Hudson, du secrétariat du CIGC expose les avantages de travailler comme un consortium dans la lutte contre le cancer # http://t.co/CqM1UQm

Visitez le CIGC: http://www.icgc.org/ et cliquez sur le Portail de données pour commencer à regarder les données qui circule dans aujourd'hui.

 

Astuce de la semaine: InterMine pour l'exploitation minière “grandes données”

Intégration des grands ensembles de données pour les requêtes au sein de–et à travers–diverses collections est l'une des arènes qui a été récemment très active dans la bio-informatique. De plus en plus “grandes données” des projets de rendement très grand nombre de points de données et types de données, ce n'est de plus en plus nécessaire. J'aime parcourir les données, mais il ya des moments où une requête grande échelle personnalisée est ce que vous aurez envie de faire quelques découvertes plus large.

Actuellement, il existe un certain nombre de ressources et d'interfaces que je m'adresse à des requêtes structuré et personnalisé de collections de données. L' Table Browser UCSC, BioMart, Galaxy–ce sont celles que j'ai mes mains sur presque continuellement. Mais il ya un autre entrepôt et le système d'interface que nous voyons de plus en plus: InterMine.

Ma première vraie rencontre avec InterMine a été pour la modENCODE des données. Il ya certaines données vraiment formidable qui sort de ce projet maintenant (J'ai parlé un peu à ce sujet récemment ici), et l'interface et le système de stockage qu'ils utilisent est InterMine.

FlyMine a été l'impulsion initiale pour le “Mine” système de. Quelques années en arrière FlyMine a été créé comme un entrepôt et un système de requête pour les quantités croissantes de données qui a été volée en provenance de divers projets. L'objectif était d'avoir un assez puissant système de bioinformatique + super-utilisateurs, mais aussi une interface conviviale et puissante pour les biologistes banc d'utiliser.

Le document initial a décrit les composants de base: une interface utilisateur avec 3 composants primaires: une recherche rapide c'est très bien pour la navigation; une bibliothèque de modèles qui permet aux utilisateurs accès à certains types pré-définis de requête standard ou probable qu'ils peuvent tordre à leurs besoins; et un Query Builder entièrement personnalisable pour un accès le plus avancé. Depuis ce développement du papier a continué, et il ya d'autres nouvelles fonctionnalités et cool présents ainsi.

Un autre grand objectif de l'effort FlyMine était de pouvoir faire face aux listes. Une des questions les plus courantes que nous encore obtenir dans les ateliers est: “J'ai une liste de _____. Quelle est la meilleure façon de traiter cette?” FlyMine–et le InterMines en général–aider les personnes à interroger et gérer leurs explorations avec des listes de choses.

La fonction de l'MyMine InterMines est également une composante de Nice. Vous pouvez créer un login et stocke des choses que vous voulez avoir accès à répétition: requêtes, listes, etc.

Il ya d'autres personnes utilisant InterMine pour leurs systèmes trop–un article récent sur TargetMine, pour “Hiérarchisation des gènes et la découverte de cibles” est disponible, et pourrait apparaître comme une pointe à venir! Jennifer n'a une astuce sur YeastMine à partir de SGD une fois ainsi.

Mais ce qui m'a déclenché pour faire cette astuce est que la lettre provenait du RGD liste de diffusion la semaine dernière que dit:

À compter du vendredi, Mai 20e, 2011 l'outil MCW BioMart sera à la retraite par RGD et le Centre de Protéomique MCW. Pour les données de rat minières, nous avons constaté que l'outil RatMIne est plus facile à utiliser, plus souple et incorpore plus de types de données que Biomart. En outre, RatMine comprend des outils d'analyse ne retrouve pas dans BioMart, donnant aux utilisateurs un seul RatMine, L'interface intuitive à la fois pour obtenir et analyser des données.

Alors, ils se déplacent pleinement à la retraite et de l'InterMine BioMart Rat, utilisant exclusivement RatMine à leur installation. Alors cette astuce de la semaine sera d'explorer InterMine, RatMine, et de certaines autres mines. Cela fait beaucoup de terrain à couvrir–mais il est probablement utile de votre temps pour connaître InterMine car il devient plus largement disponible. Il est également important de comprendre comment interroger des Mines, si vous voulez mettre les données à la galaxie pour une analyse approfondie. Si vous visitez Galaxy, vous verrez que leur “Obtenir des données” section vous permet d'accéder aux outils mine–mais vous avez encore besoin de savoir comment faire les requêtes de base sur le site de premier hôte.

Bien que cette astuce va toucher le RatMine, l'accent est le plus général InterMine Suite. RGD a aussi dit ceci dans leur avis:

Pour un aperçu des RatMine et comment l'utiliser, aller à la vidéo tutoriel RGD, “Une introduction à la base de données RatMine”, à http://rgd.mcw.edu/wg/home/rgd_rat_community_videos/an-introduction-to-the-ratmine-database2. Alternativement, suivre les “visite auto-guidée” des RatMine en cliquant sur le “Faites une visite” le lien en haut de chaque page RatMine.

Pour essayer par vous-même RatMine, aller à http://ratmine.mcw.edu/ et commencer avec le data mining et d'analyse simplifiée.

Donc, si vous voulez avoir des informations plus précises sur l'utilisation RatMine, être sûr de vérifier leur introduction.

Liens rapides:

InterMine: http://intermine.org/

RatMine: http://ratmine.mcw.edu/

modENCODE: http://www.modencode.org/

Galaxy: http://usegalaxy.org/

Référence:
Lyne, R., Smith, R., Rutherford, K., Wakeling, M., Varley, A., Guillier, F., Janssens, H., Son, W., Mclaren, P., Du nord, P., Rana, D., Riley, T., Sullivan, J., Watkins, X., Woodbridge, M., Lilley, K., Russell, S., Ashburner, M., Mizuguchi, K., & Micklem, G. (2007). FlyMine: une base de données intégrée pour la génomique de drosophile et l'anophèle Genome Biology, 8 (7) DOI: 10.1186/GB-2007-8-7-R129

L'exploitation du “grandes données” est…fascinante. Et nécessaire.

Lorsque nous avons des ateliers à venir, J'ai passer un peu de temps autour d'outillage dans les grandes données pour voir si il ya eu des changements depuis la dernière fois que j'ai parlé, mettre à jour les diapositives si nécessaire, et formant parfois une hypothèse et la tester. (PS: nous sommes au Baylor prochaines, si quelqu'un est à la recherche d'un atelier là-bas.) Vendredi, j'ai totalement perdu moi-même dans une requête qui a commencé à UCSC dans le ENCODE des données, et a fini dans le ICGC BioMart. Et wow. Dois-je voudrais avoir un laboratoire de somedays….

Un des commentaires à notre dernier atelier était que les données ENCODE sur des lignées cellulaires n'est pas la même chose que regarder les tissus. Et je suis totalement d'accord avec cette–mais la souris encoder des données va aider à obtenir ce genre de données. Mais comme quelqu'un qui a passé beaucoup de temps de culture de cellules dans le passé, Je suis intéressé de savoir comment différentes lignées cellulaires sont des “de référence” complètent génome. Et il ya une partie spécifique de l'humain ENCODE projet qui cherche à ce: Cellule commune NVC piste.

Voici ce que j'ai fait: une requête du navigateur de regarder le tableau pour les types de variations structurelles qui ont été à venir dans le 3 lignées cellulaires qui ont été examinés: GM12878, HepG2, et K562. Je me demandais à moi-même: combien de ces CNV se chevauchent avec des gènes connus? Et quels sont les types de variations sont là? Voici un échantillon de la façon dont j'ai structuré de requêtes pour l'une des lignées cellulaires:

Cette requête donne sections normales, amplifications, suppressions–et quelques suppressions sont homozygotes et hétérozygotes certains sont. Un des points que je fais dans l'atelier ENCODE est que si je devais en utilisant une lignée cellulaire, je serais curieux de connaître ces sortes de choses à ce sujet–J'aimerais que quelqu'un ne HeLa et les autres lignes de cellules grosse là-bas aussi. (Probablement quelqu'un est, mais je ne sais pas au sujet des données. Si quelqu'un a, donnez-moi un Holler.)

Donc je travaille autour de ces variations, et je suis curieux de connaître une région particulière dans l'un des lignées cellulaires. Il a sorti une région avec certains gènes plutôt l'air important. Je suis allé à la littérature de constater que cette région est connue pour être un problème dans certains cancers.

Je suis allé à regarder les données pour voir si l'ICGC quelque chose d'intéressant se tournait avec ces gènes. Et wow–whadda tu sais: il n'y a pas une tonne de données dans ce jeu de données encore, mais j'ai trouvé une correspondance significative entre certaines des données déjà là de tumeurs réel et ce que j'ai trouvé dans la lignée cellulaire. Il est trop tôt pour tirer des conclusions à ce sujet. Il est difficile de savoir dans ces projets de données grand ce que vous * ne sont pas * voir, combien est déjà là, combien n'est pas, etc. Mais j'ai vérifié un tas d'autres gènes et aucun n'a montré ce genre de modèle que je voyais.

En raison de la politique d'utilisation ICGC, Je ne pense pas que je peux parler spécifiquement de ce que j'ai vu. Mais il était très curieux. Si j'avais un laboratoire j'aurais mis un étudiant sur elle, ce matin ;)

Et mon point est-ce: les données ne sont plus dans les journaux. C'est dans les bases de données. Et vous devez être miniers qu'elle–ces projets sont grandes données vous remettant l'pioches et vous pointant vers les mines.

++++++++++++

Qu'est-ce que vous devez faire ce que j'ai fait:

1. Une compréhension de la Fonctions UCSC et le Encoder des données. Consultez nos tutoriels sur ceux qui sont librement disponibles tant qu'ils sont parrainés par UCSC et l'équipe encoder à UCSC.

2. BioMart: nous avons un tutoriel sur cette, mais il est dans notre formule d'abonnement.

Qu'est-ce que vous n'avez pas besoin: littérature actuelle. Ce n'est pas dans les journaux, et peuvent ne jamais être. L' “grandes données” truc est dans les bases de données, et seulement de petites quantités peut vraiment être publié dans la manière traditionnelle.