Tag Archives: Ensembl


Astuce Vidéo de la semaine: Mises à jour UniProt, y compris maintenant les fichiers de LIT portables

UniProt is one of the core resources that provides tremendously important curated information about proteins. You will find links to UniProt in lots of other tools and databases as well, but we’ve always championed going directly there for the full look at all the wide range of information they offer. Their foundation remains solid, but they also continue to add new and useful features over time. Recently they had a webinar to describe some of the new things, and the recording of that webinar will be this week’s Video Tip fo the Week.

The video starts with an overview of the whole UniProt site. The core of their great resource is the same, bien sûr. UniProtKB, UniRef, and UniParc are there for various ways to look across the data. The handy Proteomes collection of the proteins in a given species is available, and they also have reference proteomes from that access point. There’s a short section in the video that’s a guide to the basic search functions.

A propos 9 minutes in they introduce the UniRule annotation features. When certain conditions are met, an annotation gets applied to a protein–which you can trace from the protein pages by clicking on the UniRule link for that annotation. unirule_sampleAnd their software offers a very cool way to look and see how/when conditions are applied. It will load a decision flow path and highlights what the logic rules were used in that particular case, so you can trace it and understand how a protein got a given item. That’s what I illustrate in the screen shot here.

A propos 14 ma, the topic changed to the new Genome Annotation Tracks. They now offer you a way to take their annotations for a UniProtKB entry and use them with a separate genome browser. They hand you BED or BigBed files for different features. You can also load the whole thing as a Hub file to see all the sequence feature data at once. They are species-specific, and started with human, but others are coming. You can access them from the “Téléchargements” area of the homepage. The video also described a bit about the structure there as well. So you could take these files to ENSEMBL ou UCSC Genome Browser and load them, with all the UniProt features now to compare to the existing genomic context at those browsers. They illustrate how you can look at the “active site” les annotations, but you can also look at post-translation modification sites, domaines, etc. This was a feature that was new to me, and looks like a terrific idea.

So even if you think you know UniProt, check out these new options for additional ways to interact with the high-quality information they provide. Good stuff.

Liens rapides:

UniProt: http://www.uniprot.org/


Le Consortium UniProt (2014). UniProt: a hub for protein information Nucleic Acids Research, 43 (D1) DOI: 10.1093/nar/gku989


SNPpets vendredi

This week’s SNPpets include transcription factor binding site evolution–with their secret partners transposable elements; PrecisionFDA coming along; bad habits of bioinformaticians; new synthetic biology tools and rock star status; consumer reluctance to share their health data; Russian genomes on the way. Et plus, including the XKCD on DNA in case you missed it.

SNPpets_2Bienvenue à notre collection vendredi lien fonction: SNPpets. Au cours de la semaine, nous avons rencontré beaucoup de liens et de lectures qui nous paraissent intéressants, mais ne pas se rendre à un billet de blog. Ici, ils sont pour votre plaisir…

Astuce Vidéo de la semaine: TargetMine, Data Warehouse for Drug Discovery

Browsing around genomic regions, layering on lots of associated data, and beginning to explore new data types I might come across are things that really fire up my brain. Pour moi, visualization is key to forming new ideas about the relationships between genomic features and patterns of data. But frequently I want to take this to the next step–asking where else these patterns appear, how many other instances of this situation are there in a data set, and maybe adding additional complexity to the problem and refine the quest. This is not always easy to do with primarily visual software tools. This is when I turn to tools like the Table Browser UCSC, BioMart, et InterMine to handle some list of genes, or regions, or features.

We’ve touched on all of these before–sometimes with full tutorial suites (UCSC, BioMart), and sometimes as a Astuce de la semaine, InterMine et InterMine pour les requêtes complexes. Learning about the foundations of these tools will let you use various versions or flavors of them at other sites. I love to see tools that are re-used for different topics when that’s possible, rather than building a whole new system. There are ModENCODE, rat, yeast mines, et plus. This week’s tip is about one of those others–TargetMine is built on the InterMine foundation, with a specific focus on prioritizing candidate genes for pharmaceutical interventions. De their site overview, I’ll add this description they use: TargetMine

TargetMine is an integrated data warehouse system which has been primarily developed for the purpose of target prioritisation and early stage drug discovery.

For more details about their framework and philosophy, you should see their papers (lien ci-dessous). The earlier one sets out the rationale, the data types, and the data sources they are incorporating. They also establish their place in the ecosystem of other databases in this arena, which helps you to understand their role. But you should see the next paper for a really good grasp of how their candidate prioritization work with the “Integrated Pathway Clusters” concept they’ve added. They combined data from KEGG, Reactome, et NCI’s PID collections to enhance the features of their data warehouse system.

This week’s Video Tip of the Week highlights one of the tutorial movies that the TargetMine team provides. There’s no spoken audio with it, but the captions that help you to understand what’s going on are in English. I followed along on a browser with their example–they have a sample list to simply click on, and you can see various enrichments of the sets–voies, Gene Ontology, Disease Ontology, InterPro, CATH, and compounds. They call these the “biological themes” and I find them really useful. You can create new lists from these theme collections. They also illustrate the “template” option–pre-defined queries with typical features people may wish to search. The example shows how to go from the list of genes you had to pathways–but there are other templates as well.

Another section of the video has an example of a custom query with the Query Builder. They ask for structural information for proteins targeted by acetaminophen. It’s a nice example of how to go from a compound to protein structure–a question I’ve seen come up before in discussion threads.

In their more recent paper (also below), they have some case studies that illustrate the concepts of prioritizing targets for different disease situations with their system. They also expand on the functions with additional software to explore the pathways: http://targetmine.mizuguchilab.org/pathclust/ .

So have a look at the features of TargetMine for prioritization of candidate genes. I think the numerous “themes” are a really useful way to assess lists of genes (or whatever you are starting with).

Liens rapides:

TargetMine: http://targetmine.mizuguchilab.org/ [Remarque: their domain name has changed since the publications, this is the one that will persist.]

InterMine: http://intermine.github.io/intermine.org/


Chen, Y., Tripathi, L., & Mizuguchi, C. (2011). TargetMine, an Integrated Data Warehouse for Candidate Gene Prioritisation and Target Discovery PLoS ONE, 6 (3) DOI: 10.1371/journal.pone.0017844

Chen, Y., Tripathi, L., Dessailly, B., Nyström-Persson, J., Ahmad, S., & Mizuguchi, C. (2014). Integrated Pathway Clusters with Coherent Biological Themes for Target Prioritisation PLoS ONE, 9 (6) DOI: 10.1371/journal.pone.0099030

Kalderimis A., R. Lyne, D. Butano, S. Contrino, M. Lyne, J. Heimbach, F. Hu, R. Smith, R. Stěpán, J. Sullivan & G. Micklem & (2014). InterMine: extensive web services for modern biology, Nucleic Acids Research, 42 (W1) W468-W472. DOI: http://dx.doi.org/10.1093/nar/gku301

Des outils bioinformatiques extraites d'un projet typique du génome des mammifères [Supplément]

C'est le tableau 1 qui accompagne le blog complet: Des outils bioinformatiques extraites d'un projet typique du génome des mammifères. Voir le poste principal pour les détails et d'explications. Le tableau est trop long pour tenir dans le poste, mais je voulais qu'il soit consultable sur le Web. Une copie se trouve également à FigShare: http://dx.doi.org/10.6084/m9.figshare.1194867

Continuer la lecture

Des outils bioinformatiques extraites d'un projet typique du génome des mammifères

Dans ce blog prolongée, Je décris mes efforts pour extraire les informations sur la bio-informatique-liées éléments d'une étude récente de séquençage du génome, et les grandes questions cela soulève dans le domaine. C'est long, et c'est quelque chose d'un hybride entre un blog et un format de papier, juste pour lui donner une certaine structure pour ma propre organisation. Une copie de ce sera également affiché à FigShare avec l'ensemble complet de données. Un grand merci à l'équipe de projet du génome du gibbon pour un document formidable et collection largement documenté de leurs procédés et les ressources. Les questions que je voulais mettre en évidence sont de l'accès aux outils de la bioinformatique en général et ne sont pas spécifiques à ce projet à tous, mais ils sont sur le terrain.


Dans le domaine de la bioinformatique, il ya beaucoup de discussion au sujet des données et la disponibilité du code, et la reproductibilité ou la réplication de la recherche en utilisant les ressources décrites dans les travaux antérieurs. Pour explorer l'ampleur du problème, J'ai utilisé la récente publication du projet de séquence du génome de gibbon bien documenté comme un point d'évaluer les outils de lancement, référentiels, sources de données, et d'autres éléments liés à la bio-informatique qui avaient été utilisés dans un projet en cours. Les détails des éléments de bioinformatique nommés ont été extraites de la publication, et l'emplacement et de l'information sur les outils ont ensuite été explorées.

Seule une petite fraction des éléments de bioinformatique du projet ont été noté dans le corps principal de l'article (~ 16%). La plupart d'entre eux ont été trouvés dans les documents complémentaires. Comme nous l'avons constaté dans le passé, ni les données, ni les outils nécessaires sont publiés dans la structure traditionnelle du papier plus. Parmi les plus 100 Articles bioinformatiques décrits dans l'ouvrage, la disponibilité et la facilité d'utilisation varie considérablement. Certains vivent sur les sites Web de la Faculté ou étudiants, certains sur les chantiers, certains dans des dépôts de code. Certains sont publiés dans la littérature traditionnelle, certains sont étudiants thèse publications, certains ne sont pas toujours publiés et seulement un site web ou un manuel de documentation du logiciel sert à disposition les informations requises. Cela signifie que l'information sur la façon d'utiliser les outils est très inégale, et le soutien est souvent inexistante. L'accès aux différentes versions de logiciels pose un défi supplémentaire, soit pour des outils open source ou de produits commerciaux.

De nouvelles stratégies de publication et de stockage, nouveaux outils technologiques, et la sensibilisation de la communauté un soutien large et commencent à changer ces choses pour le mieux, et va certainement aider à aller de l'avant. Stratégies pour les outils de référencement cohérente, versions, et des informations à leur sujet serait extrêmement bénéfique. La communauté de la bioinformatique peut aussi envisager la nécessité de gérer une partie de l'historique, éléments fondamentaux qui sont importants pour ce domaine, dont certains peuvent avoir besoin d'être sauvé de leur statut actuel afin de rester à la disposition de la communauté dans l'avenir.


Depuis le site Web de Nature, J'ai obtenu une copie de l'article publié récemment: Gibbon génome et l'évolution du caryotype rapide de petits singes (Carbone et al, 2014). D'après le texte de l'article et les suppléments, J'ai extrait manuellement toutes les références à des outils de base de données nommée, les sites de source de données, les types de fichiers, programmes, utilitaires, ou autres pièces mobiles de calcul que j'ai pu identifier. Il sera peut-être un raté par ce processus, par exemple,, noms que je ne connaissais pas ou ne se connecte pas avec certains outil existant (ou quelque image générée à partir d'un outil, peut-être). Quelques références étaient "dans la maison des scripts Perl" ou d'autres scénarios "sur mesure" ne sont généralement pas inclus, sauf s'ils ont été mis à la disposition. Pièces jugées comme étant fait «d'une manière similaire à celle déjà décrite" dans une autre référence étaient présents, et je ne suis pas allé en amont de documents antérieurs à extraire les détails. Logiciel associé à l'équipement de laboratoire, tels que des séquenceurs (situé dans diverses institutions) ou machines de PCR n'ont pas été incluses. Donc, cela représente probablement une sous-dénombrement des éléments de logiciels utilisés. J'ai aussi contacté l'équipe de recherche pour un certain nombre de choses supplémentaires, et rapidement reçu de l'aide et des conseils. En utilisant les moteurs de recherche sur Internet typiques ou de recherches internes à éditeur ou ressources des sites, J'ai essayé de faire correspondre les objets à des sources d'un logiciel ou des citations pour les articles.

Qu'est-ce que j'ai mis dans le seau inclus des noms d'éléments spécifiques ou des objets qui seraient susceptibles d'être nécessaires et / ou peu familier aux étudiants ou chercheurs en dehors de la communauté bio-informatique. Certains sont liés, mais différent. Par exemple, vous devez comprendre ce que "Gene Ontology»Est dans son ensemble, mais vous avez aussi besoin de savoir ce que "GIGSL"Est, une différence conceptuelle et un objet séparé dans mon système de désignation ici. Certains sont des sous-composants d'autres outils, mais des aspects importants pour comprendre (GOTERM_BP_FAT à DAVID ou randomBed de Bedtools) et sont des éléments individuellement nommées dans le rapport, que ceux-ci pourraient être obscur pour les non-pratiquants. D'autres professionnels de la bioinformatique peuvent être en désaccord avec leur affectation à cette collection. Nous pouvons discuter de l'enlèvement ou de l'inclusion de ces discussions à leur sujet dans les prochaines versions de la liste.


Après avoir créé une liste maîtresse de références à des objets ou bioinformatiques, la liste a été vérifié et cueilli des doublons ou des aspects introuvables. Les références aux «maison scripts Perl» ou d'autres scripts "sur mesure" sont habituellement éliminés, à moins qu'une référence particulière à un référentiel de code a été fourni. Il en est résulté 133 éléments restants.

Comment sont-ils référencés? Lorsque, dans le travail?
Tant l' principale publication (14 pages PDF) et le premier fichier d'information supplémentaire (133 pages PDF) fourni les noms d'objets en bioinformatique utilisation pour ce projet. Tous les éléments mentionnés dans le document principal ont également été référencé dans le supplément. Le nombre d'objets nommés dans le document principal était 21 de l' 133 composants répertoriés (~ 16%). Ceci est cohérent avec d'autres types similaires de consortium ou papiers "grand" de données que j'ai explorées avant: la plus grande partie des informations nécessaires sur les outils logiciels, sources de données, méthodes, paramètres, et fonctions ont été étendues dans les matériaux supplémentaires.

Les articles sont référencés dans différentes façons. Parfois, ils sont nommés dans le corps du texte principal, ou les méthodes. Parfois, ils sont inclus dans les notes. Parfois, les outils ne sont mentionnés que dans les légendes des figures, ou seulement dans les références. Dans ce cas,, quelques détails ont été trouvées dans la section «Informations Auteur".


Comme indiqué ci-dessus, la plupart ont été dans l'information supplémentaire. Et dans cet exemple, il peut s'agir dans le texte ou dans les tableaux. C'est tout à fait typique de ces grands documents de projet, dans notre expérience. Quiconque tente de publications texte mines de ce type d'information doit être conscient de cette variété d'emplacements pour ces informations.

Quels sont les objets de la bioinformatique sont impliqués dans ce papier?
Décrivant outils bioinformatiques, les ressources, bases de données, fichiers, etc, a toujours été difficile. Ceux-ci sont analogues aux "réactifs" que j'aurais mis dans mes papiers d'établi de biologie il ya des années. Elles peuvent l'être à l'issue, tels que les fournisseurs d'enzymes, Les versions de contrainte souris, ou des espèces d'anticorps de détails. Ils constituent des choses que vous auriez besoin de reproduire ou de prolonger le travail, ou à comprendre de manière appropriée le contexte. Mais dans le cas de la bio-informatique, cela peut signifier formats de fichiers tels que le FASTQ ou AXT Format de UCSC Genome Browser. Ils peuvent signifier aux ressources stockées comme le SRA. Ils peuvent être différents des ensembles en versions de données téléchargées à partir ENSEMBL (Version 67, 69, 70, ou 73 ici, mais qui ont été comptés qu'une seule fois comme ENSEMBL). Il pourrait être des références à Reactome dans un tableau.

Avec cette large définition à l'esprit, Tableau 1 fournit la liste des nommés bioinformatique objets extraits de ce projet. Le nom ou pseudo ou désignation, l'emplacement où il se trouve (le cas échéant), et une publication ou une citation est inclus lorsque cela est possible. Enfin, une colonne indique si il a été trouvé dans le document principal et.

Ce qui n'est pas indiqué, c'est que certains sont des références à plusieurs reprises dans différents contextes et usages, avec peut amener les gens à ne pas réaliser à quelle fréquence ils sont utilisés. Par exemple, ironiquement, RepeatMasker a été référencé tant de fois j'ai commencé à arrêter marquage vers le haut à un point.

Tableau 1. Logiciels, objets, formats, fichiers, et des ressources extraites d'un projet typique du génome des mammifères de séquençage. Voir le supplément de la version web de ce blog: http://blog.openhelix.eu/?p=20002, ou l'accès à FigShare: http://dx.doi.org/10.6084/m9.figshare.1194867

Des outils bioinformatiques extraites d'un projet typique du génome des mammifères [Supplément] – Voir plus de: http://blog.openhelix.eu /?p = 20002&preview = true # sthash.pcNdYhOZ.dpuf
Des outils bioinformatiques extraites d'un projet typique du génome des mammifères [Supplément] – Voir plus de: http://blog.openhelix.eu /?p = 20002&preview = true # sthash.pcNdYhOZ.dpuf


Que pouvons-nous en apprendre davantage sur la source ou l'utilisation de ces articles?
Recherches pour les informations sur le code source, ensembles de données, les types de fichiers, référentiels, et associés des informations descriptives sur les éléments donne une variété d'accès. Certains objets sont associés à des publications scientifiques traditionnelles et ont des liens valides et actuelles de logiciels ou de données (mais sont aussi parfois cité incorrectement). Ceux-ci peuvent être paywalled dans certaines publications, ou sont décrits dans les documents de réunion disponible. Certains n'ont pas les publications associées à tous, ou sont décrits comme soumis ou en préparation. Certains outils ne sont pas publiées dans la littérature, longtemps après qu'ils ont disparu dans une large utilisation, et leur documentation ou manuel est cité à la place. Certains vivent sur les pages de recherche du corps professoral, certains sont mémoires d'étudiants. Certains outils se trouvent sur les pages spécifiques au projet. Certains existent sur le dépôt de code, parfois celles obsolètes qui risquent de disparaître. Un certain nombre d'entre eux se sont déplacés de leurs publications initiales, sans adresses d'expédition. Certains sont des allusions à des procédures autres publications. Certains d'entre eux sont comme Voyage dans le temps de retour aux années 1990, avec des pages qui semblent être d'origine pour le moment. Certains peuvent être à risque de disparaître complètement la prochaine fois une mise à jour sur un site Web université change accès au site.

Les autres outils comprennent des offres commerciales susceptibles d'avoir des détails inconnus, versions, ou la durabilité douteuse et l'accès futur.

Lorsque les détails de traitement ou de logiciels implémentations données sont fournies, le montant peut varier. Parfois, les paramètres sont inclus, d'autres pas.

Outil manquant je voulais avoir
Un de mes préférés représentations de données dans les résultats du projet a été Figure 2 dans le document principal, Grilles Oxford des espèces comparaisons organisés en une structure arbre phylogénétique. Cette transporté une énorme quantité d'informations dans une petite zone très efficace. J'avais espéré qu'il s'agissait d'un outil existant quelque part, mais lors de l'écriture de l'équipe, j'ai trouvé que c'est un script R par l'un des auteurs, avec un arrangement ultérieure des arbres dans le programme graphique "Illustrator" par un autre collaborateur. J'ai vraiment aimé ce, si, et nous espérons qu'il sera disponible plus largement.

Oeufs de Pâques
La citation la plus amusante, je suis tombé était la page pour PHYLIP, et la FAQ et les crédits ont été remarquables. Malgré le fait qu'il n'y a pas de publication traditionnelle à ma disposition, une page longue "crédits" propose quelques idées intéressantes sur le projet. L' "Non, merci à" partie était en fait un regard fascinant sur les tribulations d'obtenir des fonds pour soutenir le développement de logiciels et la maintenance. La partie sur «sensibilisation» était particulièrement amusant de nous:

"Est-ce que tout cela" sensibilisation "des trucs dire que je dois consacrer du temps à donner des ateliers à mystifiés étudiants en arts culinaires? Ces subventions sont pour le développement de méthodes avancées, et briefing "les éducateurs publics ou non-universitaires» au sujet de ces méthodes semblent être une perte de temps — si je fais passer un certain effort de créationnistes de défense et les défenseurs de l 'Intelligent Design, mais je n'ai pas élever ces méthodes dans le faire ».

Même l'idée de «sensibilisation» et de soutien pour l'utilisation des outils est certainement clair pour les fournisseurs d'outils, apparemment. Formation? Ouais, pas de manière formelle.


Le projet de séquençage du génome de gibbon a fourni un exemple important et bien documenté d'un projet typique dans ce domaine. Dans mon expérience, il s'agissait d'une collection plus détaillée et la description que de nombreux autres projets que j'ai explorées, et des outils qui étaient de nouveau et intéressant pour moi ont été fournis. De toute évidence un très grand nombre et la portée des éléments de bioinformatique, outils, référentiels, et les concepts sont nécessaires pour le cadre d'un projet de séquençage du génome. Retracer l'origine d'entre eux, si, est inégale et difficile, et ce n'est pas unique à ce projet-c'est un problème entre le champ. L'accès actuel à des objets de la bioinformatique est également inégale, et l'accès futur peut-être même plus d'un obstacle comme le vieillissement de pages de projets peuvent disparaître ou devenir inutilisable. Ce projet a fourni un aperçu intéressant de l'état d'avancement, et bon aperçu de l'étendue de la conscience, compétences, les ressources, et les connaissances que les chercheurs, le personnel de soutien, ou les étudiants devront réaliser des projets d'envergure similaire.

little_macIl sert à être plus simple. Nous utilisions le petit nombre d'outils sur le VAX, montée, dans la neige, dans les deux sens, bien sûr. Quand j'étais un étudiant diplômé, un jour à l'arrière du laboratoire au début des années 1990, mon collègue Trey et moi avons été fouiller à quelque chose que nous avions juste entendu parler, le World Wide Web. Nous avons eu un de ces petits Macs drôles avec les écrans minuscules, et nous avons trouvé les gens faisaient des pages Web avec des polices texty banales et couleurs bizarres, et de parler de leurs recherches.

Bien que nous avions tous les deux été en utilisant une variété de programmes installés ou des lignes de commande pour la lecture de la séquence et l'alignement, manipulation, cartes plasmidiques, la recherche et le stockage littérature, traitement d'image, phylogénies, et ainsi de suite, nous savions que cette chose Web allait briser le vaste sujet ouvert.

Peu de temps après, Je passais de plus en plus de temps dans l'arrière-salle du laboratoire, tirant séquences de ce lieu NCBI (voir une interface milieu des années 1990 ici), et la recherche de nouveaux variants d'épissage. Je les ai trouvés. Juste en tapant-pas de radioactivité et gels requis par moi! C'est pas cool, c'est que? Nous nous sommes appuyés sur la liste de Pedro de trouver des outils plus utiles (archives de biologie moléculaire de recherche et d'analyse des outils de Pedro.).

Tous les deux nous alors s'en alla en post-doctorants et des emplois qui étaient lourdement dans des logiciels biologique et / ou le développement de base de données. Nous avons eu un siège avant pour les changements au cours de cette période, et il a été vraiment étonnant de voir. Et il a été formidable pour nous, nous avons développé nos intérêts dans une entreprise qui aide les gens à utiliser ces outils de manière plus efficace, et il a été vraiment enrichissante.

Au OpenHelix, nous essayons toujours de garder un œil sur ce que les gens sont les outils à l'aide. Nous chalut régulièrement à travers le temps, à long, longues matériaux complémentaires des sortes de «grande» de données des projets, l'aide d'un filet maillant pour extraire les outils logiciels qui sont en usage dans la communauté. Quelles bases de données et des sites sont les gens comptent sur? Quelles sont les choses que tout le monde doit fondamentale? Quelles sont les choses de pointe à l'affût des? Qu'est-ce que les formats de fichier ou des termes les gens devraient se connecter à une ressource?

Mais comme j'ai commencé à le faire, Je pensais que: peut-être que je devrais l'utiliser comme un point de lancement pour discuter de certaines des questions d'outils logiciels et de données en génomique. Si vous étiez nouveau dans le domaine et a dû comprendre comment un tel projet va, ou les connaissances, compétences, et les outils que vous aurez besoin, pouvez-vous établir une certaine idée de l'endroit où viser? J'ai donc utilisé ce document pour en quelque sorte analyser l'état d'avancement: ce sites / outils / formats / objets / éléments bio-informatique sont inclus dans un ouvrage de cette envergure? Pouvez-vous les localiser? Où sont les obstacles ou les dangers? Pouvez-vous apprendre à les utiliser et reproduire le travail, ou avancer d'ici?

Il a été instructif pour moi de fait assembler en un seul endroit. Il a fallu un peu de temps pour suivre les outils vers le bas et renseignements à leur sujet. Mais il semblait être une valeur prise de cliché. Et j'espère que cela met en lumière quelques-uns des besoins dans le domaine, avant quelques-uns des éléments clés se perdent aux aléas du temps et de la technologie. Et aussi j'espère que la prise de conscience encourage les bonnes pratiques à l'avenir. Les choses semblent avoir mieux la pression sur la communauté de publier des ensembles de données et de code dans les dépôts pris en charge a augmenté. Nous pourrions utiliser des stratégies de citation normalisés pour les outils, sources, et les paramètres. L' US NIH obtenir sérieux au sujet de la gestion des "Big Data" et de s'assurer qu'il peut être utilisé correctement a été accueillie avec beaucoup d'enthousiasme. Mais il ya encore quelques collines à gauche pour monter avant que nous soyons en haut de cette.


Carbone L., R. Alan Harris, Sante Gnerre, Krishna R. Veeramah, Belén Lorente-Galdos, John Huddleston, Thomas J. Meyer, Javier Herrero, Roos chrétiennes, Bronwen Aken & Fabio Anaclerio & le. (2014). Gibbon génome et l'évolution du caryotype rapide de petits singes, Nature, 513 (7517) 195-201. DOI: http://dx.doi.org/10.1038/nature13679

Version FigShare de ce post: http://dx.doi.org/10.6084/m9.figshare.1194879

VideoTip de la semaine: ENCODE @ Ensembl

Nous avons beaucoup de tutoriels (2 en fait,, ENCODE Fondations & ENCODE @ UCSC), Conseils et informations sur ENCODE. Nous avons aussi beaucoup de tutoriels (nouveau 2, Ensembl et Ensembl héritage- sur les anciennes versions ), Conseils et informations sur Ensembl, la base de données et navigateur à EBI.

Maintenant, voici une astuce de la semaine à la fois sur Ensembl et encoder. C'est l'un des plus récents ajouts à Les tutoriels vidéo de ENSEMBL. Cette vidéo se penche sur la façon d'identifier des séquences qui peuvent être impliqués dans la régulation génique. La plupart de ces données à Ensembl est basée sur des données ENCODE. Cela est d'utiliser le “Matrice,” un moyen de sélectionner les données de règlement vous avez besoin basé sur des types de cellules et de TF. A la fin de l' 8 vidéo d'une minute, ils discutent un peu plus sur la façon d'obtenir tout encoder des données.

Alors, maintenant vous avez une mine d'informations ici à OpenHelix par nos tutoriels et notre blog sur ENCODE et ENSEMBL.

Liens rapides:

ENCODE: http://encodeproject.org/ENCODE/
ENCODE @ UCSC: http://genome.ucsc.edu/ENCODE/
Ensembl: http://www.ensembl.org
ENCODE Tutoriels: http://openhelix.com/encode
Tutoriels ENSEMBL: http://openhelix.com/cgi/tutorialInfo.cgi?id=95

Astuce Vidéo de la semaine: Papillons parcourant avec Gbrowse et Ensembl

Un couple de mois en arrière lorsque le Heliconius (Facteur) Papillon génome document a été publié, nous avons pu voir un autre exemple de la façon dont les nouvelles technologies de séquençage nous donnent accès à des données génomiques de plus en plus–des espèces qui ne sont pas les principaux organismes modèles. Monarch butterfly données sur le génome avaient été libérés avant que ainsi. Et vous ne pouvez pas savoir qu'il ya un énorme effort pour obtenir des milliers de génomes d'insectes–le projet i5k. Je pense que c'est ce que je préfère savoir où nous en sommes aujourd'hui: nous pouvons examiner davantage d'espèces de façon plus détaillée que jamais nous avons devant. Non seulement pouvons-nous obtenir des détails intéressants du cadre de la séquence du génome, mais des informations intéressantes sur les espèces relations évolutives, et les caractéristiques de biologie intrigantes et nouvelles peuvent être explorées ainsi. Je veux dire–le génome humain et ses variations sont très–mais les monarques ont un compas solaire! C'est pas cool ça??

Et comme la plupart des documents du génome d'aujourd'hui, seule une fraction des données qui ont été obtenus dans le corps principal de l'article. L' “exemples convaincants” peut-être là. Mais de l' “12,699 prédites gènes codant des protéines” de l' Heliconius génome, seule une poignée est réellement abordé dans le texte. Quelques poignées plus en quelques chiffres. Le document Monarch tôt papillon livrés “un ensemble de 16,866 gènes codant des protéines” (et 10 suppléments au-delà du papier!). Mais pour accéder aux données vous-même et par rapport à vos gènes et des espèces d'intérêt dont vous avez besoin de se tourner vers les navigateurs qui accompagnent les documents.

Dans ce cas, vous avez deux choix pour les styles de votre navigateur: l' Heliconius Genome Consortium (auteurs de l'article) maintenir une installation Gbrowse à leur Butterflygenome.org site. Le groupe dispose d'un monarque à Gbrowse MonarchBase. En outre, les données à la fois est également désormais inclus dans Ensembl à compter de la Juillet 2012 communiqué 15. [Remarque: voir les détails administratifs dans les commentaires - mm]

Pour la pointe de cette semaine nous voler autour des GBrowsers spécifiques à l'espèce des ensembles recueillies à Ensembl. Il est bon d'avoir des sites spécifiques aux espèces pour la profondeur de l'information sur les projets et les ressources, mais il est également agréable d'avoir les outils supplémentaires et les expositions des navigateurs du génome grandes. Navigateurs communautaires peuvent offrir des données très actuelles et nouvelles qui pourraient ne pas encore être inclus dans les navigateurs super-, et les navigateurs super-peut offrir des outils supplémentaires et une infrastructure qui n'est pas disponible dans les navigateurs de la communauté. Votre meilleur pari est d'être conscient à la fois de, et de se familiariser avec les fonctionnalités principales du logiciel et leurs forces et faiblesses.

Les bugs sont à venir–et beaucoup d'entre eux. Soyez prêt. Et méfiez-vous: chercher le super-héros à droite

Remarque: J'ai été incapable de localiser le génome a été Mothra que tous les atwitter pour le couple des derniers jours.

Liens rapides:

Heliconius Gbrowse: http://butterflygenome.org/

MonarchBase: http://monarchbase.umassmed.edu/genome.html

Ensembl Métazoaires: http://metazoa.ensembl.org/

insectes et autres i5k Génome arthropodes Initiative de séquençage http://arthropodgenomes.org/wiki/i5K

Si vous êtes venu la recherche de photos de papillons, Essayez cette: http://www.butterfliesandmoths.org/ C'est aussi un site science citoyenne où vous pouvez soumettre vos propres observations–Je l'ai fait dans le passé.


Dasmahapatra, K.K., Walters, J.R., Briscoe, Après Jésus-Christ, Davey, J.W., Whibley, A., Nadeau, N.J., Zimin, A.V., Hughes, D.S.T., Ferguson, L.C., Martin, S.H. & (2012). Papillon génome révèle échange promiscuité des adaptations de mimétisme chez les espèces, Nature, DOI: 10.1038/nature11041

Zhan, S., Merlin, C., Boore, J. & Reppert, S. (2011). Les rendements de papillon de monarque Génome Regards sur longue distance de migration, Cellulaire, 147 (5) 1185. DOI: 10.1016/j.cell.2011.09.052

Stensmyr, M. & Hansson, B. (2011). Un génome Comme il convient à un monarque, Cellulaire, 147 (5) 972. DOI: 10.1016/j.cell.2011.11.009

Kersey, P.J., Staines, D.M., Lawson, D., Kulesha, E., Derwent, P., Humphrey, J.C., Hughes, D.S.T., Keenan, S., Kerhornou, A., Koscielny, G. & (2011). Génomes Ensembl: une ressource d'intégration pour l'échelle du génome des données de non-vertébrés espèces, Nucleic Acids Research, 40 (D1) D97. DOI: 10.1093/nar/gkr895

Conseils Vidéo de la semaine: Revue annuelle IV, 2e semestre

Comme vous le savez peut-être, nous avons fait ces vidéos conseils de-la-semaine pour QUATRE ans maintenant. Nous avons terminé autour de 200 introductions petite friandise à diverses ressources de l'an dernier, 2011 (oui, c'est 2012 aujourd'hui). À la fin de l'année, nous avons établi une sorte de tradition des fêtes: nous faisons un résumé post pour recueillir tous. Si vous avez manqué l'un d'eux, c'est un excellent moyen d'avoir un aperçu de ce que pourrait être utile à votre travail.

Vous pouvez voir ces dernières années’ conseils ici: 2008 Dans, 2008 II, 2009 Dans, 2009 II, 2010 Dans, 2010 II. L' résumé de la première moitié du 2011 est disponible depuis la semaine dernière.

Juillet 2011

Juillet 6: Prioriser les gènes en utilisant le Portail Priorisation Gene

Juillet 13: PolySearch, chercher de nombreuses bases à la fois

Juillet 20: Homme Hub visualisation Epigenomics

Juillet 27: Le nouveau portail SIB bioinformatique


Août 2011

Août 3: SNPexp, corrélation entre les SNP et l'expression du gène

Août 10: CompaGB pour comparer le logiciel de navigation génome

Août 17: Prenez, génomes comparant revisité

Août 24: Tirage de domaine pour les schémas de motifs rapides

Août 31: De UniProt à l'SBKB PSI et retour


Septembre 2011

Septembre 7: La génomique végétale comparative utilisant Plaza

Septembre 14: phiGENOME pour l'exploration du génome des bactériophages

Septembre 21: Obtenir des séquences flanquantes des emplacements génomiques

Septembre 28: Introduction au logiciel statistique R


Octobre 2011

Octobre 5: Ressources dôngs pour l'information de variation génétique et la drogue

Octobre 12: Moyeux Piste dans le navigateur du génome UCSC

Octobre 19: Mitochondrial transcriptome GBrowser

Octobre 26: Variation par rapport à des données Ensembl


Novembre 2011

Novembre 2: MizBee synténie navigateur

Novembre 9: La nouvelle base de données des variantes génomiques: DGV2

Novembre 16: MapMi, cartographie automatisée des microARN loci

Novembre 23: BioMart portail central de neuf

Novembre 30: Phosphida, une base de données de modification post-traductionnelle

Décembre 2011

Décembre 7: VarSifter, pour identifier les variations de la séquence de touches

Décembre 14: De grands changements aux ressources NCBI génome

Décembre 21: Lait de poule pour les fêtes (ou pour explorer les gènes orthologues)

Décembre 28: Conseils Vidéo de la semaine: Revue annuelle IV (premier semestre de 2011)

Annonce des matériaux Tutoriel Mise à jour: UniProt, Vue d'ensemble des Navigateurs Génome, et le Tour du Monde des Ressources

Comme beaucoup d'entre vous le savez, OpenHelix se spécialise à aider les gens accèdent et utilisent la mine d'or de données biosciences publics afin de poursuivre les recherches. Une des façons que nous faisons c'est par la création de matériaux pour former des gens – chercheurs, cliniciens, bibliothécaires, et quiconque s'intéresse à la science - sur où trouver les données qui les intéressent, et comment accéder aux données à particulier bases de données publiques et les référentiels de données. Nous avons plus de 100 tutoriels sur tout, de telles PubMed à l' Fonctionnelle Passerelle Glycomics (plus sur cela plus tard).

En plus de créer ces tutoriels, Nous passons aussi beaucoup de temps à les garder exacts et à jour. Ce peut être un défi, en particulier lorsque les lots de bases de données ou de ressources ont toutes les versions majeures à la même époque. Notre équipe évalue continuellement et met à jour nos matériaux et dans ce post, je suis heureux d'annoncer les mises à jour publiées récemment pour trois de nos tutoriels: UniProt, Le Tour du Monde, et aperçu des Navigateurs Génome.

Notre Introduction UniProt tutoriel montre aux utilisateurs comment: effectuer des recherches de texte à UniProt des informations de protéine d'intérêt, recherche avec des séquences comme point de départ, comprendre les différents types d' UniProt les dossiers, et de créer des alignements multiples séquences à partir d'enregistrements de protéines en utilisant Clustal.

Notre Vue d'ensemble des Navigateurs Génome présente aux utilisateurs d'introduire Ensembl, Map Viewer, UCSC Genome Browser, l' Génomes microbiens intégré (IMG) navigateur, et à le système logiciel GBrowse. Nous touchons aussi sur WebGBrowse, JBrowse, l' Integrative Genomics Viewer (IGV), l' ARGO Génome Browser, l' Navigateur intégré Génome (IGB)Troupeau, et le Circulaire du génome Viewer, ou CGView.

Notre Tour du monde des ressources en génomique est gratuit et accessible sans inscription. Il comprend une visite de ressources par exemple, organisé par catégories telles que Algorithmes et outils d'analyse, les ressources d'expression, navigateurs génome (deux Eucaryotes et Procaryotes / microbienne) , Ressources minières littérature et le texte, et des ressources axés sur nucléotides, protéines, voies, la maladie et de la variation. Cette discussion principale conduira ensuite à une discussion sur la façon de trouver des ressources avec le logiciel gratuit OpenHelix Resource Portal Search, suivie d'apprendre à utiliser les ressources avec des tutoriels OpenHelix, et une discussion des méthodes d'apprentissage supplémentaire sur les ressources.

Liens rapides:

OpenHelix introduction UniProt tutoriel Suite: http://www.openhelix.com/cgi/tutorialInfo.cgi?id=77

Aperçu OpenHelix à la suite tutoriel Génome Navigateurs: http://www.openhelix.com/cgi/tutorialInfo.cgi?id=65

Free Tour du Monde de la suite OpenHelix tutoriel Genomics Ressources: http://www.openhelix.com/cgi/tutorialInfo.cgi?id=119


Vous avez un génome + transcriptome. Maintenant ce?

J'ai été rattrapage sur certaines mailing list lecture la semaine dernière quand j'ai vu un élément exceptionnel viennent à travers le Liste de diffusion UCSC discussions. Quelqu'un qui est dans le processus d'obtention de la séquence du génome et du transcriptome pour un nouveau projet a demandé à la UCSC groupe pour obtenir des conseils sur quoi faire avec elle. C'est en fait une question que nous avons beaucoup entendu dans les ateliers–les gens envisagent des subventions pour ce genre de projet, ou ont des plans pour un séquenceur nouvelle marque qui est arrivé à leur site. Je pensais que d'autres personnes pourraient considérer ces recommandations utiles informations trop, donc je suis re-poster ici:


Chers UCSC Genome Bioinformatics,

Mon nom est Padraig Doolan et je suis le chef de programme de l'expression
Microarrays et bioinformatique de l'Institut national de systèmes cellulaires
Biotechnologie (NICB), L'Irlande (www.nicb.ie/). Nous sommes une financés par l'État
Basic Science Research Institute.

Notre petit groupe de bioinformatique sont juste de commencer le processus de
analysisng un nouveau génome (et du transcriptome) pour le hamster chinois
Ovaire (D') lignée cellulaire qui a été récemment publiée (Xu et al., L'
séquence génomique de l'ovaire de hamster chinois (D')-K1 lignée cellulaire. Nat
Biotechnol. 2011 Juillet 31;29(8):735-41. doi: 10.1038/nbt.1932.) par un autre
groupe. Nous faisons beaucoup de travail fonctionnel sur cet organisme et nous sommes à la recherche
pour certains de bonnes lignes directrices (articles publiés, ressources en ligne, etc)
qui pourraient nous aider à tracer des objectifs réalisables à l'égard des
in silico de caractérisation de ce génome.

Par exemple, après la séquence est publiée, ce sont la prochaine étape(avec)
en fournissant des informations pertinentes? Listes de SNP? Prédites
protéome / sécrétome / nombre de types de protéine prédite (g.
kinases / g couplé / nucléaire / membrane localisée), etc?

Je cherche à travers le Projet Génome la liste des publications de l'homme
d'inspiration, mais ce type de sortie d'analyse est relativement nouvelle pour
notre groupe (nous sommes généralement plus axé sur la médecine translationnelle). Est
Y at-il des lignes directrices recommandées votre institut peut proposer pour
en suivant les traces de l'HGP dans l'analyse in silico de nouveaux
génomes / transcriptomes? Votre organisation peut suggérer un couple de clés
papiers ou une stratégie de bonne analyse?

Padraig Doolan

UCSC tente généralement de limiter leur discussion aux spécificités des données et des logiciels sur leur site–parce que c'est leur mission, bien sûr, et parce qu'ils ne peuvent pas être toutes les choses à tout le monde en génomique–ils n'auraient pas le temps pour leur propre travail. Mais ce fut un cas particulier, et ils ont réuni une réponse très cool pour Padraig et son équipe.

Le document CHO que les références Padraig je m'étais souvenu avoir vu à la fois, mais je n'ai pas étudier plus avant. Alors je suis allé regarder pour voir si le groupe avait mis en place un navigateur, et j'ai été incapable de trouver un. J'ai trouvé un Assemblée avant-première à Ensembl. Mais je peux comprendre pourquoi un groupe local aurait besoin de plus de détails dans leur propre collection et pourquoi ils avaient envie de faire certaines choses eux-mêmes trop. Et peut-être un moyen facile de prolonger la séquence de référence avec leurs propres données plutôt que d'attendre une équipe navigateur grands pour y accéder.


Salut Padraig,

J'ai interrogé nos ingénieurs et a obtenu cette liste de recommandations pour vous:

1) Aligner tous les ARNm de GenBank de hamster chinois
2) Aligner l'ensemble de leurs propres données du transcriptome
3) Aligner l'ensemble des ESTs GenBank du hamster chinois
4) Cartographie des protéines humaines comme provenant soit l'ensemble des gènes ou de UCSC RefSeq
5) Cartographie protéines de souris ou de UCSC RefSeq
6) Faire un alignement de multiples espèces génome avec la souris, rat, lapin,
chien, éléphant, opossum, ornithorynque, le poulet. Ne alignements ainsi.
7) Mine la génomique et transcriptomique lit lit pour SNP. Soyez prudents
de ne pas appeler les régions récemment dupliqué et seulement légèrement divergé
divergences légères que si SNP.
\8) Exécuter répétez plusieurs trouveurs.
9) Exécutez un détecteur îlots CpG.
10) Exécuter un programme génétique, comme une bonne prédiction de Augustus.
11) Essayez de trouver un groupe de laboratoire humide prêt à faire certains tests DNAse….

J'espère que cela est utile. Bonne chance avec votre travail!

Brooke Rhead
UCSC Genome Bioinformatics Group


Je pensais que cela était à peu près la liste des choses que je veux voir avec un nouveau génome sur un nouveau navigateur. Et la raison pour laquelle je pense que cela est en particulier essentiel est parce qu'il ne va être de plus en plus de cette. Avec les nouvelles technologies de séquençage et le déluge de données, plusieurs groupes vont se retrouver avec des données de séquence importante pour leurs laboratoires ou leurs chercheurs locaux. Pourrait être patients, pourraient être des organismes modèles, pourraient être des espèces. Comment procéder à ces données est importante.

Que feriez-vous? Avez-vous d'autres recommandations pour les groupes confrontés à cette?

Aussi aujourd'hui je vient de se passer de noter que Jonathan Eisen liée à un document qui pourrait offrir des conseils aux personnes atteintes de nouveaux génomes: Document important sur les normes d'annotation des génomes bactériens / archael — prépare pour le “déluge de données”. Je pense que c'est une grande, et une discussion cruciale et la sensibilisation à avoir en ce moment. Pour exactement les mêmes raisons–des gens nouveaux vont être confrontés à l'assemblage et l'annotation des génomes fonctionnalités nouvelles à des tarifs incroyables, et nous avons appris certaines choses sur les meilleures pratiques et les besoins. Bien sûr,, les choses vont évoluer–mais quelques bons points de départ sont des conseils vraiment utiles.

EDIT: juste obtenu une note de chercheurs du papier CHO, et ils m'ont point à ce site pour certains outils: http://www.chogenome.org/


Xu, X., Nagarajan, H., Lewis, N., Pan, S., Cai, Z., Liu, X., Chen, W., Xie, M., Wang, W., Hammond, S., Andersen, M., Neff, N., Passarelli, B., Koh, W., Fan, H., Wang, J., Gui, Y., Lee, K., Betenbaugh, M., Trembler, S., Famille, I., Palsson, B., & Wang, J. (2011). La séquence génomique de l'ovaire de hamster chinois (D')-K1 lignée cellulaire Nature Biotechnology, 29 (8), 735-741 DOI: 10.1038/nbt.1932

Klimke, W., O'Donovan, C., Blanc, O., Les lacunes, J., Clark, K., Fedorov, B., Mizrachi, I., Pruitt, K., & Tatusova, T. (2011). Résoudre le problème: Normes annotation du génome avant le déluge de données Normes en sciences génomiques, 5 (1), 168-193 DOI: 10.4056/sigs.2084864