UCSC Genome Bioinformatics

Astuce Vidéo de la semaine: UCSC Genome Browser Exon-only Mode

L'équipe UCSC Genome Browser continues to update their resources and offer new ways to find and visualize features of interest to researchers. One of the newer features is the “multi-region” option. When it was first launched, I did a tip on how to use that, with some of the things that I noticed while I was testing it pre-launch. But now the folks at UCSC have their own video on the exon-only display that you might also find useful.

One of the things that is illustrated here is how the exon-only mode is handy to enhance your exploration of RNA-Seq data. It also uses a great ENCODE data set as an example, and if you haven’t been using that collection it’s a good reminder of the kinds of things you can find in that resource still. And this extensive data set shows how much easier it is to look at different isoforms in the data in this new exon-only mode.

So have a look at this display option if you haven’t before, especially how it can help you to see transcript differences. If you aren’t familiar with the Encoder des données that’s being used, you can also see our training on that which will help you to understand how to use that data and the filtering features that are also used in this video.

Note spéciale: I have updated the UCSC Intro slides to include the new Gateway strategies as well. So download those slides for the latest look.


Divulgation: UCSC Genome Browser tutorials are freely available because UCSC commanditaires us to do training and outreach on the UCSC Genome Browser.

Liens rapides:

UCSC Genome Browser: http://genome.ucsc.edu

UCSC Genome Browser training materials: http://openhelix.com/ucsc

ENCODE: http://www.openhelix.com/ENCODE2


Éperon, M., Direction, A., Rosenbloom, K., Raney, B., Sponsors, B., Nejad, P., Lee, B., Apprises, K., Karolchik, D., Hinrichs, A., Heitner, S., Dur, R., Haeussler, M., Guruvadoo, L., Fujita, P., Eisenhart, C., Diekhans, M., Clawson, H., Casper, J., Barber, G., Haussler, D., Kuhn, R., & Kent, Dans. (2016). La base de données UCSC Genome Browser: 2016 mise à jour Nucleic Acids Research, 44 (D1) DOI: 10.1093/nar/gkv1275

Le consortium du projet ENCODE (2012). Une encyclopédie intégrée des éléments d'ADN dans le génome humain Nature, 489 (7414), 57-74 DOI: 10.1038/nature11247


UCSC Genome Bioinformatics

Astuce Vidéo de la semaine: UCSC features for ENCODE data utilization

UCSC Genome BioinformaticsAs noted in L'astuce de la semaine dernière about the ENCODE DCC at Stanford, there was a workshop recently for the ENCODE projet de. There were a lot of folks speaking and a big room full of attendees. You should check out the full agenda and the playlist at the NHGRI site for all the videos, diapositives, and handouts: ENCODE 2015: Research Applications and Users Meeting.

This week I’m highlighting another video from this event. In this one, Pauline Fujita from the UCSC Genome Browser covers ways to work with ENCODE data in their browser.

Some of the talk includes intro stuff for brand new users, because there were certainly some in this workshop. If you are new to the tools, trop, you can also see our free tutorial suites (ci-dessous). Pauline also quickly highlights their Genome Browser in a Box virtual machine option for folks who have privacy sensitive or protected data, but only briefly. If you want some more info on that, consultez nos Tip of the Week on GBIB.

But soon she covered more detail on features like track hubs and how to use those (if you wanted to jump to that part, it begins around 20min). That extra search for items in the Track Hub is really good to know about. file_formats_helpAussi, there’s some guidance here on the types of file formats that you may want to use to structure your data. Also why you want BED vs Wiggle, par exemple,. For the part that addresses these formats, jump to about 33min.

Towards the end there’s coverage of the Data Integrator. The idea with this feature is that maybe you’ve got some information on a region and you have this structured as a BED file–or a number of regions–and you want to find out what else is going on in those regions. The Data Integrator can help you with that by finding overlaps among different tracks of data (around 45min). The Variant Annotation Integrator does kind of a similar thing, but for VCF files with variation information (~48min). A smidge more guidance on track hubs comes in at 50min.

In our paper for Current Protocols (which is now in PubMedCentral), we talk a bit about the hubs structure too. So if it runs too quickly at the end, our paper shows some of that detail pretty much the same way. That might help you to think about how to structure them if the concept is new to you. But if you are ready to dive in, there’s a paper specifically about hubs. And there’s also more background on the browser’s tools and in the NAR database issue papers. There’s a lot of ENCODE data available to mine, and I really hope more folks can use the tools to find new insights into genomic regions they are interested in.

Liens rapides:

Track hubs: http://genome.ucsc.edu/cgi-bin/hgHubConnect

Data Integrator: http://genome.ucsc.edu/cgi-bin/hgIntegrator

Variant Annotation Integrator: http://genome.ucsc.edu/cgi-bin/hgVai

ENCODE features at UCSC: http://genome.ucsc.edu/ENCODE

UCSC tutorial suites:

UCSC Intro Tutorial suites (vidéo, with our free slides + exercices): http://www.openhelix.com/ucscintro

UCSC Advanced Tutorial suites (vidéo, diapositives, exercices): http://www.openhelix.com/ucscadv


Mangan ME, Williams JM, RM Kuhn, & Lathe WC (2014). Le navigateur de génome UCSC: Ce que tout biologiste moléculaire devrait savoir Current Protocols in Molecular Biology., 107 (19.9), 199-199 DOI: 10.1002/0471142727.mb1909s107

Rosenbloom, K., Armstrong, J., Barber, G., Casper, J., Clawson, H., Diekhans, M., Dreszer, T., Fujita, P., Guruvadoo, L., Haeussler, M., Dur, R., Heitner, S., Hickey, G., Hinrichs, A., Hubley, R., Karolchik, D., Apprises, K., Lee, B., Li, C., Miga, K., Nguyen, N., Sponsors, B., Raney, B., Smit, A., Éperon, M., Direction, A., Haussler, D., Kuhn, R., & Kent, Dans. (2014). La base de données UCSC Genome Browser: 2015 mise à jour Nucleic Acids Research, 43 (D1) DOI: 10.1093/nar/gku1177

Raney, B., Dreszer, T., Barber, G., Clawson, H., Fujita, P., Wang, T., Nguyen, N., Sponsors, B., Direction, A., Karolchik, D., & Kent, Dans. (2013). données moyeux de piste permettent la visualisation des annotations de l'ensemble du génome définis par l'utilisateur dans le navigateur UCSC Genome Bio-informatique, 30 (7), 1003-1005 DOI: 10.1093/bioinformatics/btt637

Divulgation: UCSC Genome Browser tutorials are freely available because UCSC commanditaires us to do training and outreach on the UCSC Genome Browser.


Astuce Vidéo de la semaine: ENCODE Centre de coordination des données, phase 3


Image via: Un Guide de l'utilisateur à l'Encyclopedia of DNA Elements (ENCODE). doi:10.1371/journal.pbio.1001046.g001

L' ENCODE project began many years ago, with a pilot phase, that examined just 1% du génome humain. But this initial exploration helped the consortium participants to iron out some of the directions for later stages–including focusing on specific cell lines, techniques, and technologies in Phase 2. There have been a number of publications that came out from consortium members, but in addition to the participant’s papers, a lot of other folks have mined this data for various investigations as well. There’s still plenty of opportunity for discovery. Some people may not realize that there’s an also ENCODE phase 3 en cours.

When we had a contract with the folks at UCSC Genome Browser for outreach on ENCODE, we developed materials to help people explore the data. But we hadn’t delved into it much since phase 3 began. But the other day I got a note from my NHGRI YouTube subscription (GenomeTV) that a whole workshop of ENCODE phase 3 information had been made available. So I wanted to have a look.

There is a series of video segments that correspond to this agenda from the ENCODE workshop. I’ll be highlighting one of them here, the one that introduces the features of the Phase 3 Data Coordination Center at Stanford now. But there may be others that you want to examine for your research goals as well. Another way to work through the different segments is available from the NHGRI page here: http://www.genome.gov/27561910 That page offers the slides, documents, and exercises too.

The video is longer than our typical tips, but it’s worth seeing for the context and framework details. There’s also a section on searching and filtering, which explains how to locate precisely the things you want to find. There’s a helpful and funny analogy to searching for shoes as you would at Zappos. I’ve used the Zappos tool exactly that way, and I also like it very much. If you want more details on how their ontology structure helps them to accomplish this, check out the paper linked below. Also in the video, there’s a piece about how the metadata is structured, et ce que vous pouvez vous attendre à y trouver.

There’s also a part about how to visualize the things you find. You end up loading them as a UCSC Genome Browser track hub, which is integrated with all they other data at UCSC. There’s another video with Pauline Fujita on the hubs which I’ll address separately later.

L' playlist for the whole meeting is here. I won’t be highlighting all of them, but I may select more of them for future tips.

Quick link:

ENCODE portail: https://www.encodeproject.org/


Malladi, V., Erickson, D., Podduturi, N., Rowe, L., Chan, E., Davidson, J., Hitz, B., Ho, M., Lee, B., Miyasato, S., Chevreuil, G., Simison, M., Sloan, C., Strattan, J., Tanaka, F., Kent, W., Cerises, J., & Hong, E. (2015). Ontology application and use at the ENCODE DCC Base de données, 2015 DOI: 10.1093/database/bav010

ENCODE Consortium Project (2012). Une encyclopédie intégrée des éléments d'ADN dans le génome humain Nature, 489 (7414), 57-74 DOI: 10.1038/nature11247

ENCODE Consortium Project. (2011). Un Guide de l'utilisateur à l'Encyclopedia of DNA Elements (ENCODE) PLoS Biology, 9 (4) DOI: 10.1371/journal.pbio.1001046

ENCODE Consortium Project (2004). Le ENCODE (Encyclopedia of DNA Elements) Projet Science, 306 (5696), 636-640 DOI: 10.1126/science.1105136

Astuce Vidéo de la semaine: Nouveau UCSC “empilé” manœuvre vue de la piste

Vidéo L'astuce de cette semaine vous montre une nouvelle façon de voir les données de la piste multiWig au navigateur UCSC Genome. Une nouvelle option a été récemment publié (voir 06 Mai 2014), une “empilé” Vue, et c'est un moyen pratique de consulter les données d'une nouvelle stratégie. Mais je vais vous avouer qu'il m'a fallu un peu de temps de travailler avec elle pour comprendre les détails. Donc, dans ce bout J'espère que vous verrez ce que la nouvelle offre de visualisation.

Je ne vais pas entrer dans le fond sur les nombreux types de pistes d'annotation disponibles–si vous avez besoin d'être présenté à l'idée des vues de base de la voie, commencer avec notre tutoriel d'introduction qui touche sur les différents types de représentations graphiques. titres personnalisés sont abordés dans l' tutoriel avancée. Pour obtenir des conseils spécifiquement la façon de créer les différents types de pistes, consultez la documentation UCSC. Le type de piste que j'illustre dans la vidéo d'aujourd'hui, un trac MultiWigk, a sa propre section là-bas aussi. Fondamentalement, si vous êtes complètement nouveau à cette, l' “remuer” le style est une façon de montrer un affichage de l'histogramme sur une région. MultiWig vous permet de superposer plusieurs de ces histogrammes dans un espace. Dans l'exemple que je vais vous montrer ici, les résultats de la recherche à 7 différentes lignées cellulaires sont présentés pour certains signaux d'histone marque (Piste couches H3K27Ac).

Annotation track cell lines

des lignées cellulaires de suivi d'annotation

Quand j'ai vu l'annonce, J'ai pensé que c'était un bon moyen de montrer toutes les données simultanément. Quand nous faisons des ateliers de base, nous n'avons pas toujours le temps d'aller dans les détails de cette vue, même si nous faisons l'explorer dans le matériau ENCODE, parce que la piste que j'utilise est l'un des ensembles de données ENCODE. Je vais utiliser la même voie dans la même région que l'annonce, qui est représentée ici:

stack announcementMais quand j'ai regardé cette, Je n'étais pas sûr si le pic–mettre l'accent sur la crête rose qui représente la lignée de cellules NHLF–était destinée à couvrir l'ensemble de la zone sous ou pas. Ce que je tentais de comprendre est essentiellement ce (une représentation graphique de mon processus de pensée suit):


En essayant les différents styles j'étais assez sûr que j'ai eu l'idée de ce qui a été vraiment être montré, mais j'ai confirmé que l'un des développeurs de piste. La valeur n'est que le segment de bande rose, pas l'ensemble de la zone en dessous. Et Matthieu a également noté pour moi qu'ils trient les pistes dans l'ordre alphabétique inverse (si NHLF est le plus haut dans la pile). C'est un aspect que je n'avais pas encore réalisé. Ils ne sont pas le tri sur la base des valeurs à cet endroit. Cela a un sens, bien sûr, mais il n'était pas évident pour moi au début.

J'aime cette option très–mais j'ai pensé, si je devais faire un peu de noodling sur ce qu'il fait d'autres destinés pourrait avoir les mêmes questions.

Dans la vidéo, je vais vous montrer comment ce segment regarde avec les différents “Méthode de superposition” paramètres sur cette page de la piste. Je vais être à la recherche dans la zone de SOD1, comme l'exemple d'annonce. J'ai modifié quelques autres paramètres par défaut de sorte qu'il serait plus facile de voir sur la vidéo (voir flèches pour mes changements). Mais j'espère que ce véhicule les options que vous avez maintenant d'examiner ce type de données de la piste efficace.

Track settings for videoVoici donc la vidéo avec la SOD1 5′ dans la région du centre, en utilisant les 4 différents choix de méthode de recouvrement, illustrant les données d'histone marque dans le 7 lignées cellulaires. Je ne vais pas dans les détails des données ici, mais je vais vous indiquer une référence associée à ce travail pour en savoir plus sur la façon dont c'est fait–voir le document de laboratoire Bernstein ci-dessous. Je voulais juste montrer ce nouveau type d'options d'affichage, qui sera disponible sur les pistes agitées. Certains titres auront trop de données pour un type ou d'un autre, ou sera plus clair avec un ou un autre style. Mais maintenant vous avez une façon de le considérer.

Liens rapides:

UCSC Genome Browser: genome.ucsc.edu

UCSC Intro tutoriel: http://openhelix.com/ucscintro

Tutoriel UCSC avancée: http://openhelix.com/ucscadv

Ces tutoriels sont disponibles gratuitement parce UCSC nous parraine pour faire de la formation et de sensibilisation sur le navigateur UCSC Genome.


WJ Kent, Direction A. S., Barber G., Hinrichs A.Ş. & Karolchik D. (2010). Bigwig et BigBed: permettant la navigation de grands ensembles de données distribuées., Bio-informatique (Oxford, Angleterre), PMID:

Karolchik D., Barber G.P., J. Casper, Clawson H., Cline M.S., Diekhans M., Dreszer T.R., Fujita P.A., Guruvadoo L. & Haeussler M. & (2013). La base de données UCSC Genome Browser: 2014 mettre à jour., Nucleic Acids Research, PMID:

Ram O., Goren A., Amit I., Shoresh N., Yosef N., J. Ernst, Kellis, M., Gymrek M., ISSNER R. & Coyne M. & le. Structuration combinatoire des régulateurs de chromatine découvert par l'analyse de l'emplacement du génome dans les cellules humaines., Cellulaire, PMID:

Le consortium du projet ENCODE, Bernstein B.E., Birney E., Dunham I., E.D. vert, Gunter C. & Snyder M. et al. (2012). Une encyclopédie intégrée des éléments d'ADN dans le génome humain., Nature, 489 PMID:

Voir aussi le numéro spécial sur la nature des données ENCODE, en particulier l'accessibilité de la chromatine et la modification des histones sous-ensemble (la section 02): http://www.nature.com/encode/

Conseils Vidéo de la semaine, Revue annuelle 2013 (une partie 1)

Comme vous le savez peut-être, nous avons fait ces vidéos conseils de-la-semaine pour SiX ans maintenant. Nous avons terminé ou recueillis autour 300 introductions petite friandise à diverses ressources par le biais de la dernière année, 2013. Au début, nous avions à faire tous nos propres intros vidéo, mais comme la technologie de film est devenu plus accessible et plusieurs équipes ont fait leur propre, nous avons réussi à trouver beaucoup plus qui ont été effectuées par les fournisseurs de ressources eux-mêmes. Nous avons donc commencé à recueillir ceux aussi bien. À la fin de l'année, nous avons établi une sorte de tradition des fêtes: nous faisons un résumé post pour recueillir tous. Si vous avez manqué l'un d'eux, c'est un excellent moyen d'avoir un aperçu de ce que pourrait être utile à votre travail.

Vous pouvez voir les conseils années passées ici: 2008 Dans, 2008 II, 2009 Dans, 2009 II, 2010 Dans, 2010 II, 2011 Dans, 2011 II, 2012 Dans, 2012 II, 2013 II (la semaine prochaine).

Revue annuelle VI:

Janvier 2013:
Janvier 2: Revue annuelle V Part Deux
Janvier 9: Le nouveau et amélioré OMIM ®
Janvier 16: DB InSilico
Janvier 23: ZooBank et la nomenclature des espèces
Janvier 30: ScienceGameCenter # EDTECH

Février 2013:
Février 6: MotifLab plan de travail pour l'analyse TFBS
Février 13: UCSC Genome Browser restriction enzyme affichage
Février 20: Coder les données à UCSC (rappel)
Février 27: NetGestalt

Mars 2013:
Mars 6: NCBI Workbench génomique
Mars 13: FlyBase
Mars 20: figshare + GenoCAD = sensibilisation
Mars 27: Portail enzyme et la conception centrée utilisateur

Avril 2013:
Avril 3: Phytozome et le génome Peach
Avril 10: Introduction Cheminformatics
Avril 17: Le partage de données H7N9 à GISAID.org avec EpiFlu ™
Avril 24: Cancer Atlas feuille de route

Mai 2013:
Mai 1: Mon Cancer Genome
Mai 8: Transfac (et HGMD, Protéome, etc)
Mai 15: Base de données de recherche sur l'influenza (IRD)
Mai 22: Base de données des Canaries pour sentinelles de la santé humaine
Mai 29: QIIME pour Insights quantitatives en écologie microbienne

Juin 2013:
Juin 5: Prezi et d'autres méthodes de présentation non linéaires
Juin 12: Triovis pour les ensembles de données sur le génome de la famille
Juin 19: ENCODE outil de signification ChIP-Seq
Juin 26: Immunité innée, Biologie des systèmes de la réponse immunitaire innée

VideoTip de la semaine: ENCODE @ Ensembl

Nous avons beaucoup de tutoriels (2 en fait,, ENCODE Fondations & ENCODE @ UCSC), Conseils et informations sur ENCODE. Nous avons aussi beaucoup de tutoriels (nouveau 2, Ensembl et Ensembl héritage- sur les anciennes versions ), Conseils et informations sur Ensembl, la base de données et navigateur à EBI.

Maintenant, voici une astuce de la semaine à la fois sur Ensembl et encoder. C'est l'un des plus récents ajouts à Les tutoriels vidéo de ENSEMBL. Cette vidéo se penche sur la façon d'identifier des séquences qui peuvent être impliqués dans la régulation génique. La plupart de ces données à Ensembl est basée sur des données ENCODE. Cela est d'utiliser le “Matrice,” un moyen de sélectionner les données de règlement vous avez besoin basé sur des types de cellules et de TF. A la fin de l' 8 vidéo d'une minute, ils discutent un peu plus sur la façon d'obtenir tout encoder des données.

Alors, maintenant vous avez une mine d'informations ici à OpenHelix par nos tutoriels et notre blog sur ENCODE et ENSEMBL.

Liens rapides:

ENCODE: http://encodeproject.org/ENCODE/
ENCODE @ UCSC: http://genome.ucsc.edu/ENCODE/
Ensembl: http://www.ensembl.org
ENCODE Tutoriels: http://openhelix.com/encode
Tutoriels ENSEMBL: http://openhelix.com/cgi/tutorialInfo.cgi?id=95

Astuce Vidéo de la semaine: ENCODE outil de signification ChIP-Seq

Nous avons fait des formations et des ateliers sur la UCSC Genome Browser pour 10 ans maintenant. C'est un outil formidable qui doit être un élément fondamental dans votre boîte à outils de la génomique. Mais–il peut y avoir des moments où vous voulez examiner quelques-unes des données que vous pouvez y trouver une autre façon, avec un accent ou un accent différent. Il pourrait être possible de concevoir quelque intelligent Table Browser requêtes que vous obtenez ce que vous voulez. Parfois, si, quelqu'un d'autre a créé un moyen pour vous d'interroger les données sous-jacentes pour un sujet qui pourrait être utile aussi. Et la pointe d'aujourd'hui de la semaine est exactement ce genre d'outil. Une interface web pour interroger les données ENCODE qui réside dans le UCSC Genome Browser, avec un accent sur la recherche de facteurs de transcription avec la liaison enrichi dans une région que vous pourriez être intéressé à explorer. L'astuce vidéo d'aujourd'hui est pour le ENCODE outil de signification ChIP-Seq.

Il ya une tonne de bonnes données qui se jetait dans la UCSC Genome Browser dans le cadre de la ENCODE projet de. Il va fournir des années de l'exploitation minière pour les biologistes. Ce qui serait bien c'est que les chercheurs biomédicaux qui ont un intérêt dans les gènes spécifiques–ou ensembles de gènes–de prendre un coup d'oeil aux données ENCODE pour voir s'ils peuvent dénicher quelques informations utiles sur la régulation de ces gènes ou des listes de gènes. Vous pouvez utiliser l'outil de signification ChIP-Seq pour passer au crible les données.

La vidéo que l'équipe Butte laboratoire a fait est très agréable. Des indications très précises sur la façon d'utiliser leur outil–que choisir des options de menu, quels sont les choix, et à quoi s'attendre à partir des résultats. Voici leur vidéo:

Bien sûr, vous devriez lire leur article sur cet outil pour le fond vous avez besoin (lien ci-dessous), et les références qui seront également vous aider à comprendre ce que cet outil offre. Vous devriez également lire sur les encoder des données associées. Le complément avec le papier est aussi bien écrit dans un langage clair pour vous aider à comprendre les caractéristiques.

Une des choses que j'étais curieux de savoir est de savoir si cela pourrait être étendue aux données de la souris trop. Une chose que les gens râlent pour moi, c'est que ENCODE est des données de lignées cellulaires, et les données de tissus serait vraiment grand. Mais j'ai vu discussion sur le blog de Stephen Turner (lire les commentaires) sur l'accent mis sur l'homme pour l'instant. Il a également été question de l' Outil CsCAN, si, qui ne couvre les données de la souris. Donc, si c'est un outil que vous êtes intéressé par, vous voudrez peut-être explorer CsCAN trop.

Pointe du chapeau à Stephen Turner pour la sensibilisation:

Liens rapides:

ENCODE outil de signification ChIP-Seq: http://encodeqt.stanford.edu/

CsCAN: http://www.beaconlab.it/cscan


Auerbach, R., Chen, B., & Butte, Une. (2013). Les gènes liés à la fonction: Identifier les facteurs de transcription enrichis en utilisant l'encodage outil de signification ChIP-Seq Bio-informatique DOI: 10.1093/bioinformatics/btt316