El equipo de UCSC Genome Browser continues to update their resources and offer new ways to find and visualize features of interest to researchers. One of the newer features is the “multi-region” option. When it was first launched, I did a tip on how to use that, with some of the things that I noticed while I was testing it pre-launch. But now the folks at UCSC have their own video on the exon-only display that you might also find useful.

One of the things that is illustrated here is how the exon-only mode is handy to enhance your exploration of RNA-Seq data. It also uses a great CODIFICAR data set as an example, and if you haven’t been using that collection it’s a good reminder of the kinds of things you can find in that resource still. And this extensive data set shows how much easier it is to look at different isoforms in the data in this new exon-only mode.

So have a look at this display option if you haven’t before, especially how it can help you to see transcript differences. Si usted no está familiarizado con el Codifica los datos that’s being used, you can also see our training on that which will help you to understand how to use that data and the filtering features that are also used in this video.

Nota especial: I have updated the UCSC Intro slides to include the new Gateway strategies as well. So download those slides for the latest look.


UCSC Genome Browser tutorials are freely available because UCSC patrocinadores us to do training and outreach on the UCSC Genome Browser.

Viernes SNPpets

This week’s SNPpets include a slew of new tools, including RNA secondary structure, anotación del genoma, and a new platform for mitochondrial diseases. It includes some updates to old favorites, como GeneCards and a new internacionales mina for Xenopus. A call for help reviewing plugins at BioGPS. Two very interesting items on citations for software tools–one about software citations, and one way to publish and get properly cited. Cracking the walnut genome. And an irresistable look at cheetah genomics. Y más.

SNPpets_2Bienvenido a nuestra colección de enlaces Viernes función: SNPpets. Durante la semana nos encontramos con un montón de enlaces y lecturas que nos parecen interesantes, pero no llegar a una entrada de blog. Aquí están para su disfrute…

UCSC Genome Bioinformatics

Vídeo Consejo de la semana: UCSC features for ENCODE data utilization

UCSC Genome BioinformaticsAs noted in punta de la semana pasada about the ENCODE DCC at Stanford, there was a workshop recently for the CODIFICAR proyecto. There were a lot of folks speaking and a big room full of attendees. You should check out the full agenda and the playlist at the NHGRI site for all the videos, diapositivas, and handouts: CODIFICAR 2015: Research Applications and Users Meeting.

This week I’m highlighting another video from this event. In this one, Pauline Fujita from the UCSC Genome Browser covers ways to work with ENCODE data in their browser.

Some of the talk includes intro stuff for brand new users, because there were certainly some in this workshop. If you are new to the tools, también, you can also see our free tutorial suites (a continuación). Pauline also quickly highlights their Genome Browser in a Box virtual machine option for folks who have privacy sensitive or protected data, but only briefly. If you want some more info on that, visita nuestra Tip of the Week on GBIB.

But soon she covered more detail on features like track hubs and how to use those (if you wanted to jump to that part, it begins around 20min). That extra search for items in the Track Hub is really good to know about. file_formats_helpTambién, there’s some guidance here on the types of file formats that you may want to use to structure your data. Also why you want BED vs Wiggle, por ejemplo. For the part that addresses these formats, jump to about 33min.

Towards the end there’s coverage of the Data Integrator. The idea with this feature is that maybe you’ve got some information on a region and you have this structured as a BED file–or a number of regions–and you want to find out what else is going on in those regions. The Data Integrator can help you with that by finding overlaps among different tracks of data (around 45min). The Variant Annotation Integrator does kind of a similar thing, but for VCF files with variation information (~48min). A smidge more guidance on track hubs comes in at 50min.

In our paper for Current Protocols (which is now in PubMedCentral), we talk a bit about the hubs structure too. So if it runs too quickly at the end, our paper shows some of that detail pretty much the same way. That might help you to think about how to structure them if the concept is new to you. But if you are ready to dive in, there’s a paper specifically about hubs. And there’s also more background on the browser’s tools and in the NAR database issue papers. There’s a lot of ENCODE data available to mine, and I really hope more folks can use the tools to find new insights into genomic regions they are interested in.

Vídeo Consejo de la semana: ENCODE Centro de Coordinación de Datos, fase 3


Image via: Guía del usuario de la Enciclopedia de Elementos de ADN (CODIFICAR). DOI:10.1371/journal.pbio.1001046.g001

La CODIFICAR project began many years ago, with a pilot phase, that examined just 1% del genoma humano. But this initial exploration helped the consortium participants to iron out some of the directions for later stages–including focusing on specific cell lines, técnicas, and technologies in Phase 2. There have been a number of publications that came out from consortium members, but in addition to the participant’s papers, a lot of other folks have mined this data for various investigations as well. There’s still plenty of opportunity for discovery. Some people may not realize that there’s an also ENCODE phase 3 marcha.

When we had a contract with the folks at UCSC Genome Browser for outreach on ENCODE, we developed materials to help people explore the data. But we hadn’t delved into it much since phase 3 began. But the other day I got a note from my NHGRI YouTube subscription (GenomeTV) that a whole workshop of ENCODE phase 3 information had been made available. So I wanted to have a look.

There is a series of video segments that correspond to this agenda from the ENCODE workshop. I’ll be highlighting one of them here, the one that introduces the features of the Phase 3 Data Coordination Center at Stanford now. But there may be others that you want to examine for your research goals as well. Another way to work through the different segments is available from the NHGRI page here: That page offers the slides, folletos, and exercises too.

The video is longer than our typical tips, but it’s worth seeing for the context and framework details. There’s also a section on searching and filtering, which explains how to locate precisely the things you want to find. There’s a helpful and funny analogy to searching for shoes as you would at Zappos. I’ve used the Zappos tool exactly that way, and I also like it very much. If you want more details on how their ontology structure helps them to accomplish this, check out the paper linked below. Also in the video, there’s a piece about how the metadata is structured, y lo que puede esperar encontrar allí.

There’s also a part about how to visualize the things you find. You end up loading them as a UCSC Genome Browser track hub, which is integrated with all they other data at UCSC. There’s another video with Pauline Fujita on the hubs which I’ll address separately later.

La playlist for the whole meeting is here. I won’t be highlighting all of them, but I may select more of them for future tips.

Viernes SNPpets

This week’s SNPpets include definition confusion in “epigenética”, two HIPPIES, a new mouse ENCODE browser, figuras vivas (new ways to interact with published data), and new features at the Drug-Gene Interaction database (DGIdb). Oh–and the woolly mammoth genome.

Bienvenido a nuestra colección de enlaces Viernes función: SNPpets. Durante la semana nos encontramos con un montón de enlaces y lecturas que nos parecen interesantes, pero no llegar a una entrada de blog. Aquí están para su disfrute…


Nota: Because of the way Twitter has re-vamped their retweet software, it’s harder to get just the text versions of tweets. But embedded tweets are huge. We are going to try out this new format, but are not sure it will work for searching and indexing the way we like. We may revisit the old format after testing this out a bit.

Viernes SNPpets

Bienvenido a nuestra colección de enlaces Viernes función: SNPpets. Durante la semana nos encontramos con un montón de enlaces y lecturas que nos parecen interesantes, pero no llegar a una entrada de blog. Aquí están para su disfrute…


Vídeo Consejo de la semana: Nueva UCSC “apilado” meneo vista de pista

Punta de vídeo de esta semana te muestra una nueva manera de mirar a los datos de la pista multiWig en la UCSC Genome Browser. A nueva opción ha sido publicado recientemente (ver 06 De mayo 2014), una “apilado” punto de vista, y es una manera práctica de mirar los datos con una nueva estrategia. Pero voy a admitir que me tomó un poco de tiempo de trabajar con él para entender los detalles. Así que en este consejo Espero verás ofertas lo que la nueva visualización.

No voy a entrar en el fondo de los muchos tipos de pistas de anotación disponibles–si tiene que ser introducido a la idea de los puntos de vista básicos de la pista, comenzar con nuestra introducción tutorial que afecta a los diferentes tipos de representaciones gráficas. Pistas personalizadas se abordaron en el tutorial avanzado. Para obtener orientación específica cómo crear los diferentes tipos de pista, consulte la documentación de UCSC. El tipo de pista que estoy ilustrando en el video de hoy, un trac MultiWigk, tiene su propia sección de allá también. Fundamentalmente, si usted es completamente nuevo a este, la “menear” estilo es una manera de mostrar una pantalla de histograma en una región. MultiWig le permite superponer varios de estos histogramas en un mismo espacio. En el ejemplo que voy a mostrar aquí, los resultados de mirando 7 diferentes líneas celulares se muestran algunas señales de las marcas de histona (Pista Capas H3K27Ac).

Annotation track cell lines

Líneas celulares de vía de anotación

Cuando vi el anuncio, Pensé que esto era una buena manera de mostrar todos los datos al mismo tiempo. Cuando hacemos talleres básicos, que no siempre tenemos tiempo para entrar en los detalles de este punto de vista, aunque sí explorarlo en el Material de ENCODE, porque la pista que estoy usando es uno de los conjuntos de datos de ENCODE. Voy a usar la misma pista en la misma región que el anuncio, que se muestra aquí:

stack announcementPero cuando vi por primera vez en este, No estaba seguro de si el pico–centrarse en el pico de color rosa que representa la línea celular NHLF–estaba destinado a cubrir toda el área por debajo o no. Lo que estaba tratando de averiguar es esencialmente este (una representación gráfica de mi proceso de pensamiento sigue):


Probando los diversos estilos que estaba bastante seguro de que tenía la idea de lo que realmente estaba siendo mostrado, pero confirmé que con uno de los desarrolladores de la pista. El valor es sólo el segmento de banda de color rosa, No toda la zona por debajo de ella. Y Mateo también señaló a mí que están arreglando las pistas en orden alfabético inverso (así NHLF es el más alto de la pila). Ese fue un aspecto que no había dado cuenta todavía. No están basadas en la clasificación de los valores en ese lugar. Esto tiene sentido, por supuesto, pero no era obvio para mí al principio.

Me gusta esta opción mucho–pero pensé que si tuviera que hacer algún noodling de lo que en realidad significaba que otros podrían tener las mismas preguntas.

En el video te voy a mostrar cómo este segmento se ve con los diferentes “Método de superposición” configuración de la página de pista. Voy a estar buscando en el área de SOD1, como el ejemplo de anuncio. Pellizqué un par de los otros ajustes de los valores por defecto por lo que sería más fácil de ver en el video (ver puntas de flecha para mis cambios). Pero espero que esto transmite las opciones que tiene ahora a mirar a este tipo de datos de la pista de manera efectiva.

Track settings for videoAsí que aquí está el vídeo con el SOD1 5′ región en el centro, utilizando el 4 diferentes opciones de método de superposición, que ilustra los datos de marca de histona en la 7 líneas celulares. No voy a entrar en los detalles de los datos aquí, pero te voy a apuntar a una referencia asociada con este trabajo desde hace más de cómo se hace–ver el papel del laboratorio Bernstein abajo. Yo sólo quería demostrar este nuevo tipo de opciones de visualización, que estará disponible en las pistas meneo. Algunas pistas tienen demasiados datos para un tipo u otro, o será más clara con uno u otro estilo. Pero ahora usted tiene una forma adicional de considerarlo.

Estos tutoriales están disponibles libremente porque UCSC nos patrocina hacer formación y divulgación sobre la UCSC Genome Browser.


Consejos Video de la Semana, Revisión Anual 2013 (parte 1)

Como usted puede saber, que hemos estado haciendo estos vídeos consejos de la semana de SIX años. Hemos completado o recogidos alrededor 300 introducciones poco tidbit a diversos recursos a través de este último año, 2013. Al principio tuvimos que hacer todo de nuestros propios intros vídeo, pero a medida que la tecnología de la película se hizo más accesible y más equipos hicieron su propia, hemos sido capaces de encontrar una gran cantidad más que fueron hechas por los propios proveedores de recursos. Así que empezamos a recoger esos también. Al final del año hemos establecido una especie de tradición navideña: estamos haciendo un resumen de mensaje para reunir a todos. Si te has perdido alguno de ellos es una gran manera de tener un rápido vistazo a lo que podría ser útil para su trabajo.

Puede ver consejos de años anteriores aquí: 2008 En, 2008 II, 2009 En, 2009 II, 2010 En, 2010 II, 2011 En, 2011 II, 2012 En, 2012 II, 2013 II (semana próxima).

VideoTip de la semana: ENCODE @ Ensembl

Tenemos una gran cantidad de tutoriales (2 de hecho,, ENCODE Fundaciones & ENCODE @ UCSC), consejos y información sobre CODIFICAR. También tenemos una gran cantidad de tutoriales (otra vez 2, Ensembl y Ensembl Legado- en las versiones anteriores ), consejos y información sobre Ensembl, la base de datos y el navegador de EBI.

Ahora aquí está una extremidad de la semana tanto en Ensembl y codificar. Esta es una de las más recientes adiciones a Tutoriales en vídeo de Ensembl. Este video analiza cómo identificar secuencias que puedan estar involucrados en la regulación de genes. La mayor parte de estos datos en Ensembl se basa en datos de ENCODE. Se trata de utilizar la “Matriz,” una forma de seleccionar los datos de regulación que tiene que basarse en los tipos de células y del TF. Al final de la 8 Video minuto discuten un poco más acerca de cómo obtener toda codificar los datos.

Así que, Ahora usted tiene una gran cantidad de información aquí en OpenHelix través de nuestros tutoriales y nuestro blog sobre ENCODE y Ensembl.

Vídeo Consejo de la semana: ENCODE Tool Importancia ChIP-Seq

Hemos estado haciendo talleres de capacitación y en la UCSC Genome Browser de 10 años. Es una gran herramienta que tiene que ser un elemento fundamental en su caja de herramientas de la genómica. Sin embargo,–puede haber ocasiones en las que desee examinar algunos de los datos que se pueden encontrar allí de otra manera, con un enfoque o énfasis diferentes. Podría ser posible diseñar algún inteligente Tabla Browser consultas que se obtiene lo que quiere. A veces, aunque, alguien ha creado una manera para que usted pueda consultar los datos subyacentes de un tema que podría ser útil también. Y la punta de hoy de la semana es exactamente este tipo de herramienta. Una interfaz web para consultar los datos de ENCODE que residen en la UCSC Genome Browser, con un enfoque en la búsqueda de factores de transcripción con la unión enriquecida en una región que podría estar interesado en explorar. Punta de vídeo de hoy es para el ENCODE Tool Importancia ChIP-Seq.

Hay un montón de grandes datos que desembocaba en la UCSC Genoma del navegador como parte de la CODIFICAR proyecto. Se va a proporcionar años de la minería para los biólogos. Lo que sería genial es que los investigadores biomédicos que tienen interés en genes específicos–o conjuntos de genes–para echar un vistazo a los datos de ENCODE para ver si pueden descubrir algunas ideas útiles sobre la regulación de estos genes o listas de genes. Usted puede utilizar la herramienta Importancia ChIP-Seq para tamizar a través de los datos.

El vídeo que el equipo del laboratorio de Butte hizo es muy bonito. Orientación muy específica sobre el uso de su herramienta de–qué elegir para las opciones de menú, cuáles son las opciones, y qué esperar de los resultados. Aquí está el video:

Por supuesto, usted debe leer su artículo acerca de esta herramienta para el fondo que necesita (relacionados a continuación), y las referencias que también le ayudará a entender lo que ofrece esta herramienta. También debe informarse sobre los datos ENCODE asociados. El suplemento con el documento también está muy bien escrito en un lenguaje claro para ayudar a comprender las características.

Una de las cosas que tenía curiosidad acerca de si era esto podría extenderse a los datos del ratón también. Una cosa que la gente urogallo para mí es de que ENCODE es línea celular de datos, y los datos del tejido sería realmente genial. Pero vi discusión en el blog de Stephen Turner (leer los comentarios) sobre el enfoque en la salud humana por el momento. También hubo discusión sobre el Herramienta CsCAN, aunque, que sí cubre los datos del ratón. Así que si se trata de una herramienta que está interesado en, es posible que desee explorar CsCAN demasiado.

Sombrero de punta a Stephen Turner para la conciencia:

Auerbach, R., Chen, B., & Butte, A. (2013). Genes Relacionados con función de: La identificación de factores de transcripción Enriquecido con la herramienta de Importancia ChIP-Seq ENCODE Bioinformática DOI: 10.1093/bioinformatics/btt316