Archivo de la etiqueta: Ensembl


Vídeo Consejo de la semana: Actualizaciones UniProt, ahora incluyendo archivos CAMA portátiles

UniProt is one of the core resources that provides tremendously important curated information about proteins. You will find links to UniProt in lots of other tools and databases as well, but we’ve always championed going directly there for the full look at all the wide range of information they offer. Their foundation remains solid, but they also continue to add new and useful features over time. Recently they had a webinar to describe some of the new things, and the recording of that webinar will be this week’s Video Tip fo the Week.

The video starts with an overview of the whole UniProt site. The core of their great resource is the same, por supuesto. UniProtKB, UniRef, and UniParc are there for various ways to look across the data. The handy Proteomes collection of the proteins in a given species is available, and they also have reference proteomes from that access point. There’s a short section in the video that’s a guide to the basic search functions.

Acerca de 9 minutes in they introduce the UniRule annotation features. When certain conditions are met, an annotation gets applied to a protein–which you can trace from the protein pages by clicking on the UniRule link for that annotation. unirule_sampleAnd their software offers a very cool way to look and see how/when conditions are applied. It will load a decision flow path and highlights what the logic rules were used in that particular case, so you can trace it and understand how a protein got a given item. That’s what I illustrate in the screen shot here.

Acerca de 14 mi, the topic changed to the new Genome Annotation Tracks. Ahora le ofrecen una manera de tomar sus anotaciones para una entrada UniProtKB y utilizarlos con un genoma navegador separada. They hand you BED or BigBed files for different features. You can also load the whole thing as a Hub file to see all the sequence feature data at once. They are species-specific, and started with human, but others are coming. You can access them from the “Descargas” area of the homepage. The video also described a bit about the structure there as well. So you could take these files to ENSEMBL o UCSC Genome Browser and load them, with all the UniProt features now to compare to the existing genomic context at those browsers. They illustrate how you can look at the “active site” anotaciones, but you can also look at post-translation modification sites, dominios, etc. This was a feature that was new to me, and looks like a terrific idea.

So even if you think you know UniProt, check out these new options for additional ways to interact with the high-quality information they provide. Eso está muy bien.

Enlaces rápidos:


De referencia:

El Consorcio UniProt (2014). UniProt: a hub for protein information Nucleic Acids Research, 43 (D1) DOI: 10.1093/nar/gku989


Viernes SNPpets

This week’s SNPpets include transcription factor binding site evolution–with their secret partners transposable elements; PrecisionFDA coming along; bad habits of bioinformaticians; new synthetic biology tools and rock star status; consumer reluctance to share their health data; Russian genomes on the way. Y más, including the XKCD on DNA in case you missed it.

SNPpets_2Bienvenido a nuestra colección de enlaces Viernes función: SNPpets. Durante la semana nos encontramos con un montón de enlaces y lecturas que nos parecen interesantes, pero no llegar a una entrada de blog. Aquí están para su disfrute…

Vídeo Consejo de la semana: TargetMine, Data Warehouse for Drug Discovery

Browsing around genomic regions, layering on lots of associated data, and beginning to explore new data types I might come across are things that really fire up my brain. Para mí, visualization is key to forming new ideas about the relationships between genomic features and patterns of data. But frequently I want to take this to the next step–asking where else these patterns appear, how many other instances of this situation are there in a data set, and maybe adding additional complexity to the problem and refine the quest. This is not always easy to do with primarily visual software tools. This is when I turn to tools like the UCSC Browser Tabla, BioMart, y internacionales mina to handle some list of genes, or regions, or features.

We’ve touched on all of these before–sometimes with full tutorial suites (UCSC, BioMart), and sometimes as a Consejo del la Semana, internacionales mina y InterMine para consultas complejas. Learning about the foundations of these tools will let you use various versions or flavors of them at other sites. I love to see tools that are re-used for different topics when that’s possible, rather than building a whole new system. There are ModENCODE, rata, yeast mines, y más. This week’s tip is about one of those others–TargetMine is built on the InterMine foundation, with a specific focus on prioritizing candidate genes for pharmaceutical interventions. Desde their site overview, I’ll add this description they use: TargetMine

TargetMine is an integrated data warehouse system which has been primarily developed for the purpose of target prioritisation and early stage drug discovery.

For more details about their framework and philosophy, you should see their papers (relacionados a continuación). The earlier one sets out the rationale, the data types, and the data sources they are incorporating. They also establish their place in the ecosystem of other databases in this arena, which helps you to understand their role. But you should see the next paper for a really good grasp of how their candidate prioritization work with the “Integrated Pathway Clusters” concept they’ve added. They combined data from KEGG, Reactome, y NCI’s PID collections to enhance the features of their data warehouse system.

This week’s Video Tip of the Week highlights one of the tutorial movies that the TargetMine team provides. There’s no spoken audio with it, but the captions that help you to understand what’s going on are in English. I followed along on a browser with their example–they have a sample list to simply click on, and you can see various enrichments of the sets–vías, Gene Ontology, Disease Ontology, InterPro, CATH, and compounds. They call these the “biological themes” and I find them really useful. You can create new lists from these theme collections. They also illustrate the “template” option–pre-defined queries with typical features people may wish to search. The example shows how to go from the list of genes you had to pathways–but there are other templates as well.

Another section of the video has an example of a custom query with the Query Builder. They ask for structural information for proteins targeted by acetaminophen. It’s a nice example of how to go from a compound to protein structure–a question I’ve seen come up before in discussion threads.

In their more recent paper (also below), they have some case studies that illustrate the concepts of prioritizing targets for different disease situations with their system. They also expand on the functions with additional software to explore the pathways: .

So have a look at the features of TargetMine for prioritization of candidate genes. I think the numerous “themes” are a really useful way to assess lists of genes (or whatever you are starting with).

Enlaces rápidos:

TargetMine: [nota: their domain name has changed since the publications, this is the one that will persist.]

internacionales mina:


Chen, Y., Tripathi, L., & Mizuguchi, K. (2011). TargetMine, an Integrated Data Warehouse for Candidate Gene Prioritisation and Target Discovery PLoS ONE, 6 (3) DOI: 10.1371/journal.pone.0017844

Chen, Y., Tripathi, L., Dessailly, B., Nyström-Persson, J., Ahmad, S., & Mizuguchi, K. (2014). Integrated Pathway Clusters with Coherent Biological Themes for Target Prioritisation PLoS ONE, 9 (6) DOI: 10.1371/journal.pone.0099030

Kalderimis A., R. Lyne, D. Butano, S. Contrino, AbT.l. Lyne, J. Heimbach, F. Hu, R. Herrero, R. Stěpán, J. Sullivan & G. Micklem & (2014). internacionales mina: extensive web services for modern biology, Nucleic Acids Research, 42 (W1) W468-W472. DOI:

Herramientas bioinformáticas extraen de un proyecto típico genoma de los mamíferos [suplemento]

Esta es la tabla 1 que acompaña a la entrada en el blog completo: Herramientas bioinformáticas extraen de un proyecto típico genoma de los mamíferos. Mira el mensaje principal para los detalles y explicación. La mesa es demasiado largo para mantener en el cargo, pero yo quería que fuera búsquedas en la web. Una copia también reside en FigShare:

Seguir leyendo

Herramientas bioinformáticas extraen de un proyecto típico genoma de los mamíferos

En esta entrada del blog extendida, Describo mis esfuerzos para extraer la información sobre bioinformática relacionados con los artículos en un documento reciente secuenciación del genoma, y las cuestiones más amplias esto plantea en el campo. Es largo, y es una especie de híbrido entre un blog y un formato de papel, sólo para darle un poco de estructura para mi propia organización. Una copia de esta también se publicará en FigShare con el conjunto de datos completo. Muchísimas gracias a todo el equipo del proyecto genoma gibón para un papel excelente y recogida ampliamente documentada de sus procesos y recursos. Los temas que quería destacar son sobre el acceso a las herramientas de la bioinformática en general y no son específicas de este proyecto en todo, pero son sobre el campo.


En el campo de la bioinformática, hay mucha discusión acerca de los datos y la disponibilidad de código, y reproducibilidad o la replicación de la investigación utilizando los recursos descritos en el trabajo previo. Para explorar el alcance del problema, He utilizado la reciente publicación del proyecto de secuencia del genoma gibón bien documentado como punto de partida para evaluar las herramientas, repositorios, fuentes de datos, y otros artículos relacionados con la bioinformática-que habían estado en uso en un proyecto actual. Los detalles de los artículos de la bioinformática nombradas fueron extraídos de la publicación, y luego se exploró ubicación y la información acerca de las herramientas.

Sólo una pequeña fracción de los artículos de bioinformática del proyecto se indica en el cuerpo principal del documento (~ 16%). La mayoría de ellos fueron encontrados en los materiales complementarios. Como hemos señalado en el pasado, ni los datos ni las herramientas necesarias se publican en la estructura tradicional de papel más. Entre los más de 100 artículos de bioinformática describen en la obra, disponibilidad y facilidad de uso es muy variable. Algunos residen en los sitios web de la facultad o estudiantes, algunos en los sitios del proyecto, algunos en repositorios de código. Algunos son publicados en la literatura tradicional, algunos son publicaciones de tesis de los estudiantes, algunos no se publican nunca y sólo un sitio web o manual de la documentación del software sirve para proporcionar detalles requeridos. Esto significa que la información sobre cómo utilizar las herramientas es muy desigual, y el apoyo es a menudo inexistente. Acceso a diferentes versiones de software plantea un reto adicional, ya sea para herramientas de código abierto o productos comerciales.

Nuevas estrategias de publicación y almacenamiento, nuevas herramientas tecnológicas, y sensibilización de la comunidad amplia y apoyo están empezando a cambiar estas cosas para mejor, y sin duda ayudará en el futuro. Estrategias para las herramientas que hacen referencia constantemente, versiones, y la información sobre ellos sería muy beneficioso. La comunidad bioinformática también podría considerar la necesidad de gestionar algunos de los históricos, piezas fundamentales que son importantes para este campo, algunos de los cuales pueden necesitar ser rescatada de su estado actual con el fin de permanecer a disposición de la comunidad en el futuro.


Desde el sitio web de la Naturaleza, Obtuve una copia del artículo publicado recientemente: Gibbon genoma y la evolución cariotipo rápido de pequeños simios (Carbone et al, 2014). A partir del texto del documento y los suplementos, Extraje manualmente todas las referencias a las herramientas de base de datos con nombre, los sitios de origen de datos, tipos de archivo, programas, empresas de servicios públicos, u otras partes móviles computacionales que podrían identificar. Hay quizás algunos se perdieron por este proceso, por ejemplo, nombres que no reconocí o no se ha conectado con alguna herramienta existente (o alguna imagen generada a partir de una herramienta, tal vez). Algunas referencias son a "en casa scripts de Perl" u otros escenarios "de encargo" no se incluyen generalmente a menos que hubieran sido puestos a disposición. Piezas estén considerados como hecho "de una manera similar a la ya descrita" de alguna otra referencia estaban presentes, y yo no fui arriba a documentos anteriores para extraer esos detalles. Software asociado a equipos de laboratorio, tales como secuenciadores (ubicada en varias instituciones) o máquinas de PCR no se incluyeron. Así que esto probablemente representa una sub-cuenta de los elementos de software en uso. También me puse en contacto el equipo de investigación durante un par de cosas adicionales, y rápidamente recibido ayuda y orientación. El uso de motores de búsqueda de Internet típicos o búsquedas internas en sitios de los editores o de recursos, Traté de combinar los elementos a fuentes de software o citas para los artículos.

Lo puse en el cubo incluye nombres específicos de elementos u objetos que podrían ser propensos a ser necesario y / o familiares para estudiantes o investigadores externos de la comunidad bioinformática. Algunos están relacionados, pero diferente. Por ejemplo, es necesario entender lo que significa "Gene Ontology"Es como un todo, pero también hay que saber qué "GOslim"Es, una diferencia conceptual y un objeto independiente en mi sistema de designación aquí. Algunos son subcomponentes de otras herramientas, pero los aspectos importantes para entender (GOTERM_BP_FAT en DAVID o randomBed de BEDTools) y son elementos cuyos nombres individuales en el informe, ya que podrían ser oscuro para los no practicantes. Otros profesionales de la bioinformática podrían estar en desacuerdo con su asignación a esta colección. Podemos discutir la eliminación o inclusión de éstos en las discusiones acerca de ellos en futuras iteraciones de la lista.


Después de crear una lista maestra de las referencias a los objetos de la bioinformática o artículos, la lista fue verificada y se eliminarán los duplicados o aspectos imposibles de rastrear. Las referencias a "en casa Perl" u otros scripts "personalizados" por lo general se eliminan, a menos que se prestó especial atención a un repositorio de código. Esto dio como resultado 133 artículos restantes.

¿Cómo están referenciadas? ¿Dónde en el trabajo?
Tanto la publicación principal (14 Páginas PDF) y el primer archivo de información complementaria (133 Páginas PDF) proporcionado los nombres de los objetos de la bioinformática en uso para este proyecto. Todos los elementos mencionados en el documento principal también pasan a estar referenciados en el suplemento. El número de objetos con nombre en el papel principal era 21 de los 133 componentes de la lista (~ 16%). Esto es consistente con otros tipos similares de consorcio o papeles "big data" que yo he explorado antes: la mayor parte de la información necesaria acerca de las herramientas de software, fuentes de datos, métodos, parámetros, y características han sido en los extensos materiales complementarios.

Los artículos se hace referencia en varias maneras. A veces se nombran en el cuerpo del texto principal, o los métodos. A veces se incluyen como notas. A veces, las herramientas sólo se mencionan de leyendas de las figuras, o sólo en referencias. En este caso, algunos detalles se encuentran en la sección "Información Autor".


Como se señaló anteriormente, la mayoría se encuentran en la información complementaria. Y en este ejemplo, esto podría ser en el texto o en las tablas. Esto es bastante típico de estos grandes de documentos del proyecto, en nuestra experiencia. Cualquiera que intente publicaciones texto de minas de este tipo de información debe ser consciente de esta gran variedad de lugares para esta información.

¿Qué objetos de bioinformática están involucrados en este trabajo?
Describiendo herramientas bioinformáticas, recursos, bases de datos, archivos, etc, siempre ha sido un desafío. Estos son análogos a los "reactivos" que yo he puesto en mis papeles de biología benchwork hace años. Ellos pueden ser importantes para el resultado, tales como vendedores de enzimas, versiones cepa de ratón, o especies de anticuerpos detalles. Constituyen las cosas que se necesita para reproducir o ampliar el trabajo, o para comprender adecuadamente el contexto. Pero en el caso de la bioinformática, esto puede significar formatos de archivo como el FASTQ o AXT formato de UCSC Genome Browser. Ellos pueden significar recursos como el repositorio SRA. Pueden ser varios conjuntos diferentes de datos versionados descargado desde ENSEMBL (versión 67, 69, 70, o 73 aquí, pero que se contaron sólo una vez como ENSEMBL). Podría ser referencias a Reactome en una tabla.

Con esta amplia definición en mente, Mesa 1 proporciona la lista de bioinformática llamados objetos extraídos de este proyecto. El nombre o apodo o designación, el sitio en el que se puede encontrar (si está disponible), y una publicación o alguna citación se incluye cuando sea posible. Finalmente, una columna designa si se encontró en el papel principal, así.

Lo que no se indica es que algunos son referencias múltiples veces en diferentes contextos y usos, con que podría hacer que las personas se dan cuenta de la frecuencia con que se utilizan estos. Por ejemplo, irónicamente, RepeatMasker se hace referencia muchas veces empecé a dejar de marca para arriba en un punto.

Mesa 1. Herramientas de software, objetos, formatos, archivos, y los recursos extraídos de un proyecto típico de la secuenciación del genoma de los mamíferos. Consulte el suplemento de la versión web de esta entrada del blog:, o el acceso a FigShare:

Herramientas bioinformáticas extraen de un proyecto típico genoma de los mamíferos [suplemento] – Ver más en: /?p = 20002&preview = true # sthash.pcNdYhOZ.dpuf
Herramientas bioinformáticas extraen de un proyecto típico genoma de los mamíferos [suplemento] – Ver más en: /?p = 20002&preview = true # sthash.pcNdYhOZ.dpuf


¿Qué podemos aprender acerca de la fuente o el uso de estos artículos?
Busca la información sobre el código fuente, conjuntos de datos, tipos de archivo, repositorios, y la información descriptiva asociada acerca de los elementos produce una variedad de acceso. Algunos objetos están asociados con publicaciones científicas tradicionales y tienen enlaces válidos y actuales en el software o los datos (pero son también a veces incorrectamente citado). Estos pueden ser paywalled en ciertas publicaciones, o se describen en documentos de la reunión no disponibles. Algunos no tienen publicaciones asociadas en absoluto, o se describen como enviado o en preparación. Algunas herramientas permanecen inéditos en la literatura, mucho después de que han pasado a utilizar ampliamente, y su documentación o manual se cita en lugar. Algunos residen en las páginas de investigación de la facultad, algunos son disertaciones estudiantiles. Algunas herramientas se encuentran en las páginas específicas del proyecto. Algunos existen en repositorios de código, a veces obsoletas las que pueden desaparecer. Varios de ellos han pasado de sus publicaciones iniciales, sin direcciones de reenvío. Algunos son alusiones a procedimientos otras publicaciones. Algunos de ellos son como el tiempo de viaje de vuelta a la década de 1990, con las páginas que parecen ser originales, por el momento. Algunos pueden estar en riesgo de desaparecer por completo la próxima vez que una actualización en el sitio web de la universidad cambia el acceso al sitio.

Otras herramientas incluyen paquetes comerciales que pueden tener detalles desconocidos, versiones, o sostenibilidad cuestionable y el acceso futuro.

Cuando se proporcionan los detalles de procesamiento de datos o software implementaciones, la cantidad puede variar. A veces se incluyen parámetros, otros no.

Herramienta Missing quería tener
Uno de mis favoritos representaciones de datos en los resultados del proyecto fue Figura 2 en el papel principal, Rejillas de Oxford de las comparaciones de especies organizadas en una estructura de árbol filogenético. Este transmite una enorme cantidad de información en un área pequeña de manera muy eficaz. Tenía la esperanza de que se trataba de una herramienta existente en algún lugar, pero al escribir en el equipo me pareció que es un script de R por uno de los autores, con una disposición de árbol posterior en el programa de gráficos "Illustrator" por otro colaborador. Me gustó mucho este, aunque, y espero que esté disponible más ampliamente.

Huevos de Pascua
La cita más divertido que encontré fue la página para PHYLIP, y las FAQ y créditos fueron notables. A pesar de que no hay ninguna publicación tradicional disponible para mí, una página larga "créditos" ofrece algunas ideas interesantes sobre el proyecto. La "No, gracias a" porción era en realidad una fascinante mirada a las tribulaciones de conseguir fondos para apoyar el desarrollo y mantenimiento de software. La parte de "divulgación" fue particularmente divertido para nosotros:

"¿Todo esto" significa cosas alcance "Tengo que dedicar tiempo a dar talleres a los estudiantes de artes culinarias desconcertado? Estas becas son para el desarrollo de métodos avanzados, y briefing "los educadores públicos o no universitarios" sobre esos métodos parecen ser una pérdida de tiempo — aunque yo hago pasar un poco de esfuerzo en la lucha contra los creacionistas y defensores del diseño inteligente, pero no trate estos métodos al hacerlo ".

Incluso la idea de la "extensión" y el apoyo para el uso de las herramientas es ciertamente claro a los proveedores de herramientas, al parecer. Formación? Sí, no de cualquier manera formal.


El proyecto de secuenciación del genoma gibón proporcionó una importante y bien documentada ejemplo de un proyecto típico en este campo. En mi experiencia, esta era una colección más detallada y la descripción de lo que muchos otros proyectos en los que he explorado, y algunas herramientas que eran nuevas y muy interesantes para mí fueron proporcionados. Es evidente que un número enorme y variedad de artículos de bioinformática, herramientas, repositorios, y los conceptos son necesarios para el alcance de un proyecto de secuenciación del genoma. Determinación de la procedencia de los, aunque, es irregular y difícil, y esto no es exclusivo de este proyecto-que es un problema entre el campo. El acceso actual a los objetos de la bioinformática también es desigual, y el acceso futuro puede ser incluso más de un obstáculo como el envejecimiento de las páginas del proyecto puede desaparecer o quedar inutilizable. Este proyecto ha proporcionado una interesante instantánea de la situación actual, y buena visión general del alcance de la conciencia, habilidades, recursos, y el conocimiento que los investigadores, personal de apoyo, o los estudiantes tendrán que cumplir los proyectos de alcance similar.

little_macSolía ​​ser más simple. Estamos acostumbrados a utilizar el pequeño número de herramientas en el VAX, cuesta arriba, en la nieve, en ambos sentidos, por supuesto. Cuando yo era un estudiante de posgrado, un día en el fondo del laboratorio a principios de 1990, mi colega Trey y yo estábamos husmeando en algo que sólo había oído hablar-la World Wide Web. Tuvimos una de esas pequeñas Macs divertidas con las pantallas de pequeñísima, y nos encontramos con personas estaban haciendo páginas web texty con fuentes banales y colores extraños, y hablando de su investigación.

Aunque ambos habíamos estado utilizando una variedad de programas instalados o líneas de comando para la secuencia de lectura y la alineación, manipulación, mapas de los plásmidos, la búsqueda y almacenamiento de la literatura, procesamiento de imágenes, filogenias, y así sucesivamente-sabíamos que esta cosa web se iba a romper el tópico de par en par.

No mucho tiempo después, Pasaba más y más tiempo en la habitación del fondo del laboratorio, tirando de secuencias de este lugar NCBI (ver una interfaz de mediados de 1990 aquí), y en busca de nuevas variantes de empalme. Los encontré. Con tan sólo escribir-no la radiactividad y geles requerido por mí! ¿Qué tan genial es que? Nos basamos en la Lista de Pedro para localizar herramientas más útiles (archivo de Pedro de Biología Molecular de la búsqueda y las herramientas de análisis.).

Ambos de nosotros, entonces se fue a los investigadores postdoctorales y trabajos que estaban en gran medida en el software biológica y / o el desarrollo de bases de datos. Hemos tenido un asiento de primera a los cambios a lo largo de este período, y ha sido realmente increíble ver. Y ha sido muy bueno para nosotros-hemos desarrollado nuestros intereses en una empresa que ayuda a las personas utilizan estas herramientas de manera más eficaz, y ha sido muy gratificante.

En OpenHelix, siempre estamos tratando de mantener un ojo en lo que las personas están utilizando herramientas. Tenemos redes de arrastre con regularidad a través del tiempo, largo, materiales complementarios largas de las clases "big data" de proyectos, utilizando una red de enmalle para extraer las herramientas de software que están en uso en la comunidad. ¿Qué bases de datos y sitios son personas que dependen de? ¿Cuáles son las cosas fundacional todo el mundo necesita? ¿Cuáles son las cosas de vanguardia para mantener un puesto de observación para? ¿Qué formatos de archivo o términos serían las personas que tenga que conectar con un recurso?

Pero cuando empecé a hacerlo, Pensé: tal vez debería usar esto como un punto de partida para discutir algunos de los temas de las herramientas de software y datos en genómica. Si usted fuera nuevo en el campo y tuvo que encontrar la manera de un proyecto como este va, o lo que el conocimiento, habilidades, y las herramientas que necesitarían, puede establecer una idea de dónde apuntar? Así que he usado este trabajo para analizar el tipo de estado de la situación: lo bioinformática sitios / herramientas / formatos / objetos / artículos están incluidos en una obra de esta envergadura? ¿Puedes localizar? ¿Dónde están las barreras o riesgos? Podría aprender a usarlos y replicar el trabajo, o impulsar desde aquí?

Fue revelador para mí para ensamblar en realidad todo en un solo lugar. Tomó un poco de tiempo para realizar un seguimiento de las herramientas hacia abajo y busque información sobre ellos. Pero parecía ser una instantánea vale la pena tomar. Y espero que se destacan algunas de las necesidades en el campo, antes de que algunos de las piezas claves se pierden a los caprichos del tiempo y la tecnología. Y también espero que la conciencia fomenta el buen comportamiento en el futuro. Las cosas parecen estar cada vez más presión en la comunidad para publicar conjuntos de datos y código en los repositorios compatibles ha aumentado. Podríamos utilizar algunas estrategias de citación estandarizados para las herramientas, fuentes, y los parámetros. La EE.UU. NIH va en serio acerca de la administración "big data" y asegurarse de que se puede utilizar adecuadamente ha sido recibido con gran entusiasmo. Pero todavía hay algunas colinas a la izquierda para subir antes de que estemos en la parte superior de esta.

De referencia:

L. Carbone, R. Alan Harris, Sante Gnerre, Krishna R. Veeramah, Belén Lorente-Galdos, John Huddleston, Thomas J. Meyer, Javier Herrero, Roos cristianas, Bronwen Aken & Fabio Anaclerio & al. (2014). Gibbon genoma y la evolución cariotipo rápido de pequeños simios, Naturaleza, 513 (7517) 195-201. DOI:

FigShare versión de este post:

VideoTip de la semana: ENCODE @ Ensembl

Tenemos una gran cantidad de tutoriales (2 de hecho,, ENCODE Fundaciones & ENCODE @ UCSC), consejos y información sobre CODIFICAR. También tenemos una gran cantidad de tutoriales (otra vez 2, Ensembl y Ensembl Legado- en las versiones anteriores ), consejos y información sobre Ensembl, la base de datos y el navegador de EBI.

Ahora aquí está una extremidad de la semana tanto en Ensembl y codificar. Esta es una de las más recientes adiciones a Tutoriales en vídeo de Ensembl. Este video analiza cómo identificar secuencias que puedan estar involucrados en la regulación de genes. La mayor parte de estos datos en Ensembl se basa en datos de ENCODE. Se trata de utilizar la “Matriz,” una forma de seleccionar los datos de regulación que tiene que basarse en los tipos de células y del TF. Al final de la 8 Video minuto discuten un poco más acerca de cómo obtener toda codificar los datos.

Así que, Ahora usted tiene una gran cantidad de información aquí en OpenHelix través de nuestros tutoriales y nuestro blog sobre ENCODE y Ensembl.

Enlaces rápidos:

ENCODE Tutoriales:
Tutoriales Ensembl:

Vídeo Consejo de la semana: Mariposas navegando con GBrowse y Ensembl

Un par de meses atrás, cuando el Heliconius (Cartero) Mariposa de papel del genoma fue puesto en libertad, llegamos a ver otro ejemplo de cómo las nuevas tecnologías de secuenciación nos están dando acceso a los datos del genoma de más y más–en especies que no son los principales organismos modelo. Mariposa Monarca datos del genoma había sido puesto en libertad antes que a su vez. Y puede que no sepa que hay un gran esfuerzo para conseguir que miles de genomas de insectos–el proyecto i5k. Creo que eso es lo que más me gusta de donde estamos hoy: podemos examinar más especies con más detalle de lo que nos encontramos ante. No sólo tenemos datos interesantes del marco secuencia del genoma, pero información interesante acerca de las especies relaciones evolutivas, y las características de la biología interesantes y novedosas se pueden explorar y. Me refiero a–el genoma humano y sus variaciones son grandes–pero las mariposas monarca tienen una brújula solar! ¿No es genial??

Y al igual que la mayoría de los trabajos del genoma de hoy, sólo una fracción de los datos que se obtuvo en el cuerpo principal del documento. La “ejemplos convincentes” podría estar allí. Pero del “12,699 predijo la codificación de proteínas de los genes” de los Heliconius genoma, sólo un puñado son realmente cuenta en el texto. A puñados más en algunas cifras. El documento anterior de la mariposa monarca entregado “un conjunto de 16,866 la codificación de proteínas de los genes” (y 10 suplementos más allá del papel!). Pero para acceder a los datos por sí mismo y comparar a los genes y especies de interés que necesita para convertir a los navegadores que acompañan a los periódicos.

En este caso tienes dos opciones para los estilos de tu navegador: la Heliconius Consorcio del Genoma (autores del trabajo) mantener una instalación GBrowse en su sitio. El grupo Monarca tiene una GBrowse a MonarchBase. Además, los datos tanto también se incluyen ahora en Ensembl como del julio 2012 liberación 15. [nota: ver los detalles administrativos en los comentarios - mm]

Para la punta de esta semana que vuelan alrededor de los GBrowsers específicas de cada especie a los grupos recogidos en Ensembl. Es muy bueno tener los sitios específicos de la especie para la profundidad de la información sobre los proyectos y recursos, pero también es bueno tener las herramientas adicionales y las pantallas de los navegadores más grandes del genoma. Navegadores de la comunidad pueden ofrecer datos muy actuales y nuevos que aún no se podrían incluir en los navegadores super-, y los navegadores super-pueden ofrecer herramientas adicionales y de infraestructura que no se dispone de los navegadores de la comunidad. Su mejor apuesta es ser consciente de ambos, y para sentirse cómodo con las características principales del software y sus fortalezas y debilidades.

Los errores están viniendo–y muchas de ellas. Estar preparado. Y ten cuidado: buscar la superhéroe de la derecha

Nota: He sido incapaz de localizar el genoma Mothra que ha estado toda la atwitter en el último par de días.

Enlaces rápidos:

Heliconius GBrowse:


Ensembl Metazoa:

i5k insectos y otros artrópodos Iniciativa de Secuenciación del Genoma

Si usted vino a buscar fotos de mariposas, tratar este: Este es también un sitio de ciencia ciudadana, donde usted puede enviar sus propias observaciones–Yo lo he hecho en el pasado.


Dasmahapatra, K.K., Walters, J.R., Briscoe, DC, Davey, J.W., Whibley, A., Nadeau, N.J., Zimin, A.V., Hughes, D.S.T., Ferguson, L.C., Martin, S.H. & (2012). Mariposa del genoma revela el intercambio promiscuo de adaptaciones mimetismo entre las especies, Naturaleza, DOI: 10.1038/nature11041

Zhan, S., Esmerejón, C., Boore, J. & Reppert, S. (2011). La mariposa monarca produce comprensión del genoma en migración de larga distancia, Célula, 147 (5) 1185. DOI: 10.1016/j.cell.2011.09.052

Stensmyr, AbT.l. & Hansson, B. (2011). Como corresponde a un genoma de un Monarca, Célula, 147 (5) 972. DOI: 10.1016/j.cell.2011.11.009

Kersey, P. J., Staines, D.M., Lawson, D., KULESHA, E., Derwent, P., Humphrey, Jesús Cristo, Hughes, D.S.T., Keenan, S., Kerhornou, A., Koscielny, G. & (2011). Genomas Ensembl: un recurso de integración de datos a escala del genoma de especies de vertebrados no-, Nucleic Acids Research, 40 (D1) D97. DOI: 10.1093/nar/gkr895

Consejos Video de la Semana: IV Examen Anual, 2º medio

Como usted puede saber, que hemos estado haciendo estos vídeos consejos de la semana de CUATRO años. Hemos completado todo 200 la introducción de poco bocado a los distintos recursos que el año pasado, 2011 (sí, es 2012 ahora). Al final del año hemos establecido una especie de tradición navideña: estamos haciendo un resumen de mensaje para reunir a todos. Si te has perdido alguno de ellos es una gran manera de tener un rápido vistazo a lo que podría ser útil para su trabajo.

Usted puede ver los últimos años’ consejos aquí: 2008 En, 2008 II, 2009 En, 2009 II, 2010 En, 2010 II. La resumen de la primera mitad del 2011 está disponible desde la semana pasada.

De julio 2011

De julio 6: Genes priorizar la utilización del Portal La priorización de genes

De julio 13: PolySearch, búsqueda de bases de datos a la vez

De julio 20: Hub humanos visualización Epigenomics

De julio 27: El nuevo Portal de Recursos Bioinformática SIB


De agosto 2011

De agosto 3: SNPexp, correlación entre los SNPs y la expresión génica

De agosto 10: CompaGB software para comparar el genoma del navegador

De agosto 17: CoGe, La comparación de genomas revisitado

De agosto 24: Dibuje los diagramas de dominio motivo rápida

De agosto 31: Desde UniProt a la SBKB PSI y de vuelta


De septiembre 2011

De septiembre 7: Planta de la genómica comparativa con Plaza

De septiembre 14: phiGENOME de exploración del genoma de bacteriófagos

De septiembre 21: Obtención de secuencias de acompañamiento de los lugares genómica

De septiembre 28: Introducción al software estadístico R


De octubre 2011

De octubre 5: VND fuente de información la variación genética y las drogas

De octubre 12: Hubs pista en UCSC Genome Browser

De octubre 19: Mitocondrial Transcriptome GBrowser

De octubre 26: Variación de datos de Ensembl


De noviembre 2011

De noviembre 2: MizBee Sintenía Browser

De noviembre 9: La nueva base de datos de variantes genómicas: DGV2

De noviembre 16: MapMi, mapeo automatizado de los microARN locyo

De noviembre 23: BioMart es nuevo portal central

De noviembre 30: Phosphida, una modificación post-traduccional de base de datos

De diciembre 2011

De diciembre 7: VarSifter, para identificar las variaciones secuencia de teclas

De diciembre 14: Grandes cambios en el genoma NCBI recursos

De diciembre 21: ponche para las fiestas (o para explorar los genes ortólogos)

De diciembre 28: Consejos Video de la Semana: IV Examen Anual (primer semestre de 2011)

Anuncio de materiales didácticos Actualizado: UniProt, Resumen de navegadores del genoma, La Vuelta al Mundo y de los Recursos

Como muchos de ustedes saben, OpenHelix se especializa en ayudar a las personas a acceder y utilizar la mina de oro de datos públicos biociencia para futuras investigaciones. Una de las maneras en que podemos hacerlo es mediante la creación de materiales para capacitar a las personas – los investigadores, los médicos, bibliotecarios, y cualquier persona interesada en la ciencia - sobre dónde encontrar los datos que están interesados ​​en, y la forma de acceder a los datos en determinadas bases de datos públicas y repositorios de datos. Tenemos más de 100 tutoriales como en todo, desde PubMed a la Funcionales de puerta de enlace Glicómica (lo veremos más adelante).

Además de la creación de estos tutoriales, nosotros también pasamos mucho tiempo para mantenerlos precisa y al día. Este puede ser un desafío, especialmente cuando muchas de las bases de datos o recursos tienen grandes lanzamientos al mismo tiempo. Nuestro equipo evalúa y actualiza continuamente nuestros materiales y en este post estoy feliz de anunciar actualizaciones publicadas recientemente a tres de nuestros tutoriales: UniProt, La Vuelta al Mundo, y visión general de los navegadores del genoma.

Nuestro Introductorio UniProt tutorial muestra a los usuarios cómo: realizar búsquedas de texto en UniProt proteína para obtener información relevante, búsqueda con secuencias como un punto de partida, entender los diferentes tipos de UniProt archivos, y crear múltiples alineamientos de secuencias de proteínas utilizando Clustal registros.

Nuestro Resumen de navegadores del genoma introduce a los usuarios a introducir Ensembl, Map Viewer, UCSC Genome Browser, la Genomas microbianos integrado (IMG) navegador, y el sistema de software GBrowse. Igualmente se aborda en WebGBrowse, JBrowse, la Visor de Genómica Integrativa (IGV), la ARGO Genome Browser, la Genoma del navegador integrado (IGB)Manada, y el Circular del Genoma Visor, o CGView.

Nuestro La Vuelta al Mundo de los Recursos Genómica es gratuita y accesible sin necesidad de registro. Se incluye un recorrido por los recursos ejemplo, organizados por categorías tales como Algoritmos y herramientas de análisis, recursos de la expresión, genoma navegadores (ambos Eucariotas y Procariotas / Microbial) , La literatura y el texto los recursos mineros, y recursos enfocados en nucleótidos, proteínas, vías, la enfermedad y la variación. Esta discusión principal se llevará a una discusión sobre cómo encontrar los recursos con el libre OpenHelix Recursos Búsqueda en el portal, seguida de aprender a utilizar los recursos con tutoriales OpenHelix, y una discusión de nuevos métodos de aprendizaje sobre los recursos.

Enlaces rápidos:

OpenHelix introductoria UniProt tutorial conjunto:

OpenHelix general a la habitación tutorial Genoma navegadores:

OpenHelix Free Tour Mundial de la suite de Genómica tutorial Recursos:


¿Tiene un genoma + transcriptoma. ¿Y ahora qué?

Yo estaba disfrutando de una lista de correo de leer la semana pasada cuando vi un artículo inusual venir a través del Discusión UCSC lista de correo. Alguien que está en el proceso de obtención del genoma y la secuencia de transcriptoma para un nuevo proyecto solicitó a la UCSC grupo de orientación sobre qué hacer con ella. En realidad es una pregunta que hemos estado escuchando mucho en los talleres–la gente está pensando en ayudas para este tipo de proyectos, o tienen planes para un nuevo secuenciador que llegó en su sitio. Pensé que la gente puede considerar esta información también recomendaciones útiles, así que estoy re-publicar aquí:


Estimado UCSC Genoma Bioinformática,

Mi nombre es Padraig Doolan y yo soy el jefe del Programa de Expresión
Microarrays y Bioinformática del Instituto Nacional de celulares
Biotecnología (NICB), Irlanda ( Somos una financiación pública
ciencia básica instituto de investigación.

Nuestro pequeño grupo de bioinformática están comenzando el proceso de
analysisng un nuevo genoma (y transcriptoma) para el hámster chino
Ovario (PARA) línea celular que se ha publicado recientemente (Xu et al., La
secuencia genómica del ovario de hámster chino (PARA)-K1 línea celular. Nat
Biotechnol. 2011 Julio 31;29(8):735-41. DOI: 10.1038/nbt.1932.) por otro
grupo. Hacemos un montón de trabajo funcional de este organismo y que está buscando
para algunas directrices sobre buenas (los artículos publicados, recursos en línea, etc.)
que podría ayudarnos a trazar algunos objetivos alcanzables en relación con el
in silico caracterización de este genoma.

Por ejemplo, después de la secuencia se publica, lo son el siguiente paso(con)
en el suministro de información relevante? Las listas de los SNPs? Previsto
proteoma / secretoma / número de tipos de proteína predice (g.
quinasas / g de acoplamiento / nuclear / membrana localizada-), etc.?

Estoy buscando a través del Proyecto del Genoma Humano de Publicaciones lista
en busca de inspiración, pero este tipo de análisis de la producción es relativamente nuevo para
nuestro grupo (por lo general estamos más centrados en la medicina traslacional). Es
Hay algunas pautas recomendadas de su instituto puede sugerir para
siguiendo los pasos del PGH en el análisis in silico de la novela
genomas / transcriptomes? ¿Puede su organización sugieren un par de claves
papeles o tal vez una estrategia de un buen análisis?

Saludos cordiales,
Padraig Doolan

UCSC general, trata de limitar la discusión a las especificidades de los datos y el software en su sitio–porque esa es su misión, por supuesto, y porque no pueden ser todas las cosas la genómica a todo el mundo–que no tendría tiempo para su propio trabajo. Pero este era un caso especial, y se reunieron una respuesta muy fresco para Padraig y su equipo.

El papel de CHO que hace referencia a Padraig tuve recordaba haber visto en el momento, pero yo no investigar más a fondo. Así que me puse a buscar para ver si el grupo había un navegador creado, y yo era incapaz de encontrar una. Encontré una vista previa de la Asamblea en Ensembl. Pero puedo ver por qué un grupo local que necesita más detalles en su propia colección y por qué querría hacer algunas cosas en sí mismas demasiado. Y, posiblemente, una manera fácil de extender la secuencia de referencia con sus propios datos en lugar de esperar a que un equipo grande navegador para llegar a ella.


Hola Padraig,

Le pregunté a nuestros ingenieros y tiene esta lista de recomendaciones para que:

1) La alineación de todos los ARNm GenBank de hámster chino
2) La alineación de todos sus datos transcriptoma propio
3) La alineación de todos los de tecnologías ecológicamente racionales GenBank de hámster chino
4) Mapeo de las proteínas humanas que provienen ya sea el conjunto de genes UCSC o RefSeq
5) Mapeo de las proteínas de ratón o de la UCSC RefSeq
6) Hacer una alineación de las especies del genoma del ratón con múltiples, rata, conejo,
Sin embargo,, elefante, zarigüeya, ornitorrinco, pollo. Hacer las alineaciones por parejas, así.
7) Mina de la genómica y transcriptómica lee lee de SNPs. Tener cuidado
no llamar a las regiones recientemente duplicada y se separaron ligeramente
ligeras divergencias como SNPs, aunque.
\8) Ejecutar varias repetir buscadores.
9) Ejecute el detector de la isla CpG.
10) Ejecutar un programa de predicción de genes buenos como Augusto.
11) Trate de encontrar un grupo de laboratorio húmedo dispuesto a hacer algunos ensayos DNAsa….

Espero que esto te ayude. Buena suerte con tu trabajo!

Brooke Rhead
UCSC Genoma Bioinformática Grupo


Pensé que esto era más o menos la lista de las cosas que me gustaría ver un nuevo genoma en un nuevo navegador. Y la razón por la que creo que esto es especialmente importante es porque no sólo va a ser cada vez más de este. Con las nuevas tecnologías de secuenciación y el diluvio de datos, más grupos se van a encontrar con datos de secuencias importantes para sus laboratorios o sus investigadores locales. Podría ser pacientes, podrían ser organismos modelo, podrían ser las especies. ¿Cómo proceder con estos datos es importante.

¿Qué más se puede hacer? ¿Tiene otras recomendaciones para los grupos frente a esta?

También hoy los invito a que acaba de suceder en cuenta que Jonathan Eisen vinculada a un documento que pueda ofrecer orientación a las personas con nuevos genomas: Papel importante en los estándares de anotación de los genomas bacterianos / archael — preparando para la “datos diluvio”. Creo que esto es un gran, y un debate crucial y la conciencia de tener en este momento. Por las mismas razones–gente nueva se va a enfrentar con el montaje y anotar las características de los nuevos genomas a precios increíbles, y hemos aprendido algunas cosas sobre las mejores prácticas y las necesidades de la. Por supuesto, las cosas van a evolucionar–pero algunos buenos puntos de partida son una guía muy útil.

EDITAR: acaba de recibir una nota de los investigadores de papel CHO, y me apuntan a este sitio para algunas de las herramientas:


Xu, X., Nagarajan, H., Lewis, N., Pan, S., Cai, Z., Liu, X., Chen, W., Xie, M.,, W., Hammond, S., Andersen, M., Neff, N., Passarelli, B., Koh, W., Ventilador, H.,, J., Gui, Y., Sotavento, K., Betenbaugh, M., Terremoto, S., Familia, I., Palsson, B., &, J. (2011). La secuencia genómica del ovario de hámster chino (PARA)-K1 línea celular Nature Biotechnology, 29 (8), 735-741 DOI: 10.1038/nbt.1932

Klimke, W., O'Donovan, C., Blanco, O., Deficiencias, J., Clark, K., Fedorov, B., Mizrachi, I., Pruitt, K., & Tatusova, T. (2011). Resolver el problema: Normas del genoma de anotación antes del diluvio de datos Las normas en Ciencias Genómicas, 5 (1), 168-193 DOI: 10.4056/sigs.2084864