Archivo de la etiqueta: Biomart

Vídeo Consejo de la semana: TargetMine, Data Warehouse for Drug Discovery

Browsing around genomic regions, layering on lots of associated data, and beginning to explore new data types I might come across are things that really fire up my brain. Para mí, visualization is key to forming new ideas about the relationships between genomic features and patterns of data. But frequently I want to take this to the next step–asking where else these patterns appear, how many other instances of this situation are there in a data set, and maybe adding additional complexity to the problem and refine the quest. This is not always easy to do with primarily visual software tools. This is when I turn to tools like the UCSC Browser Tabla, BioMart, y internacionales mina to handle some list of genes, or regions, or features.

We’ve touched on all of these before–sometimes with full tutorial suites (UCSC, BioMart), and sometimes as a Consejo del la Semana, internacionales mina y InterMine para consultas complejas. Learning about the foundations of these tools will let you use various versions or flavors of them at other sites. I love to see tools that are re-used for different topics when that’s possible, rather than building a whole new system. There are ModENCODE, rata, yeast mines, y más. This week’s tip is about one of those others–TargetMine is built on the InterMine foundation, with a specific focus on prioritizing candidate genes for pharmaceutical interventions. Desde their site overview, I’ll add this description they use: TargetMine

TargetMine is an integrated data warehouse system which has been primarily developed for the purpose of target prioritisation and early stage drug discovery.

For more details about their framework and philosophy, you should see their papers (relacionados a continuación). The earlier one sets out the rationale, the data types, and the data sources they are incorporating. They also establish their place in the ecosystem of other databases in this arena, which helps you to understand their role. But you should see the next paper for a really good grasp of how their candidate prioritization work with the “Integrated Pathway Clusters” concept they’ve added. They combined data from KEGG, Reactome, y NCI’s PID collections to enhance the features of their data warehouse system.

This week’s Video Tip of the Week highlights one of the tutorial movies that the TargetMine team provides. There’s no spoken audio with it, but the captions that help you to understand what’s going on are in English. I followed along on a browser with their example–they have a sample list to simply click on, and you can see various enrichments of the sets–vías, Gene Ontology, Disease Ontology, InterPro, CATH, and compounds. They call these the “biological themes” and I find them really useful. You can create new lists from these theme collections. They also illustrate the “template” option–pre-defined queries with typical features people may wish to search. The example shows how to go from the list of genes you had to pathways–but there are other templates as well.

Another section of the video has an example of a custom query with the Query Builder. They ask for structural information for proteins targeted by acetaminophen. It’s a nice example of how to go from a compound to protein structure–a question I’ve seen come up before in discussion threads.

In their more recent paper (also below), they have some case studies that illustrate the concepts of prioritizing targets for different disease situations with their system. They also expand on the functions with additional software to explore the pathways: http://targetmine.mizuguchilab.org/pathclust/ .

So have a look at the features of TargetMine for prioritization of candidate genes. I think the numerous “themes” are a really useful way to assess lists of genes (or whatever you are starting with).

Enlaces rápidos:

TargetMine: http://targetmine.mizuguchilab.org/ [nota: their domain name has changed since the publications, this is the one that will persist.]

internacionales mina: http://intermine.github.io/intermine.org/

Referencias:

Chen, Y., Tripathi, L., & Mizuguchi, K. (2011). TargetMine, an Integrated Data Warehouse for Candidate Gene Prioritisation and Target Discovery PLoS ONE, 6 (3) DOI: 10.1371/journal.pone.0017844

Chen, Y., Tripathi, L., Dessailly, B., Nyström-Persson, J., Ahmad, S., & Mizuguchi, K. (2014). Integrated Pathway Clusters with Coherent Biological Themes for Target Prioritisation PLoS ONE, 9 (6) DOI: 10.1371/journal.pone.0099030

Kalderimis A., R. Lyne, D. Butano, S. Contrino, AbT.l. Lyne, J. Heimbach, F. Hu, R. Herrero, R. Stěpán, J. Sullivan & G. Micklem & (2014). internacionales mina: extensive web services for modern biology, Nucleic Acids Research, 42 (W1) W468-W472. DOI: http://dx.doi.org/10.1093/nar/gku301

Vídeo Consejo de la semana: InterMine para consultas complejas

Hemos sido fans de InterMine durante mucho tiempo. Hicimos un punta-de-la-semana de hace un tiempo que destacan las formas que este software se puede utilizar para la mina de los proyectos de grandes volúmenes de datos de muchos tipos. El marco genérico de InterMine se puede personalizar para su uso en diferentes proyectos–hoy voy a incluir videos de la instalación FlyMine y el sabor YeastMine–pero usted puede encontrar versiones de esta herramienta práctica en muchos otros lugares también.

El primer video es una visión más amplia de los diferentes tipos de cosas que puedes hacer–y aunque esto es FlyMine, usted encontrará un comportamiento similar a las otras minas también.

Este siguiente video es más específica acerca de una tarea que la gente necesita para llevar a cabo–de trabajo con una lista de genes. Este ejemplo fue producido recientemente por la gente YeastMine, pero de nuevo esto debería funcionar de una manera similar a través de otras minas. También debe leer el SGD entrada en el blog sobre el mismo–Crear, Analizar, Guardar: el Poder de las listas de genes en YeastMine.

La otra cosa que me llamó la atención de este marco es el esfuerzo de varias de estas minas organismo modelo para coordinar en este Intermod estructura. Aunque a menudo soy cuidadoso de “una búsqueda para gobernarlos a todos” tipo de esfuerzos, no puede haber valor en esto como un principio organizador central porque estamos añadiendo más especies genomas que pueden no tener las comunidades y la infraestructura para apoyarlos como bien desarrollados.

Ciertamente yo uso un montón de herramientas de consulta que son similares a estos–como el UCSC Browser Tabla, y BioMart. UniProt Ofrece maneras de construir consultas que es diferente, pero conceptualmente similar. El uso de estas interfaces se pueden construir algunas formas inteligentes y complejos para extraer información de los repositorios de datos.

Enlaces rápidos:

internacionales mina: http://intermine.github.io/intermine.org/

FlyMine: http://www.flymine.org/

YeastMine: http://yeastmine.yeastgenome.org/

Intermod: http://intermod.intermine.org

Referencias:

Smith RN, Aleksic, J., Butano D., Carr A., Contrino S., Hu F., Lyne M., Lyne R., A Kalderimis. & Rutherford K. & (2012). internacionales mina: un sistema de almacén de datos flexible para la integración y el análisis de los datos biológicos heterogéneos., Bioinformática (Oxford, Inglaterra), DOI:

Lyne R., R. Smith, Rutherford K., Wakeling M., Varley A., Guillier F., Janssens, H., Ji W., Mclaren P. & Norte P. & (2012). FlyMine: una base de datos integrada para Drosophila y Anopheles genómica., Biología del Genoma, Palabras:

R. Balakrishnan, Parque J., K. Karra, Hitz aC, Binkley G., Hong E.L., Sullivan J., Micklem T. & Cereza J.M. (2012). YeastMine–un almacén de datos integrada para datos de Saccharomyces cerevisiae como un juego de herramientas multiuso., Base de datos : la revista de bases de datos biológicos y la preservación, Palabras:

Sullivan J., K. Karra, Moxon S.A.T., Vallejos, A., Motenko H., Wong J.D., Aleksic, J., R. Balakrishnan, Binkley T. & Harris T. & (2013). Intermod: integrado de datos y herramientas para la unificación de la investigación organismo modelo., Los informes científicos, 3 (1802) Palabras:

Vídeo Consejo de la semana: Portal ICGC para la genómica del cáncer

A cuestión en Biostar sobre el cáncer “conjuntos de genes” recientemente me quedé mirando una de mis fuentes de datos favoritos de nuevo–la ICGC, Internacional del Genoma del Cáncer Consorcio, y su portal de datos. Anterior Mensajes que hemos hecho se basaron en su portal legado (que todavía está disponible en su sitio). Cambiaron un poco las cosas con un lanzamiento el otoño pasado, y no me había cubierto esos cambios aún.

Convenientemente, que han hecho un breve video que explica cómo acceder a los datos que se ofrecen. Han continuaron añadiendo nuevos datos, y perfeccionar el software. Usted debe comprobar que funciona.

ICGC Portal de Datos Tutorial de ICGC en Vimeo.

En el pasado me encontré con algo de información realmente útil para comparar con una línea celular de cáncer de pulmón que había estado examinando. Vi la misma mutación en muestras de tumores reales como se había encontrado en esta línea celular años atrás. Pero también ha habido publicaciones recientemente que hablan con más detalle sobre el proyecto y algunos resultados interesantes de datos que se han encontrado allí (relacionados a continuación).

Usted realmente necesita para ser la minería de estos proyectos para los datos si cubren su área de investigación. Hay mucho que aprender que no se ha publicado aún–sólo asegúrese de leer sobre su políticas de uso antes de entregar sus grandes descubrimientos a las revistas!

Enlace rápido:

Portal de Datos: http://dcc.icgc.org/

Página principal del proyecto: http://icgc.org/

Referencias:

Hudson (Presidente) T.J., W. Anderson, Areta A., Barker dC, Campana C., Bernabé R.R., Bhan M.K., Calvo F., Eerola I. & Gerhard D.S. & muchos otros en un gran consorcio… (2010). Red internacional de proyectos del genoma del cáncer, Naturaleza, 464 (7291) 993-998. DOI:

Alexandrov L.B., Nik-Zainal S., Cuña DC, Aparicio S.A.J.R., Behjati S., Biankin A.V., Bignell G.R., Bolli N., Borg A. & Borresen-Dale A.L. & muchos otros en un gran consorcio…; (2013). Firmas de los procesos de mutación en el cáncer humano, Naturaleza, 500 (7463) 415-421. DOI:

Gonzalez-Perez A., Mustonen, V., Reva B., Ritchie G.R.S., Creixell P., Karchin R., Vázquez M., Fink J. L., Kassahn K.S. & Pearson J.V. & muchos otros en un gran consorcio… (2013). Computacional enfoques para identificar variantes genéticas funcionales en los genomas del cáncer, Nature Methods, 10 (8) 723-729. DOI:

¿Cuál es la respuesta? (Gene ID de conversión)

Biostar es un sitio para pedir, responder preguntas y discutir la bioinformática. Somos miembros de lala comunidad y resulta muy útil. A menudo las preguntas y respuestas surgen en BioStar que guardan relación con nuestros lectores (usuarios finales de los recursos genómica). Todos los jueves vamos a destacar una de las preguntas y respuestas aquí en este hilo. Usted puede hacer preguntas en este tema, o que siempre puede participar en BioStar.

Pregunta destacado de esta semana:

¿Qué es una buena “Identificación de genes herramienta de conversión de

Esta es una pregunta más, de 2 años, pero sigue siendo pertinente y las respuestas todavía bastante servicial y lleno de recursos, tales como DAVID, BioDBnet, BioMart y otros.

Échale un vistazo. También, posible que desee revisar la tercer ejercicio de nuestra UCSC Tutorial Avanzado . El ejercicio:

“De una lista de los genes de la UCSC, añadir símbolos de genes y GO identificadores para obtener información adicional sobre el conjunto de genes. Paso de bonificación: añadir los términos de GO.”

Camina a través de cómo usted podría ser capaz de hacer esto con el Explorador de tablas UCSC, con algunas modificaciones simples.

Consejos Video de la Semana: IV Examen Anual, 2º medio

Como usted puede saber, que hemos estado haciendo estos vídeos consejos de la semana de CUATRO años. Hemos completado todo 200 la introducción de poco bocado a los distintos recursos que el año pasado, 2011 (sí, es 2012 ahora). Al final del año hemos establecido una especie de tradición navideña: estamos haciendo un resumen de mensaje para reunir a todos. Si te has perdido alguno de ellos es una gran manera de tener un rápido vistazo a lo que podría ser útil para su trabajo.

Usted puede ver los últimos años’ consejos aquí: 2008 En, 2008 II, 2009 En, 2009 II, 2010 En, 2010 II. La resumen de la primera mitad del 2011 está disponible desde la semana pasada.

De julio 2011

De julio 6: Genes priorizar la utilización del Portal La priorización de genes

De julio 13: PolySearch, búsqueda de bases de datos a la vez

De julio 20: Hub humanos visualización Epigenomics

De julio 27: El nuevo Portal de Recursos Bioinformática SIB

 

De agosto 2011

De agosto 3: SNPexp, correlación entre los SNPs y la expresión génica

De agosto 10: CompaGB software para comparar el genoma del navegador

De agosto 17: CoGe, La comparación de genomas revisitado

De agosto 24: Dibuje los diagramas de dominio motivo rápida

De agosto 31: Desde UniProt a la SBKB PSI y de vuelta

 

De septiembre 2011

De septiembre 7: Planta de la genómica comparativa con Plaza

De septiembre 14: phiGENOME de exploración del genoma de bacteriófagos

De septiembre 21: Obtención de secuencias de acompañamiento de los lugares genómica

De septiembre 28: Introducción al software estadístico R

 

De octubre 2011

De octubre 5: VND fuente de información la variación genética y las drogas

De octubre 12: Hubs pista en UCSC Genome Browser

De octubre 19: Mitocondrial Transcriptome GBrowser

De octubre 26: Variación de datos de Ensembl

 

De noviembre 2011

De noviembre 2: MizBee Sintenía Browser

De noviembre 9: La nueva base de datos de variantes genómicas: DGV2

De noviembre 16: MapMi, mapeo automatizado de los microARN locyo

De noviembre 23: BioMart es nuevo portal central

De noviembre 30: Phosphida, una modificación post-traduccional de base de datos

De diciembre 2011

De diciembre 7: VarSifter, para identificar las variaciones secuencia de teclas

De diciembre 14: Grandes cambios en el genoma NCBI recursos

De diciembre 21: ponche para las fiestas (o para explorar los genes ortólogos)

De diciembre 28: Consejos Video de la Semana: IV Examen Anual (primer semestre de 2011)

Vídeo Consejo de la semana: BioMart es nuevo portal central

BioMart es ampliamente utilizado de administración de datos de código abierto, con una interfaz que permite a los usuarios finales para generar consultas complejas y personalizadas a través de muchos tipos y fuentes de datos biológicos. Es parte de la GMOD kit de herramientas, y muchos equipos de proyecto que tienen grandes volúmenes de datos han optado por la BioMart software para organizar y hacer que sus datos a su disposición.

Hemos sido fans de BioMart años. Fue una de las primeras herramientas de software que se describe, ya que se integró en muchos de los sitios que hemos cubierto–como Ensembl. Finalmente lo rompió en su conjunto propio tutorial, aunque, ya que ahora hay decenas de grupos que han construido su propio Marts. Aunque la piel puede cambiar y los conjuntos de datos que están disponibles pueden variar en diferentes lugares, las características del software subyacentes son los mismos. Aprender a utilizar el portal principal BioMart le ayudará a utilizar todos ellos. Hasta hace poco la lista de proveedores de datos que utiliza BioMart estaba en la página de inicio, pero aquí está una muestra de que la lista de mis diapositivas:

En este consejo de video voy a presentar el recién re-diseñado sitio BioMart principal, y que afecta a algunos de la otra versión de BioMart que usted debe conocer. Estaremos actualizando nuestro tutorial conjunto con el nuevo aspecto poco, pero la mayoría de la funcionalidad del software es el mismo que hemos cubierto de otra manera (disponible por suscripción).

Hay dos versiones principales de BioMart circulando en este momento. El v 0.7 es el que probablemente será más familiar para las personas que han encontrado BioMart en cualquiera de los sitios de la genómica que tienen instalaciones en este momento. Pero hay una nueva y rediseñada v 0.8 que está en desarrollo. Es el que se utiliza en el Consorcio Internacional del Genoma del Cáncer (ICGC.org) y también hay una 0.8 BioMart portal central disponible para probar. Con el tiempo esto puede cambiar muchas de las 0.7 configuraciones, pero esto depende del sitio. Algunos persisten con 0.7 por un tiempo en lugar de actualizar. Así que es probable que sea prudente para tener una idea de cómo usar los dos en este momento.

Una de las características de la interfaz de BioMart nuevo que ya tiene la gente a hablar de bioinformática es el convertidor de ID. Este es un problema común en el campo, y Steven Turner pensó que esto era un aspecto agradable de la cirugía estética: BioMart Gene ID del convertidor.

También quería señalar que BioMart es una de las herramientas que puede utilizar en Galaxia para acceder a grandes franjas de los datos para su posterior análisis. En Galaxy, abrir el “Obtener datos” menú para ver que BioMart es una de las opciones.

También había un montón de rumores acerca de BioMart la semana pasada cuando un “Edición Virtual”de la base de datos de revistas fue puesto en libertad que no sólo tenía una visión general sobre el artículo BioMart en su conjunto, sino también varios de los recursos que utilizan BioMart para su gestión y las interfaces de consulta, así. Así se puede ver cuán ampliamente útil este software es, entre los diferentes tipos de proveedores de datos. Puede utilizar las instalaciones locales de BioMart en el sitio de un proveedor, o puede usar el sitio principal para la consulta de cualquiera de estas fuentes, así–y con más fuerza se puede cruzar bases de datos de consulta muy.

Enlaces rápidos:

BioMart principal del sitio: http://www.biomart.org/

BioMart nuevo estilo Bio Centro portal: http://central.biomart.org/

BioMart páginas GMOD: http://gmod.org/wiki/BioMart

Edición virtual de base de datos en BioMart: http://www.oxfordjournals.org/our_journals/databa/biomart_virtual_issue.html

Referencias:

Kasprzyk, A. (2011). BioMart: la conducción de un cambio de paradigma en la gestión de datos biológicos Base de datos, 2011 DOI: 10.1093/database/bar049

Zhang, J., Haider, S., Baran, J., Cros, A., Guberman, J., Hsu, J., Liang, Y., Yao, L., & Kasprzyk, A. (2011). BioMart: una federación de datos marco de grandes proyectos en colaboración Base de datos, 2011 DOI: 10.1093/database/bar038

Guberman, J., A, J., Arnaiz, O., Baran, J., Blake, A., Baldock, R., Chelala, C., Croft, D., Cros, A., Cutts, R., De Génova, A., Forbes, S., Fujisawa, T., Gadaleta, E., Goodstein, D., Gundem, G., Haggarty, B., Haider, S., Sala, M., Harris, T., Haw, R., Hu, S., Hubbard, S., Hsu, J., Iyer, V, Jones, P., Katayama, T., Kinsella, R., Kong, L., Lawson, D., Liang, Y., López-Bigas, N., Luo, J., Exuberante, M., Albañil, J., Moreews, F., Ndegwa, N., Oakley, D., Pérez-Llamas, C., Primig, M., Rivkin, E., Rosanoff, S., Pastor, R., Simon, R., Skarnes, B., Smedley, D., Sperling, L., Spooner, W., Stevenson, P., Piedra, K., Teague, J., B.ng, J., B.ng, J., Whitty, B., Wong, D., Wong-Erasmus, M., Yao, L., Youens-Clark, K., Yo, C., Zhang, J., & Kasprzyk, A. (2011). BioMart Portal Central: una red de base de datos abierta para la comunidad biológica Base de datos, 2011 DOI: 10.1093/database/bar041

Haider, S., Ballester, B., Smedley, D., Zhang, J., Arroz, P., & Kasprzyk, A. (2009). BioMart Portal Central–acceso unificado a los datos biológicos Nucleic Acids Research, 37 (Servidor Web) DOI: 10.1093/nar/gkp265

La Vuelta al Mundo de los talleres, reciente parada: Marruecos, África

Entrenadores & los organizadores

El año pasado tuve la oportunidad de dar un taller en Marruecos Ifrane (UCSC Genoma y la Tabla navegadores, Galaxia) en la Universidad Al Akhawayn. Este año, María y yo regresamos de un taller más largo de 3 días en Universidad Hassan II en la Mohammadia. OpenHelix fue uno de los patrocinadores del taller (la donación de nuestro tiempo, materiales y conocimientos técnicos). El taller abarcó una gran cantidad de temas de una gira mundial de los recursos (tutorial-libre) y de introducción UCSC Genome Browser (tutorial-libre) y CODIFICAR (tutorial-libre) para el análisis del genoma variación en dbSNP (tutorial-suscripción) y el análisis utilizando Galaxia (tutorial-suscripción). Se puede ver el calendario completo de los temas Mohammadia Taller Calendario aquí (pdf).

Como el año pasado, nos quedamos impresionados con los estudiantes (había 117 total, sobre 50/50 relación de género). Inglés es el idioma 3 o 4 en la mayoría de los casos, El árabe marroquí, Lenguas africanas francés o varios que el idioma de su elección. Todavía, que era atento y preguntas muy perspicaces y fascinante. También fueron muy entusiastas

Los estudiantes del taller

los alumnos. Fue un placer para enseñarles.

Nos gustaría dar las gracias Mohammed Bourdi en los NIH, que pasó una gran cantidad de tiempo y recursos financieros para organizar este (y el año pasado) taller. Esperamos repetir y ampliar estos para el próximo año y tal vez los próximos años. Estaremos buscando patrocinadores.

Se hicieron varias preguntas en el taller, nos gustaría reiterar aquí las respuestas y buscar algunas respuestas de nuestros lectores:

*Un estudiante fue en busca de recursos genoma del trigo para el diseño de primers. El genoma del trigo es aún incompleta, pero hay algunos recursos para empezar:
Trigo Consorcio de Secuenciación del Genoma
Recursos Gramene de trigo
Trigo de Recursos Genéticos y Genómica del Centro @ Kansas State
Tal vez también COGE de secuencias conservadas
editar para agregar:
CerealsDB y
James’ puesto en el borrador de la secuencia trigo podría dar una idea de ese enorme genoma.
*Otro estudiante le preguntó sobre las herramientas de diagrama de dispersión:
Galaxia ofrece una gran colección de herramientas que incluyen el análisis de EMBOSS diagrama de dispersión, al igual que EBI relieve herramienta

* Otra cuestión se refería a la búsqueda de una programación "dinámica’ (solución óptima) herramienta de alineación de secuencias múltiples en lugar de una heurística una. El problema con esto es la complejidad del espacio de búsqueda de una solución de programación dinámica, este conjunto de diapositivas podría ayudar en el entendimiento, especialmente diapositivas 1-5 y 17-22. Es demasiado intensivas de calculo. Dicho esto, el estudiante que desee ver MSAProps y esta lista en Wikipedia.

¿Nuestros lectores tienen más orientación a este?

Enseñanza momento

* Otro estudiante preguntó si sabemos cómo encontrar pasantías DC-área de las ciencias biológicas. Otro estudiante (matemático de Malí) Estaba buscando algo en los EE.UU. en bioinformática. ¿Alguna idea de los programas para que los estudiantes africanos la biología a los EE.UU. o Canadá?

Si nuestros estudiantes marroquíes (o cualquier otra persona) tiene alguna pregunta adicional, por favor no dude en preguntar aquí!

 

Y un lado de la nota. El año pasado tenía todas las de 3 horas para visitar Fez. Este año me aproveché de mi viaje. María y yo pasamos unos días en Fez y Marrakech. Mi familia se unió a nosotros en Marrakech y luego mi familia y yo viajamos por 8 los días de visita al Atlas, el Sahara y Fez. Ni que decir tiene, se trataba de un viaje de su vida. Marruecos es un lugar fascinante y hermoso. Espero poder visitar de nuevo.

Puertas y las puertas de Fez son hermosas

excursión en camello en el Sahara

 

 

 

 

Internacional del Genoma del Cáncer Consorcio; Entrevista con Tom Hudson

Hemos habló sobre el Consorcio del Genoma del Cáncer Internacional (ICGC) antes de que un número de veces, y tuvimos una Consejo del la Semana en el proyecto y la base de datos el año pasado. Quizá sea el momento para una nueva punta, porque su sitio y el software ha cambiado. Uno de los aspectos muy fresco del acceso a los datos que está utilizando el BioMart herramienta de consulta para la interfaz de–pero es la v0.8 estilo vanguardista de BioMart que tiene algunas nuevas características agradables.

De todos modos, Vi un tweet acerca de esta mañana una entrevista con uno de los directores de las ICGC, Tom Hudson. Es una buena entrevista que habla sobre el proyecto, el progreso, y más. Si usted no ha estado siguiendo el trabajo del ICGC es que podría usar esta entrevista como un punto de partida bueno que. Y luego echa un vistazo a los datos–y la interfaz de BioMart que está disponible en el sitio.

Entrevista (y un sombrero de punta para el tweeter que me señaló que):

RT @ ResearchMedia: Dr. Thomas Hudson de la Secretaría de ICGC describe el beneficio de trabajar como un consorcio en la lucha contra el cáncer # http://t.co/CqM1UQm

Visite el ICGC: http://www.icgc.org/ y haga clic en el Portal de Datos de comenzar a mirar los datos que fluyen en la actualidad.

 

Consejo del la Semana: InterMine para la minería “de datos grandes”

La integración de grandes conjuntos de datos para consultas en–ya través de–varias colecciones es uno de los campos que últimamente ha estado muy activo en la bioinformática. A medida que más y más “de datos grandes” proyectos de producción un gran número de puntos de datos y tipos de datos, esto sólo es cada vez más necesario. Me encanta ver los datos, pero hay momentos en que una consulta personalizada a gran escala es lo que usted querrá hacer algunos descubrimientos más amplio.

En estos momentos hay una serie de recursos e interfaces que me dirijo a las consultas estructurado y personalizado de colecciones de datos. La UCSC Browser Tabla, BioMart, Galaxia–estos son los que yo tengo mis manos en forma casi continua. Pero hay otro almacén y un sistema de interfaz que estamos viendo más y más: internacionales mina.

Mi primer encuentro real con InterMine fue para el modENCODE datos. Hay algunos datos realmente genial que sale de ese proyecto ahora (He hablado un poco sobre eso con este nombre), y la interfaz y el sistema de almacenamiento que están utilizando es InterMine.

FlyMine fue el impulso inicial para el “Mía” sistema. Hace algunos años FlyMine fue creado como un almacén y un sistema de consulta para la creciente cantidad de datos de vuelo que venía de varios proyectos. El objetivo era contar con un sistema de gran alcance suficiente para bioinformática + super usuarios, sino también una interfaz amigable y potente para los biólogos de laboratorio a la utilización.

El documento inicial que se describe los componentes básicos: una interfaz de usuario con 3 componentes principales: una búsqueda rápida, ideal para la navegación; una biblioteca de plantillas que permite a los usuarios tener acceso a algunos tipos de consultas predefinidas estándar o probable que se pueda ajustar a sus necesidades; y una consulta totalmente personalizable Builder para el acceso más avanzado. Dado que este desarrollo ha continuado papel, y hay otras características nuevas y frescas presentes, así.

Otro gran objetivo de los esfuerzos FlyMine iba a ser capaz de lidiar con las listas. Una de las preguntas más comunes que todavía se está en los talleres: “Tengo una lista de _____. ¿Cuál es la mejor manera de lidiar con eso?” FlyMine–y el InterMines en general–ayudar a la gente para consultar y gestionar sus exploraciones con listas de cosas.

La característica de la MyMine InterMines es también un componente agradable. Usted puede crear un nombre de usuario y guarde cosas que desea tener acceso a repetirse: consultas, listas, etc.

Hay otras personas que utilizan InterMine para sus sistemas demasiado–un artículo reciente sobre TargetMine, de “Gen de prioridades y la detección de destinos” está disponible, y puede aparecer como una punta de próxima! Jennifer tenía una punta de YeastMine de SGD una vez, así.

Sin embargo, lo que provocó que yo haga este consejo es que llegó una carta de la RGD la lista de correo la semana pasada que dijo que este:

Partir del viernes, De mayo 20ª, 2011 la herramienta MCW BioMart será retirado por RGD y la Proteómica Centro MCW. Para los datos de rata mineras, hemos encontrado que la herramienta RatMIne es más fácil de usar, más flexible e incorpora más tipos de datos que los BioMart. Además, RatMine incluye herramientas de análisis que no se encuentran en BioMart, dando a los usuarios un único RatMine, interfaz intuitiva para la obtención y análisis de datos.

Por lo que se mueve completamente a InterMine y retirar el BioMart Rata, exclusivamente con RatMine en su instalación. Lo que este truco de la semana explorará InterMine, RatMine, y algunas otras minas. Eso es mucho camino por recorrer–pero probablemente vale la pena su tiempo para saber sobre InterMine medida que esté más ampliamente disponible. También es importante entender cómo consultar con las minas, si usted quiere traer los datos al Galaxy para su posterior análisis. Si usted visita Galaxy verá que su “Obtener datos” sección le permite acceder a las herramientas de Minas–pero usted todavía necesita saber cómo hacer las consultas básicas en el lugar de primera acogida.

A pesar de este consejo va a tocar en RatMine, el enfoque es el más general InterMine conjunto. RGD también dijo que este en su aviso:

Para una visión general de RatMine y cómo usarlo, ir al video tutorial RGD, “Una introducción a la base de datos RatMine”, en http://rgd.mcw.edu/wg/home/rgd_rat_community_videos/an-introduction-to-the-ratmine-database2. Alternativamente, siga las “excursión autoguiada” de RatMine haciendo clic en el “Haga un recorrido” en la parte superior de cualquier página de RatMine.

Para probar por ti mismo RatMine, ir a http://ratmine.mcw.edu/ y empezar a trabajar con la minería de datos y el análisis simplificado.

Así que si quieres tener información más específica sobre el uso RatMine, asegúrese de revisar su introducción.

Enlaces rápidos:

internacionales mina: http://intermine.org/

RatMine: http://ratmine.mcw.edu/

modENCODE: http://www.modencode.org/

Galaxia: http://usegalaxy.org/

De referencia:
Lyne, R., Herrero, R., Rutherford, K., Wakeling, M., Varley, A., GuillierJanssens, F., Janssens, H., Su, W., Mclaren, P., Norte, P., Rana, D., Riley, T., Sullivan, J., Watkins, X., Woodbridge, M., Lilley, K., Russell, S., Ashburner, M., Mizuguchi, K., & Micklem, G. (2007). FlyMine: una base de datos integrada para la genómica de Drosophila y Anopheles Genome Biology, 8 (7) DOI: 10.1186/GB-2007-8-7-R129

La minería del “de datos grandes” es…fascinante. Y necesario.

Cuando tenemos talleres subiendo, Paso algún tiempo en torno a las herramientas en los datos grande para ver si ha habido cambios desde la última vez que hablé sobre ello, actualización de las diapositivas, si es necesario, y, a veces formando una hipótesis y las pruebas que. (PS: estamos en el Baylor siguiente, si alguien está buscando un taller allí.) El viernes me estoy totalmente perdido en una consulta que se inició a UCSC en el CODIFICAR datos, y terminó en el ICGC BioMart. Y wow. ¿Me gustaría tener un laboratorio de Somedays….

Uno de los comentarios en nuestro último taller fue que los datos de ENCODE en líneas celulares no es lo mismo que ver a los tejidos. Y estoy totalmente de acuerdo con que–pero el ratón codificar los datos que va a ayudar a conseguir ese tipo de datos. Pero como alguien que pasó mucho tiempo el cultivo de células en el pasado, Estoy interesado en saber cómo las diferentes líneas celulares son de “de referencia” genoma complemento. Y hay una parte específica del ser humano ENCODE proyecto que está buscando en este: Comunes celular CNV pista.

Esto es lo que hizo: una consulta del Explorador de la tabla para buscar los tipos de variaciones estructurales que estaban surgiendo en el 3 líneas celulares que han sido examinados: GM12878, HepG2, y K562. Me preguntaba a mí mismo: cuántas de estas CNVs se solapan con los genes conocidos? Y qué tipos de modificaciones son los que? He aquí una muestra de cómo estructurada que consulta por una de las líneas celulares:

Esta consulta produce secciones normales, amplificaciones, supresiones–y algunas supresiones son homocigotos, y algunos son heterocigotos. Uno de los puntos que hacen en el taller de ENCODE es que si yo estaba usando una línea celular tengo curiosidad de saber este tipo de cosas sobre ella–Me gustaría que alguien se HeLa y las otras líneas de células grandes que hay demasiado. (Es probable que alguien se, pero no sé acerca de los datos. Si alguien lo tiene, dame un grito.)

Así que estoy trabajando en torno a estas variaciones, y tengo curiosidad por una región en particular en una de las líneas celulares. Se llevó a cabo en una región con algunos genes más importantes a futuro. Fui a la literatura para encontrar que esta región es conocida por ser un problema en algunos tipos de cáncer.

Fui a ver los datos ICGC para ver si algo interesante se estaba convirtiendo con estos genes. Y wow–whadda ya sabes: no hay un montón de datos en el conjunto de datos que aún, pero he encontrado una correspondencia significativa entre algunos de los datos que ya existen en los tumores real y lo que encontré en la línea celular. Es demasiado pronto para establecer conclusiones acerca de que. Es difícil saber en estos proyectos de grandes volúmenes de datos lo que * no * ver, cuánto ya está en no, la cantidad no es, etc. Pero he comprobado un montón de otros genes y ninguno mostró este tipo de patrón que estaba viendo.

Debido a la política de uso ICGC, No creo que puedo hablar específicamente acerca de lo que he visto. Pero fue muy curioso. Si yo tuviera un laboratorio que se han puesto a un estudiante de esta mañana ;)

Y mi punto es este: los datos no están en los periódicos más. Está en las bases de datos. Y tiene que ser la minería–estos proyectos de grandes volúmenes de datos se le entrega la pick-ejes y que lo llevan a las minas.

++++++++++++

Lo que hay que hacer lo que hice:

1. Una comprensión de la UCSC funciones y el Codifica los datos. Echa un vistazo a nuestros tutoriales en los que son de libre acceso, ya que son patrocinados por la UCSC y el equipo de ENCODE en la UCSC.

2. BioMart: tenemos un tutorial en este, pero es en nuestro paquete de suscripción.

Lo que no es necesario: la literatura actual. No está en los papeles, y nunca puede ser. La “de datos grandes” cosas está en las bases de datos, y sólo pequeñas cantidades realmente pueden ser publicados en la forma tradicional.