Archivo de la etiqueta: bases de datos

¿Cuál es la respuesta? Anomalías de base de datos

Biostar es un sitio para pedir, responder preguntas y discutir la bioinformática. Somos miembros de la la comunidad y resulta muy útil. A menudo las preguntas y respuestas surgen en BioStar que guardan relación con nuestros lectores (usuarios finales de los recursos genómica). Todos los jueves vamos a destacar una de las preguntas y respuestas aquí en este hilo. Usted puede hacer preguntas en este tema, o que siempre puede participar en BioStar.

La pregunta de la semana:

Entradas incorrectas / inusual en las bases de datos principales (GenBank, UniProt, AP)? Pierre Poulain pregunta ” En… Aconsejo a mis estudiantes a ser cautelosos con los datos que se pueden encontrar en estas bases de datos. Para ilustrar este, Me pareció bastante inusual entradas en el GenBank:..” y luego las listas de algunos buenos.

Hubo varias interesantes, y divertido, respuestas entre ellos uno de nuestra propia María,

Mi tema favorito de la base de datos era un extraño en PubMed una. Esto fue mucho antes de que el blog se ha creado NCBI ROLF. Yo estaba buscando los genes identificados en la transición a las canas. Esto no fue útil….

http://www.ncbi.nlm.nih.gov/pubmed/12079806

Este es el TÍTULO (nota, No lo abstracto):

Yo soy un hombre de 64 años de edad, y siempre he estado orgulloso de mi récord perfecto estado de salud. También he estado orgullosa de mi cabeza llena de cabello, incluso después de que el gris comenzó a arrastrarse en. Hace cuatro meses Cogí una pulmonía y pasó ocho días en el hospital (tres en cuidados intensivos). Me tomó un tiempo, pero por fin estoy de vuelta a la normalidad – excepto que mi pelo se está cayendo. Se presenta en grupos cuando champú o el peine hasta que, y actualmente se ha vuelto notablemente más delgada de todo. Recuerdo haber leído acerca de Propecia en su boletín de noticias, pero no tengo la vieja cuestión. ¿Debo tratar la medicación?

Echa un vistazo a las otras respuestas de los buenos ejemplos de por qué el investigador siempre debe verificar los datos.

Hay una base de datos para todo, incluso uber-operones

Yo estaba jugando con Característica nueva citación Google Scholar que me permitió recoger mis papeles en un lugar de fácil (funcionó muy bien, IVA, salvar a algunos problemas técnicos, ver más abajo) cuando me di cuenta de que perdió un trabajo mío de 2000: “Conservación genética contexto de un orden superior a operones.” El resumen:

Operones, conjuntos contiguos co-transcritos y co-regulación de los genes, no están bien conservados en cortos períodos de tiempo evolutivo. El orden de los genes, contenido de genes y los mecanismos de regulación de operones pueden ser muy diferentes, incluso en especies estrechamente relacionadas. Aquí, se presentan varias líneas de evidencia que sugieren que, a pesar de un operón y sus genes individuales y las estructuras regulatorias se reorganizan cuando se comparan los genomas de diferentes especies, Este reordenamiento es un proceso conservador. Reordenamientos genómicos siempre mantener los genes individuales en contextos funcionales y reglamentarias muy específicas. Llamamos a este contexto conserva una uber-operón.

El uber-operón. Fue término sugerido mi PI. Vivir y trabajar en Alemania en el momento, Pensé que era un poco raro. De todos modos, Realmente nunca se expandió más que otro papel más o menos en que la investigación y el tipo de pista si pierde ese papel como resultado en gran parte. He escrito en 'uber-operón’ en google hoy y encuentra que ha sido citado varias veces (88) y, Me pareció interesante: ha habido algunas bases de datos construida de “uber-operones.”

Un grupo de investigadores chinos creó el Uber-Operon base de datos. El papel se ve interesante, pero desafortunadamente el servidor no funciona (si esto es temporal o permanente, No sé), la ODB (Operón base de datos) utiliza uber-operones (que ellos llaman operones de referencia) para predecir operones en la base de datos , Nebulón es otro, HUGO es otro. Lea el capítulo sobre los métodos de cálculo para predecir la uber-operones :)

Sólo es para demostrarles, hay una base de datos para todo.

Oh, y de nuevo a Google Scholar cita. Se encontraron casi todos los periódicos que he publicado, a pesar de que perdió dos (incluyendo el de arriba) y tenía dos falsos positivos. Además, muchas citas que faltan (como el 88 para este trabajo, y muchos otros de otros documentos). Eso no quiere decir que no es útil, Me parece una buena herramienta, pero no es perfecto. Usted puede fmás información sobre Google citación erudito ind aquí, y sobre la Característica similar de Microsoft aquí.

Oh, y que este post me puso en el HumbleBrag Salón de la Fama? Si eso es reservado para Twitter, que tal vez debería twitter esta para que pueda llegar :). (aunque no estoy seguro de señalar las bases de datos relativamente pequeñas un papel relativamente menor constituye presumir, humildad o no LOL).

“¿Cuál es la respuesta”

Biostar es un sitio para pedir, responder a la pregunta y discutir la bioinformática

con. Somos miembros de la comunidad y les resulta muy útil. A menudo las preguntas y respuestas surgen en BioStar que guardan relación con nuestros lectores (usuarios finales de los recursos genómica). Todos los jueves vamos a destacar una de las preguntas y respuestas aquí en este hilo. Usted puede hacer preguntas en este tema, o que siempre puede participar en BioStar.

La pregunta de hoy y la respuesta es:

Recomendamos fácil de usar software de clustering de microarrays

La respuesta más alta votación (fue el autor que ha publicado el hilo recomendación):

Uno de mis favoritos es el MEV micro-matriz de datos herramienta de análisis. Es fácil de usar y tiene un gran número de funciones.

Funciona bien para cualquier tipo de datos. También puede cargar en él los datos de un archivo que está en formato de texto simple:

GENE1, valor1, valor2, valor1, valor2

No dude en enviar su herramienta de agrupación favorita.

Varios excelentes herramientas se sugirieron otras, usted puede ver aquí.

Bioinformáticos reales escribir código, verdaderos científicos…

Justo hace una semana, Neil Saunders escribió un post que estaba de acuerdo con: Bioinformáticos reales escribir código. El mensaje fue en respuesta a una conversación tweet que inició:

Muchas preguntas # biostar comenzar "Estoy buscando un recurso ..". La respuesta es a menudo que usted necesita para una solución de código con los datos que ha.

Él tiene razón, y eso es muy cierto para los bioinformáticos a quien está hablando. Mi preocupación es por el resto de los investigadores biológicos. Afirma en el mensaje:

En otras palabras: conocer las fuentes de datos, conocer las herramientas adecuadas y siempre se puede esculpir una solución para su situación.

Esto es muy cierto y todo está de acuerdo corazón. Así que muchas soluciones ya existen en miles de bases de datos y herramientas de análisis. Es lo que hacemos aquí en OpenHelix, ayudar a los biólogos experimentales, Investigación genómica y bioinformáticos encontrar las fuentes de datos y las herramientas adecuadas y luego ir a “esculpir una solución para su situación.”

En la última parte de mi comentario,

BioMart, UCSC Genome Browser, Galaxia, etc, etc, son excelentes herramientas y fuentes de datos y, probablemente, podría responder sobre 80% de las preguntas más planteadas :). Pero mi advertencia sería que el conocimiento de las fuentes de datos y herramientas adecuadas puede ser un poco de una tarea de enormes proporciones.

Y es, a pesar de la respuesta un tanto despreciativa :). Todos hemos visto los gráficos, cantidad exponencialmente creciente de datos en el tiempo. Es un tema como el Chronicle of Higher Education artículo establece el título:

Objeto de dumping por datos: Los científicos dicen que el diluvio se está ahogando la investigación

La revista La ciencia también había todo un 10 artículo sección sobre el tema. No es un problema que va a desaparecer.

Junto con la avalancha de datos, Ha llegado un aluvión de bases de datos y herramientas de análisis de datos (creado en su mayor parte por bioinformáticos!), muchos de los cuales _alone_ son bastante desalentador para encontrar los datos correctos y herramienta dentro de. Hay miles de bases de datos y herramientas tales. He perdido la cuenta.

Neil Saunders es correcta. La solución está ahí fuera, encontrar las herramientas y los datos, esculpir una solución. Responde a mi comentario con “Aprender lo que necesita saber en bioinformática sin duda puede ser desalentador. Pero entonces,, la ciencia no es para intimidar fácilmente por el :-).” En otras palabras, “si se amilanan, no es un científico?”

Damos talleres para investigadores de todo el mundo, desde Singapur a los EE.UU. a Marruecos y en instituciones tan diversas como Harvard, Stanford, Universidad de Missouri, Mt. Sinaí, Stowers y Hudson Alfa-. Los investigadores le hemos dado talleres de preguntas y respuestas fueron variadas también de, los biólogos del desarrollo, evolutivo, los investigadores médicos, bioinformáticos, investigadores muy bien versado en la genómica y los que no.

El tema principal es encontrar y conocer los datos y las herramientas no sólo es desalentador, pero a veces no es posible. No porque no existen, pero debido a la búsqueda y saber que es un drenaje de recursos personales y de laboratorio teniendo en cuenta el campo de corte cada vez mayor de las cosas para encontrar y conocer. Me remito al artículo de Crónica… ahogamiento en los datos..

Ellos son los verdaderos científicos no son fácilmente intimidados, pero desalentado la misma, por lo que está delante de ellos. Y sí, muchas de esas preguntas específicas a las necesidades específicas de investigación pueden ser respondidas por las herramientas existentes. Nos encontramos con muchas preguntas sobre Biostar que un bien elaborado la base de datos de búsqueda o paso de análisis responde muy bien, sin la necesidad de reinventar la rueda con más código (y las respuestas son a menudo el código).

Sospecho que la mayoría de los científicos por ahí que se llaman a sí mismos "bioinformáticos” debe tener una comprensión de las herramientas y bases de datos disponibles para (pero te puedo decir, incluso el más brillante de ellos a veces no). Así que, los consejos y las palabras finales de la entrada en el blog vinculado arriba…

En otras palabras: conocer las fuentes de datos, conocer las herramientas adecuadas y siempre se puede esculpir una solución para su situación…. bioinformáticos real de escribir código

Sí, bioinformáticos real de escribir código, pero este consejo no es suficiente para el otro 90% de los verdaderos científicos que no. Tal vez Biostar no es la solución (Sospecho que muchas de esas preguntas que se destaca son las de no bioinformáticos que sólo tienen una base, en su caso, conocimiento de la codificación ni el acceso a aquellos que lo hacen). Tal vez, o algo parecido, puede ser.

Consejo del la Semana: PhylomeDB

Filogenias de genes (a diferencia de las filogenias especies) puede ser muy útil en función de los genes determina, historia, orthology y paralogy predicciones. PhylomeDB (Enlace agregado!) es una base de datos de genes filogenias (o como ellos los llaman, Phylomes.. hay fin a las «omes hay? :). En la actualidad hay más de una docena de especies phylomes tales como los seres humanos y la levadura. La base de datos le permite obtener filogenias de genes basado en el ID de genes o BLAST, también se puede obtener predicciones orthology y las alineaciones y más. Punta de hoy es que la introducción de la base de datos.

Nueva Revista de bases de datos de imagen

María trajo un periódico recientemente acerca de lo que nos estamos perdiendo los papeles cuando la minería de datos: Las figuras y leyendas de las figuras.

Entrar en el Revista de la base de datos de imagen. Esta base de datos muy nuevo incluye más de 3 millones de imágenes que se encuentran en los recursos de texto completo (yo. PubMed Central) en el NCBI. Así que, Hice una búsqueda de “drosophila filogenia” y encontró algunas grandes imágenes y figuras. Los resultados no sólo se retirará la figura, sino también la leyenda de la figura. Tengo más de 200 resultados. Los enlaces en los títulos figura resultados de búsqueda le llevará directamente a la figura. Por debajo de la leyenda se puede ver los enlaces al texto completo. Es un gran comienzo a la búsqueda de figuras y leyendas de las figuras.

Junto con esta, Los resultados de búsqueda en PubMed ahora se han mejorado con imágenes de esta base de datos (si, recordar, el artículo está en los recursos de texto completo.. pero con el tiempo una gran cantidad de investigaciones publicadas con

Financiamiento de los NIH a ir allí, no van a?). Por ejemplo, ir a este resumen para el papel “Minería de texto y de curación manual de las redes químicas-gen-enfermedad de la base de datos comparativa toxicogenómica.” Desplácese hacia abajo un poco, verás las cifras de este documento, que han sido depositados en la base de datos de imagen NCBI. Usted puede ir directamente al enlace de todas las figuras o los papeles.

Por supuesto, como se indica, no todos los artículos tendrán las imágenes en la base de datos, sólo los que hayan depositado en PubMed Central. Usted encontrará una gran cantidad de sus búsquedas, no tendrá esta franja de imagen, ya que la revista no está depositado allí . Sin embargo, con 3 millones de imágenes y más artículos de revistas va a PMC todos los días, esta base de datos y las características de PubMed podría ser muy útil.

Hattip: APD en CTD :)

Tenemos los widgets

He otros mencionados’ reproductores antes de. Pueden ser herramientas muy útiles en los sitios web y blogs para añadir búsquedas interactivas y contenidos útiles, etc.

Bueno, ahora tenemos nuestro propio. Como muchos de nuestros lectores, tenemos un la genómica y la bioinformática motor de búsqueda que ayuda al investigador a encontrar la herramienta de base de datos o análisis que mejor se adapte a su necesidad. Escriba un término y se obtiene una lista de recursos de la genómica que están en cola en el grado de relevancia. Además, Vídeo Consejo (el sitio web de recursos, o en nuestros tutoriales o blog si hay) donde el término se ha encontrado. Además, encontrarán tutoriales que hemos creado en casi 100 de ellos, alrededor de una docena gratuito para el usuario como AP, SGKB, UCSC Genome Browser, y otro 80 más o menos por suscripción.

De todos modos, ahora se puede poner la búsqueda (que por supuesto está disponible al público) en tu blog o sitio web utilizando uno de los reproductores que acabamos había creado (por el mismas personas que ayudó a crear nuestra base de datos de búsqueda). Tenemos tres tamaños y se puede encontrar el código de ellos y para ellos en esta página.

También verás que he puesto el flash más pequeña en la columna de la derecha aquí en el blog. Usted puede poner un plazo de allí y probarlo. Se abrirá otra página con los resultados de la búsqueda. Pruébelo!

Consejo del la Semana: ONDA, Red de Análisis de la Variome

Consejo de hoy de la Semana es una breve introducción a ONDA, o la Red de Análisis de la Variome. La herramienta fue presentada recientemente a nosotros, y he encontrado una introducción de bienvenida a las herramientas disponibles para el investigador para analizar la variación humana. Esto es a propósito de examinar el documento de los últimos que hemos estado discutiendo en la evaluación clínica de un genoma personal (aquí, aquí y aquí) y que las consecuencias para los papeles de la medicina personalizada y el uso de los recursos de la variación en línea. Wave también me ha presentado a algunas herramientas adicionales que he sido consciente o no de, o no ha utilizado, que pueda ser de utilidad como: Prometido (Leiden base de datos abierta Variación), QuExT (Herramienta de expansión de consulta, también de los mismos desarrolladores como WAVE), y otros. Por supuesto, también hay información de la base tiró desde Ensembl, Reactome, KEGG, InterPro, PIB, UniProt, NCBI y muchos otros. Tómese su tiempo para echarle un vistazo.

Invitado Mensaje: Nueva herramienta de CHOP, CNV Taller – Xiaowu Gai

Este mensaje siguiente en nuestra continua serie de semi-regular Invitado Mensaje es de Xiaowu Gai, la Núcleo de Bioinformática Director de CHOP . Si usted es un proveedor de una sociedad libre, herramienta genómica a disposición del público, base de datos o de los recursos y me gustaría transmitir algo a los usuarios de nuestra función de puesto de invitado, por favor no dude en contactar con nosotros en wlathe openhelix EN PUNTO com.

Gracias a María, para el funcionamiento de una Consejo de la semana - "CHOP base de datos de la CNV" un par de meses atrás. CHOP CNV base de datos es una de alta resolución del genoma en todo el estudio de las variaciones de número de copias de un gran número (2,026) de individuos aparentemente sanos. Es accesible al público y ha sido ampliamente utilizado por un gran número de grupos de investigación en todo el mundo. Me complace en anunciar el lanzamiento público de nuestro sistema de software detrás de él: CNV Taller. CNV Taller es una suite de herramientas de software que hemos desarrollado en los últimos pocos años. Que proporciona un flujo de trabajo global para el análisis, la gestión de, y copia de la visualización del genoma número de variación (Comisión Nacional de Valores) datos.

Se puede utilizar para casi cualquier investigación CNV o de proyectos clínicos, ofreciendo las siguientes capacidades para las dos muestras individuales y estudios de cohortes:

CNV identificación
Implementa un algoritmo modificado circular de segmentación binaria que reduce los positivos falsos
Parámetros totalmente configurable para la gestión de la sensibilidad / especificidad
Anotación
Individuales específicas de locus anotaciones tales como la posición, tipo de variación, métricas de llamadas, y la superposición con CNVs de otros conjuntos de datos, incluyendo la base de datos de variantes genómicas.
Anotaciones funcionales de genes como los genes afectados y las asociaciones de la enfermedad conocida
Proporcionados por el usuario acepta las anotaciones
Presentación
GBrowse habilitados para la consulta de imágenes, navegación, la interpretación de, y elaboración de informes CNVs
Exportación de los resultados en Excel, XML, CSV, y los archivos CAMA
Enlaces directos a los recursos públicos, tales como la UCSC Genome Browser, Introduzca NCBI, Introduzca Gene, y la fábula
Proyecto y Gestión de Cuentas
Esquema de autentificación y autorización, que es especialmente útil para la configuración de diagnóstico clínico
Resultado del análisis de intercambio dentro y entre los proyectos
Sencilla interfaz basada en web de administración
Acceso remoto y administración habilitado

CNV Taller acepta actualmente genotipo datos de la matriz de 550k Illumina, 610- y 660-Quad, Omni y matrices, junto con Affymetrix 5.0 y 6.0 arrays, y puede ser fácilmente configurado para aceptar los datos de otras plataformas. El paquete viene precargado con datos de referencia a disposición del público de más de 2,000 sujetos de control sanos (el CHOP CNV base de datos). CNV taller también permite al usuario cargar ya procesados ​​llamadas CNV para la anotación y presentación.

El paquete de software está disponible gratuitamente en http://sourceforge.net / projects / CNV /. También se describen con más detalle en nuestro reciente trabajo sobre la BMC Bioinformatics.

-Xiaowu Gai

Subiendo, Invitado Mensajes

Saludos! Blog OpenHelix está poniendo en práctica una nueva característica de semi-semanal. Todos los miércoles tenemos “Consejo del la Semana,” los jueves tenemos “¿Cuál es tu problema,” y ahora en un martes vez en cuando vamos a tener nuestro “Proveedor Invitado Mensaje.” Estos serán los mensajes de los proveedores de herramientas de la genómica y la base de datos y será opiniones, las actualizaciones y las próximas funciones de los recursos, cualquiera que sea el proveedor del recurso gustaría transmitir a los usuarios. Tenemos varios en fila para las próximas semanas, así que sigue visitando de nuevo.

Además, si usted es un desarrollador o proveedor de una libre, genómica a disposición del público o de recursos biológicos, base de datos o el análisis de la herramienta y desea publicar en nuestra función de invitado, ya sea una introducción a la herramienta, actualizaciones o las próximas funciones, o incluso una opinión sobre el estado actual de la investigación genómica y los datos, por favor escríbanos a wlathe openhelix EN PUNTO com. Nos encantaría que lo pongan en la cola para el puesto siguiente invitado.

Nuestro primer puesto de invitado el próximo martes será a partir de Inna Dubchak , investigador principal en el grupo de LBNL / JGI, los desarrolladores de la VISTA la genómica comparativa de los recursos (que patrocina un tutorial, la libertad de los usuarios). Va a hablar de algunas herramientas nuevas en VISTA y le dará una vista previa de algunas de las características futuras nuevas.