Tag Archives: Datenbanken

Was ist die Antwort? Database Anomalien

Biostar ist ein Ort für die Nachfrage, beantworten und diskutieren Fragen der Bioinformatik. Wir sind Mitglieder der Gemeinde und finde es sehr nützlich. Oft Fragen und Antworten ergeben sich bei BioStar dass Germane an unsere Leser sind (Endanwender von Genomik Ressourcen). Jeden Donnerstag werden wir Hervorhebung eine jener Fragen und Antworten hier in diesem Thread. Sie können Fragen in diesem Thread fragen, oder kann man immer mitmachen bei BioStar.

Die Frage der Woche:

Falsche / unübliche Einträge im Haupt-Datenbanken (GenBank, UniProt, BIP)? Pierre Poulain fordert ” In… rate meinen Studenten, vorsichtig zu sein mit den Daten, die sie finden in diesen Datenbanken. Um dies zu veranschaulichen, Ich fand recht ungewöhnlich Einträge in GenBank:..” und er listet dann einige gute.

Es gab mehrere interessante, und lustig, Antworten darunter eine aus unserer eigenen Mary,

Meine Lieblings-bizarre Datenbank Element war ein PubMed ein. Das war lange bevor die NCBI ROLF Blog wurde geschaffen,. Ich war für die Gene in den Übergang identifiziert suchen, um graue Haare. Das war nicht hilfreich….

http://www.ncbi.nlm.nih.gov/pubmed/12079806

Dies ist TITEL (beachten, nicht die abstrakte):

Ich bin ein 64-jähriger Mann, und ich war schon immer stolz auf meine vollkommene Gesundheit Rekord. Ich habe auch stolz auf meinen Kopf voller Haare, Auch nach dem grauen begann schleichend in. Vor vier Monaten fing ich eine Lungenentzündung und verbrachte acht Tage im Krankenhaus (drei in der Intensivstation). Es dauerte eine Weile, aber ich bin endlich wieder normal – außer, dass mein Haar fällt aus. Es kommt in Büscheln aus, wenn ich es Shampoo oder auch Kamm, und es ist gekommen merklich dünner ganzen. Ich erinnere mich gelesen zu Propecia in Ihrem Newsletter, aber ich habe nicht das alte Problem. Sollte ich versuchen das Medikament?

Schauen Sie sich die anderen Antworten für gute Beispiele, warum die Forscher sollten immer überprüfen Sie die Daten.

Es gibt eine Datenbank für alles, sogar uber-Operons

Ich war etwa das Spiel mit Google Scholar ist neues Zitat Feature dass mir erlaubt, meine Papiere in einem Ort leicht zu sammeln (funktionierte ziemlich gut, Mehrwertsteuer, sparen ein paar Pannen, siehe unten) als ich merkte, es verpasst ein Papier von mir aus 2000: “Gene Kontext Erhaltung einer höheren Ordnung als Operons.” Die abstrakte:

Operons, co-transkribiert und co-reguliert zusammenhängende Sätze von Genen, sind schlecht über kurze Zeiträume der Evolution konserviert. Das Gen, um, Gen Inhalt und Regulationsmechanismen des Operons kann sehr unterschiedlich sein, auch in eng verwandten Arten. Hier, präsentieren wir verschiedene Hinweise, die darauf hindeuten,, obwohl ein Operon und seine einzelnen Genen und regulatorischen Strukturen neu geordnet beim Vergleich der Genome verschiedener Spezies, Diese Umlagerung ist eine konservative Verfahren. Genomische Rearrangements immer halten einzelne Gene in sehr spezifischen funktionalen und regulatorischen Kontext. Wir nennen diese konservierten Kontext ein uber-Operon.

Die uber-Operon. Es war mein PI vorgeschlagen Begriff. Leben und Arbeiten in Deutschland zum Zeitpunkt, Ich dachte, es war irgendwie komisch. Sowieso, Ich habe nie wirklich mehr als ein anderes Papier oder so auf, dass die Forschung und die Art der Überblick verloren erweitert, ob das Papier in viel resultierte. I in 'uber-Operon getippt’ in google heute und fand, dass es schon ein paar Mal zitiert (88) und, Ich fand das interessant: es wurden ein paar Datenbanken aufgebaut worden von “uber-Operons.”

Eine chinesische Forschergruppe schuf die Uber-Operon Database. Das Papier sieht interessant aus, aber leider ist der Server ausgefallen ist (ob es sich um vorübergehende oder dauerhafte, Ich weiß nicht,), der ODB (Operon Database) verwendet uber-Operons (die sie als Referenz Operons) zu Operons in der Datenbank vorhersagen , Nebulon ist ein weiterer, HUGO ist ein weiterer. Lesen Sie die capitel über numerische Methoden für die Vorhersage uber-Operons :)

Genau da, Ihnen zu zeigen,, gibt es eine Datenbank für alles.

Oh, und zurück zu Google Scholar Zitat. Es fand fast jedes Papier, das ich veröffentlicht habe, obwohl es verpasste zwei (einschließlich des oben) und hatte zwei Fehlalarme. Zusätzlich, viele Zitate fehlen (wie die 88 für dieses Papier, und viele andere aus anderen Zeitungen). Das ist nicht zu sagen, es ist nicht sinnvoll, Ich finde es ein nettes Tool, aber es ist nicht perfekt. Sie können find Sie mehr über Google Scholar Zitat hier, und etwa Microsoft ist eine ähnliche Funktion bietet sich hier.

Oh, und tut dies nach setzte mich in die HumbleBrag Hall of Fame? Wenn das für twitter vorbehalten, als vielleicht sollte ich twitter dieser so kann ich es bekommen :). (obwohl ich nicht sicher bin, unter Hinweis darauf, relativ kleinen Datenbanken eine relativ geringe Papier stellt Prahlerei, Demut ist oder nicht LOL).

“Was ist die Antwort”

Biostar ist ein Ort für die Nachfrage, Beantwortung und Diskussion Bioinformatik Frage

mit. Wir sind Mitglieder der Community und finde es sehr nützlich. Oft Fragen und Antworten ergeben sich bei BioStar dass Germane an unsere Leser sind (Endanwender von Genomik Ressourcen). Jeden Donnerstag werden wir Hervorhebung eine jener Fragen und Antworten hier in diesem Thread. Sie können Fragen in diesem Thread fragen, oder kann man immer mitmachen bei BioStar.

Die heutige Frage und Antwort:

Empfehlen Sie einfach Microarray-Clustering-Software verwenden

Die am höchsten gestimmt Antwort (war der Autor, der die Empfehlung Thread gepostet):

Einer meiner Favoriten ist die MEV Mikro-Array-Daten-Analyse-Tool. Es ist einfach zu bedienen und hat eine sehr große Anzahl von Funktionen.

Funktioniert gut für jede Art von Daten. Sie können auch in sie Daten aus einer Datei, die in einem einfachen Text-Format ist:

GENE1, value1, value2, value1, value2

Fühlen Sie sich frei, um Ihre Lieblings-Clustering-Stahlhalter.

Mehrere andere hervorragende Werkzeuge wurden vorgeschlagen, Sie können check them out hier.

Real Bioinformatiker Code schreiben, echten Wissenschaftlern…

Gut eine Woche vor, Neil Saunders schrieb einen Beitrag, stimmte ich mit: Real Bioinformatiker Code schreiben. Die Nachricht wurde als Antwort auf einen Tweet Gespräch begonnen:

Viele # biostar Fragen beginnen: "Ich bin für eine Ressource suchen ..". Die Antwort ist oft, dass Sie eine Lösung mit Hilfe der Daten, die Sie brauchen Code.

Er hat Recht, und das ist sehr wahr für Bioinformatiker an wen er spricht. Meine Sorge ist, für den Rest der biologischen Forscher. Er sagt in der Post:

Mit anderen Worten:: wissen die Datenquellen, kennen die richtigen Werkzeuge und Sie können immer formen eine Lösung für Ihre eigene Situation.

Das ist sehr wahr, und ich von ganzem Herzen zustimmen. So viele Lösungen existieren bereits in Tausenden von Datenbanken und Analysetools. Es ist, was wir hier tun bei OpenHelix, Hilfe experimentellen Biologen, Genomik Forscher und Bioinformatiker finden Sie den richtigen Datenquellen und Tools und dann gehen und “formen eine Lösung für ihre Situation.”

Im letzten Teil meiner Kommentar,

BioMart, UCSC Genome Browser, Galaxy, usw., etc sind hervorragende Tools und Datenquellen und könnte wahrscheinlich Antwort über 80% der meisten gestellten Fragen :). Aber mein Vorbehalt wäre, dass die Kenntnis der Datenquellen und richtigen Tools kann ein bisschen eine schwierige Aufgabe.

Und es ist, trotz der etwas herablassende Antwort :). Wir haben alle Grafiken zu sehen, exponentiell steigenden Datenmengen im Laufe der Zeit. Es ist eine Frage, wie die Chronicle of Higher Education Artikeltitel Staaten:

auf die von Data Gedumpte: Wissenschaftler sagen, Deluge ist Drowning Forschung

Die Zeitschrift Auch die Wissenschaft hatte eine ganze 10 Artikel-Sektion zum Thema. Es ist nicht ein Problem, geh weg wird.

Zusammen mit, dass Datenflut, gekommen ist eine Flut von Datenbanken und Analysetools (erstellt zum größten Teil durch Bioinformatiker!), von denen viele _alone_ sind ziemlich entmutigend auf die richtigen Daten und Tools finden sich innerhalb. Es gibt Tausende solcher Datenbanken und Tools. Ich habe verzählt.

Neil Saunders ist richtig. Die Lösung ist da draußen, Suche nach den richtigen Tools und Daten, formen eine Lösung. Er reagiert auf meinen Kommentar mit “Lernen, was Sie brauchen, um in der Bioinformatik kennen kann durchaus entmutigend. Aber dann, Wissenschaft ist nicht für die leicht entmutigen :-).” Mit anderen Worten:, “Sie sind eingeschüchtert, Sie aren'ta Wissenschaftler?”

Wir geben Workshops für Forscher auf der ganzen Welt aus Singapur in die USA nach Marokko und an Institutionen wie der Harvard variiert, Stanford, University of Missouri, Mt. Sinai, Stowers und Hudson-Alpha. Die Forscher haben wir Workshops und beantwortete Fragen gegeben habe, aus wurden auch vielfältige, Entwicklungsbiologen, evolutionär, Mediziner, Bioinformatiker, Forscher recht gut in der Genomik versiert und diejenigen, die nicht.

Das übergeordnete Thema ist das Auffinden und die Kenntnis der Daten und die Werkzeuge sind nicht nur erschreckend, aber manchmal nicht möglich. Nicht, weil sie nicht existieren, sondern weil zu finden und zu wissen, sie ist ein Abfluss von persönlichen und Lab-Ressourcen unter Berücksichtigung der Scher wachsenden Bereich der Dinge zu finden und zu wissen,. Ich verweise Sie auf die Chronik des Artikels… Ertrinken in Daten..

Sie sind echte Wissenschaftler nicht so leicht einschüchtern, aber eingeschüchtert genauso, durch, was vor ihnen. Und ja, viele von denen, spezifische Fragen zu spezifischen Forschungsbedarf kann durch vorhandene Werkzeuge beantwortet werden. Wir kommen in vielen Fragen zu Biostar, dass eine gut gemachte Datenbank zu suchen oder die Analyse Schritt wird wunderschön Antwort, ohne die Notwendigkeit für das Rad neu erfinden mit mehr Code (und die Antworten sind oft Code).

Ich vermute, dass die meisten dieser Wissenschaftler gibt, die sich selbst "Bioinformatiker nennen” sollte ein Gespür für die Tools und Datenbanken zur Verfügung, um sie (aber ich kann Ihnen sagen,, sogar das hellste von ihnen nicht manchmal). So, die Beratung und abschließende Worte der verlinkten Blog-Post über…

Mit anderen Worten:: wissen die Datenquellen, kennen die richtigen Werkzeuge und Sie können immer formen eine Lösung für Ihre eigene Situation…. Echtzeit Bioinformatiker Code schreiben

Ja, Echtzeit Bioinformatiker Code schreiben, aber diese Beratung nicht ausreicht, um die anderen 90% der echte Wissenschaftler, die nicht. Vielleicht Biostar ist nicht die Lösung (Ich vermute, viele dieser Fragen gestellt werden, betont er sind die von Nicht-Bioinformatiker, die nur eine grundlegende, wenn überhaupt, Kenntnisse der Kodierung noch den Zugriff auf diejenigen, die nicht). Vielleicht ist es, oder so ähnlich, werden können.

Tipp der Woche: PhylomeDB

Gene Phylogenien (wie die Arten Phylogenien Gegensatz) kann sehr nützlich sein in bestimmten Genfunktion, Geschichte, Orthologie und Paralogie Vorhersagen. PhylomeDB (Link hinzugefügt!) ist eine Datenbank mit Gen phylogenies (oder in denen sie die, Phylomes.. kein Ende der 'omes gibt es? :). Derzeit gibt es über ein Dutzend solcher phylomes von Arten wie Mensch und Hefe. Die Datenbank ermöglicht es Ihnen, Stammbäume von Genen basierend auf Gen-ID oder BLAST erhalten, Sie können auch Orthologie Vorhersagen und Ausrichtungen und mehr. Der heutige Tipp stellt Ihnen die Datenbank.

New NCBI Bilddatenbank

Mary ein Papier brachte erst vor kurzem über das, was uns fehlt, wenn Data-Mining-Papiere: Zahlen und Abbildungslegenden.

Geben Sie den NCBI Bilddatenbank. Diese sehr neue Datenbank enthält mehr als 3 Millionen Bilder, die in den Volltext-Ressourcen gefunden werden (i. PubMed Central) bei NCBI. So, Ich habe eine Suche nach “Drosophila Phylogenie” und fand einige großartige Bilder und Zahlen. Die Ergebnisse werden nicht nur herausziehen Figur, sondern auch der Legende. Ich habe über 200 Ergebnisse. Die Links in den Suchergebnissen Bild-Titel bringt Sie direkt zu der Abbildung. Unterhalb der Legende können Sie Links zu den vollständigen Text anzuzeigen. Es ist ein guter Start für die Suche Figuren und Figur Legenden.

Zusammen mit diesem, PubMed Suchergebnisse jetzt verstärkt werden mit Bildern aus dieser Datenbank (wenn, merken, Der Artikel wurde in den Volltext-Ressourcen.. aber im Laufe der Zeit eine Menge Forschung mit den veröffentlichten

NIH Finanzierung wird es gehen, werden sie nicht?). Zum Beispiel, gehen Sie zu dieser abstrakten für die Papier- “Text-Mining und manueller Kuration der chemisch-Gen-Krankheit-Netzwerke für die vergleichende Toxikogenomik Datenbank.” Blättern Sie nach unten nur ein bisschen, Sie werden die Zahlen aus diesem Papier sehen, die haben in der NCBI-Bild-Datenbank hinterlegt wurden. Sie können direkt auf den Link, um alle Figuren oder die Papiere.

Natürlich, wie gesagt, nicht alle Artikel werden die Bilder in der Datenbank, nur diejenigen hinterlegt in PubMed Central. Hier finden Sie eine Menge Ihre Suche nicht haben wird das Bild Streifen, weil die Zeitschrift nicht hinterlegt ist es . Aber mit 3 Millionen Bilder und mehr Zeitschriftenartikel werde PMC jeden Tag, dieser Datenbank und Funktion von PubMed könnte sich als sehr nützlich.

Hattip: APD in CTD :)

Wir haben Widgets

Ich habe genannten anderen’ Widgets vor. Sie können sehr nützliche Werkzeuge für Websites und Blogs werden zu Inhalten und nützlichen interaktiven sucht hinzufügen, usw..

Nun, wir haben jetzt unsere eigene. Da viele unserer Leser wissen, haben wir eine Genomik und Bioinformatik Suchmaschine hilft, dass der Forscher finden die Datenbank oder die Analyse-Tool, die am besten ihren Bedarf. Geben Sie einen Begriff ein und Sie erhalten eine Liste der Genomik Ressourcen, die im Rang von Relevanz in der Warteschlange befinden. Darüber hinaus, Sie werden angezeigt, wo im Kontext (die Ressource Website, oder in unseren Tutorials oder Blog, wenn es) wo der Begriff gefunden wurde. Zusätzlich, finden Sie Tutorials haben wir auf nahezu erstellt 100 von ihnen, etwa ein Dutzend für den Nutzer kostenlos wie PDB, SGKB, UCSC Genome Browser, und eine andere 80 oder so im Abonnement.

Sowieso, Sie kann sich nun die Suche (das ist natürlich öffentlich zugänglich) in Ihrem Blog oder Web site mit einem der Widgets hatten wir nur erstellt haben (durch die Dieselben Leute , die dazu beigetragen, unsere Datenbank zu durchsuchen). Wir haben drei Größen und man kann ihnen und den Code für sie auf dieser Seite finden.

Sie werden auch sehen, ich habe den kleineren Widget in der rechten Spalte stellen Sie hier auf dem Blog. Sie können ein Wort in es gesetzt und testen Sie es. Es wird eine weitere Seite mit den Ergebnissen unserer Suche öffnen. Probieren Sie es aus!

Tipp der Woche: WAVe, Web Analyse der Variome

Die heutige Tipp der Woche ist eine kurze Einführung in WAVe, oder die Web-Analyse der Variome. Das Werkzeug wurde uns vor kurzem eingeführt, und ich fand es eine willkommene Einführung in die Werkzeuge zur Verfügung, die Forscher für die menschliche Variante analysieren. Dies ist angesichts der jüngsten apropos Papier wir uns auf die klinische Beurteilung des persönlichen Genoms habe diskutieren (hier, hier und hier) und dass Papiere Implikationen für die personalisierte Medizin und die Nutzung von Online-Ressourcen Variation. Wave auch hat mir einige zusätzliche Werkzeuge, die ich entweder nicht habe bewusst eingeführt, oder nicht genutzt haben, die möglicherweise von Nutzen sein, wie: LOVD (Leiden Open Database Variation), QuExT (Erweiterung der Suchanfrage Tool, auch von den gleichen Entwicklern als WAVE), und andere. Natürlich gibt es auch Datenbankinformationen zog ab Ensembl, Reactome, KEGG, InterPro, BIP, UniProt, NCBI und viele andere. Nehmen Sie sich Zeit, check it out.

Guest Post: CHOP's neues Tool, CNV Workshop – Gai Xiaowu

Das nächste Schreiben Sie in unseren anhaltenden semi-regulären Gast Beitrag Reihe von Xiaowu Gai, der Bioinformatics Core-Director bei CHOP . Sie sind Anbieter eines kostenlosen, öffentlich zugänglich Genomik Werkzeug, Datenbank oder eine Ressource und möchte etwas zu den Benutzern unserer Bewertung der Post Feature vermitteln, wenden Sie sich bitte an uns wlathe Kontakt AT openhelix DOT com.

Dank Mary für den Betrieb eines Tipp der Woche - "CHOP CNV-Datenbank" ein paar Monate zurück. CHOP CNV-Datenbank ist eine hochauflösende Genom-weite Erhebung über copy number variations einer großen Zahl (2,026) von scheinbar gesunden Personen. Es ist öffentlich zugänglich und wurde in großem Umfang von einer großen Anzahl von Forschungsgruppen weltweit eingesetzt. Nun freue ich mich auf die Veröffentlichung unserer Software System dahinter ankündigen: CNV Workshop. CNV-Workshop ist eine Suite von Software-Tools, die wir in den letzten ein paar Jahren entwickelt haben,. Es bietet einen umfassenden Workflow für die Analyse, Verwaltung, und Visualisierung von Genom Copy Number Varianten (CNV) Daten.

Es kann für fast jede CNV Forschung oder klinischen Projekt, indem sie die folgenden Funktionen sowohl für den einzelnen Samples und Kohortenstudien verwendet werden:

CNV Identifikation
Implementiert einen modifizierten kreisförmigen binary Segmentierungsalgorithmus, dass Fehlalarme reduziert
Vollständig konfigurierbare Parameter für Sensitivität / Spezifität-Management
Anmerkung
Individual-Locus-spezifische Anmerkungen wie Position, Art der Variation, Call-Metriken, und Überschneidungen mit CNVs von anderen Datensätzen, einschließlich der Datenbank für Genomic Varianten.
Funktionelle Gen Anmerkungen wie Gene betroffen und Krankheit bekanntermaßen
Akzeptiert vom Benutzer bereitgestellten Anmerkungen
Präsentation
GBrowse-fähigen Visuals für die Abfrage, Surfen, Interpretation, und Reporting-CNVs
Export der Ergebnisse in Excel, XML, CSV, und BED-Dateien
Direkte Links zu öffentlichen Ressourcen wie die UCSC Genome Browser, Geben Sie NCBI, Entrez Gene, und FABLE
Projekt-und Account Management
Authentifizierung und Berechtigung Schema, das besonders nützlich ist für die klinische Diagnostik Einstellungen
Analyse-Ergebnis Austausch innerhalb und zwischen den Projekten
Einfache Web-basierte Schnittstelle zur Administration
Remote-Zugriff und die Verwaltung aktiviert

CNV-Workshop akzeptiert derzeit Genotypisierung Array Daten von Illumina 550k, 610- und 660-Quad, und Omni-Arrays, zusammen mit Affymetrix ist 5.0 und 6.0 Arrays, und kann leicht so konfiguriert werden, um Daten von anderen Plattformen akzeptieren. Das Paket kommt vorinstalliert mit öffentlich verfügbaren Referenzdaten aus mehr als 2,000 gesunden Kontrollpersonen (der CHOP-CNV-Datenbank). CNV-Workshop ermöglicht es dem Benutzer, die bereits verarbeitet CNV fordert Annotation und Präsentation hochladen.

Das Software-Paket ist frei verfügbar unter http://sourceforge.net / projects / cnv /. Es ist auch in detaillierter beschrieben in unsere jüngsten Papier auf BMC Bioinformatics.

-Gai Xiaowu

Coming up, Gast Beiträge

Gruß! OpenHelix Blog ist die Einführung eines neuen semi-Wochen-Funktion. Jeden Mittwoch haben wir unsere “Tipp der Woche,” Donnerstags haben wir unsere “What's Your Problem,” und jetzt gelegentlich dienstags werden wir unsere haben “Provider Gast Beitrag.” Diese werden Beiträge der Anbieter von Genomik-Tools und Datenbank werden und Meinungen werden, Updates und kommenden Features der Ressource, was auch immer der Anbieter der Ressource möchte Nutzern zu vermitteln. Wir haben einige für den kommenden Wochen gefüttert, so Keep smiling!.

Zusätzlich, Wenn Sie ein Entwickler oder Anbieter eines kostenlosen, öffentlich zugänglich Genomik oder biologische Ressourcen, Datenbank-oder Analyse-Tool und möchten in unseren Gast-Funktion nach, sei es eine Einführung in das Werkzeug, Updates oder kommenden Features oder gar eine Meinung über den aktuellen Stand der Genomforschung und Daten, schreiben Sie uns bitte an wlathe AT openhelix DOT com. Wir würden uns freuen, Sie in die Warteschlange gestellt für den nächsten Gast Beitrag.

Unser erster Gast-Beitrag am kommenden Dienstag wird aus sein Inna Dubchak , Principal Investigator an der LBNL / JGI Gruppe, Entwickler der VISTA vergleichende Genomik Ressource (die Sponsoren ein Tutorial, kostenlos für die Nutzer). Sie wird zu diskutieren einige neue Tools auf VISTA und geben Ihnen eine schnelle Vorschau auf einige neue kommenden Features.