In diesem erweiterten Blog-Post, Ich beschreibe meine Bemühungen um die Informationen über die Bioinformatik-bezogene Artikel aus einer aktuellen Genom-Sequenzierung Papier extrahieren, und die größeren Probleme wirft dies im Bereich. Es ist lange, und es ist so etwas wie ein Hybrid zwischen einem Blog-Post und ein Papier-Format, nur um es etwas Struktur für meine eigene Organisation zu geben. Eine Kopie wird dies auch bei FigShare mit der vollen Datensatzes veröffentlicht werden. Vielen Dank an den Gibbon-Genom-Projekt-Team für eine tolle Papier und ausführlich dokumentierte Sammlung ihrer Prozesse und Ressourcen. Die Fragen, die ich wollte Highlight sind über den Zugang zu der Bioinformatik im Allgemeinen und sind nicht spezifisch für dieses Projekt überhaupt, sind aber über das Feld.
==============================================
Einführung:
Auf dem Gebiet der Bioinformatik, gibt es eine Menge Diskussionen über Daten und Code Verfügbarkeit, und Reproduzierbarkeit oder Replikation der Forschung, die Ressourcen in früheren Arbeiten beschrieben. Um das Ausmaß des Problems zu untersuchen, Ich habe die letzten Veröffentlichung des gut dokumentierten Gibbon Genomsequenz Projekt als Ausgangspunkt, um die Werkzeuge zu bewerten, Repositories, Datenquellen, und andere Bioinformatik bezogenen Elemente, die in den Einsatz in einem aktuellen Projekt gewesen war. Details der genannten Bioinformatik Artikel wurden aus der Veröffentlichung extrahiert, und Lage und Informationen zu den Tools wurde dann untersucht.
Nur ein kleiner Bruchteil der Bioinformatik Elemente aus dem Projekt wurden in den Hauptkörper des Papier bezeichnet (~ 16%). Die meisten von ihnen wurden in den ergänzenden Materialien gefunden. Wie wir in der Vergangenheit festgestellt haben, weder die Daten noch die notwendigen Werkzeuge werden in der traditionellen Papierstruktur nicht mehr veröffentlicht. Unter den über 100 Bioinformatik Elemente in der Arbeit beschrieben, Verfügbarkeit und Nutzbarkeit stark variiert. Einige befinden sich auf der Fakultät oder Student Websites, einige auf den Projektstandorten, einige in Code-Repositories. Einige sind in der traditionellen Literatur veröffentlicht, einige sind Studienarbeit Publikationen, einige sind nie veröffentlicht und nur eine Website oder Software-Dokumentation Handbuch dient, um die erforderlichen Angaben zu machen. Dies bedeutet, dass Informationen darüber, wie Sie die Werkzeuge benutzen, ist sehr uneben, und Unterstützung ist oft nicht vorhanden. Zugang zu den verschiedenen Software-Versionen stellt eine zusätzliche Herausforderung, entweder für Open-Source-Tools oder kommerzielle Produkte.
Neue Publikation und Lagerstrategien, neue technologische Werkzeuge, und breite Community Sensibilisierung und Unterstützung beginnen, diese Dinge zum Besseren zu verändern, und wird sicherlich helfen, für die Zukunft. Strategien für konsequent Referenzierung Werkzeuge, Versionen, und Informationen über sie wäre äußerst nützlich sein. Die Bioinformatik-Community können auch zu der Notwendigkeit, einige der historischen verwalten betrachten, grundlegenden Stücke, die für dieses Feld sind, von denen einige möglicherweise von ihrem aktuellen Status, um gerettet zu werden, um an die Gemeinde in der Zukunft verfügbar bleiben.
Methoden:
Von der Natur Webseite, Ich eine Kopie der kürzlich veröffentlichten Papier erhalten: Gibbon-Genom und die schnelle Entwicklung der Karyotyp kleinen Affen (Carbone et al, 2014). Aus dem Text des Papiers und der Ergänzungen, Ich manuell alle Verweise auf den Namen Datenbank-Tools extrahiert, Datenquelle Websites, Dateitypen, Programme, Versorgungsunternehmen, oder anderes Rechen beweglichen Teile, die ich identifizieren konnte. Einige von diesem Prozess verpasst es vielleicht werden, zum Beispiel, Namen, die ich nicht kannte oder nicht mit irgendeiner vorhandenen Werkzeug verbinden (oder einige Bild von einem Werkzeug erzeugt, vielleicht). Einige Referenzen waren "im Haus Perl-Skripte" oder andere "custom" Szenarien wurden in der Regel nicht enthalten, es sei denn sie waren zur Verfügung gestellt worden. Stück als Ersatz, die "in einer Weise ähnlich zu der bereits beschriebenen" getan in einer anderen Referenz vorhanden waren, und ich wollte nicht gehen, um stromaufwärts vor, diese Papiere Details extrahieren. Software mit Laborgeräten verbunden, wie Sequenzern (an verschiedenen Institutionen befindet) oder PCR-Maschinen wurden nicht berücksichtigt. So dürfte dies stellt eine Unterzahl der Software-Produkte im Einsatz. Ich kontaktierte auch das Forschungsteam für ein paar zusätzliche Dinge, und schnell Hilfe und Anleitung erhalten. Mit typischen Internet-Suchmaschinen oder interne Suche für den Herausgeber oder Ressourcen Websites, Ich habe versucht, die Einzelteile zu Quellen der Software oder Zitate für die Einzelteile passen.
Was ich in den Eimer setzen enthalten spezifische Namen der Elemente oder Objekte, die wahrscheinlich notwendig und / oder fremd Studenten oder Forscher außerhalb der Bioinformatik-Gemeinschaft zu sein, würde. Einige sind damit verbundenen, aber anders. Zum Beispiel, Sie brauchen, um zu verstehen, was "Gene Ontology"Ist als Ganzes, aber Sie müssen auch wissen, was "GOslim"Ist, eine konzeptionelle Unterschied und ein separates Objekt in meiner Bezeichnungssystem hier. Einige Teilkomponenten anderer Werkzeuge, aber wichtige Aspekte zu verstehen (GOTERM_BP_FAT an DAVID oder von randomBed BEDTools) und sind individuell benannten Elemente in dem Bericht, diese könnten obskure nicht-Praktiker. Andere Bioinformatik-Profis könnten mit ihrer Zuordnung zu dieser Sammlung nicht einverstanden. Wir können die Entfernung oder die Einbeziehung dieser in den Diskussionen über sie in Zukunft Iterationen der Liste diskutieren.
Ergebnisse:
Nach der Erstellung einer Master-Liste von Referenzen auf Objekte oder Bioinformatik Artikel, Die Liste wurde überprüft und für Duplikate oder unauffindbar Aspekte gekeult. Verweise auf "im Haus Perl-Skripte" oder andere "custom" Skripte wurden in der Regel beseitigt, es sei denn, besondere Bezugnahme auf eine Code-Repository zur Verfügung gestellt wurde. Dies ergab 133 Artikel restlichen.
Wie sind sie verwiesen? Sofern in den Arbeits?
Sowohl Haupt Veröffentlichung (14 PDF-Seiten) und die ersten Zusatzinformationen Datei (133 PDF-Seiten) für dieses Projekt die Namen der Bioinformatik Objekte im Einsatz. Alle Elemente in der Hauptpapier verwiesen wurden auch in der Beilage verwiesen. Die Anzahl der benannten Objekten in der Hauptpapier war 21 der 133 aufgeführten Komponenten (~ 16%). Dies steht im Einklang mit anderen ähnlichen Arten von Konsortium oder "Big Data" Papiere, die ich schon erkundet: der Großteil der notwendigen Informationen über Software-Tools, Datenquellen, Methoden, Parameter, und Merkmale sind in den umfangreichen Zusatzmaterialien gewesen.
Die Artikel werden in verschiedener Weise verwiesen. Manchmal sind sie in dem Körper des Haupttext genannt, oder die Methoden. Manchmal werden sie als Anhang beigefügt werden. Manchmal Tools werden nur in Gestalt Legenden erwähnt, oder nur in Referenzen. In diesem Fall, Einige Details wurden in dem Abschnitt "Urheber Informationen".

Wie oben angemerkt, die meisten wurden in der zusätzliche Informationen gefunden. Und in diesem Beispiel, dies könnte im Text oder in Tabellen sein. Das ist ganz typisch für diese große Projektarbeiten, in unserer Erfahrung. Jeder, der versucht, Text-Mine Publikationen für diese Art von Informationen sollte sich dieser Vielzahl von Standorten für diese Informationen sein.
Die Bioinformatik Objekte werden in dieser Arbeit beteiligt?
Beschreibt der Bioinformatik, Ressourcen, Datenbanken, Dateien, usw., war schon immer eine Herausforderung gewesen,. Diese sind analog zu den "Reagenzien", die ich in meinem Rohbau Biologie Papiere vor Jahren gesetzt haben. Sie können auf das Ergebnis egal, wie Enzym Anbieter, Mausstamm Versionen, oder Antikörperspezies Details. Sie stellen Dinge, die Sie brauchen, um zu reproduzieren oder zu erweitern, die Arbeit, oder, um den Kontext zu verstehen, entsprechend. Aber im Fall der Bioinformatik, dies kann Dateiformate wie die mittlere Fastq oder AXT Format UCSC Genome Browser. Sie können Repository-Ressourcen wie die mittlere SRA. Sie können verschiedene Versions heruntergeladen Datensätze aus sein ENSEMBL (Version 67, 69, 70, oder 73 hier, die aber nur einmal gezählt ENSEMBL). Es könnte sein, Verweise auf Reactome in einer Tabellen.
Mit dieser breiten Definition im Sinn, Tabelle 1 enthält die Liste der Namen der Bioinformatik Objekte aus diesem Projekt gewonnen. Der Name oder Spitzname oder Bezeichnung, der Ort, an dem es gefunden werden kann (falls verfügbar), und eine Publikation oder ein Zitat ist im Lieferumfang enthalten, wenn möglich. Schließlich, eine Säule bezeichnet, ob es in der Hauptpapier auch gefunden.
Was nicht gezeigt ist, dass einige Referenzen mehrfach in verschiedenen Zusammenhängen und Verwendungen, mit Menschen könnte dazu führen, dass nicht, wie oft diese genutzt werden. Zum Beispiel, ironisch, RepeatMasker wurde so viele Male verwiesen Ich begann zu stoppen Kennzeichnung es an einer Stelle.
Tabelle 1. Software-Tools, Objekte, Formate, Dateien, und Ressourcen von einer typischen Säugetiergenom-Sequenzierungsprojekt extrahiert. Sehen die Web-Version Ergänzung zu diesem Blog-Post: http://blog.openhelix.eu/?p=20002, oder den Zugang zu FigShare: http://dx.doi.org/10.6084/m9.figshare.1194867
Bioinformatik-Tools von einer typischen Säugetiergenom-Projekt extrahiert [Ergänzung] – Mehr unter: http://blog.openhelix.eu /?p = 20002&preview = true # sthash.pcNdYhOZ.dpuf
Bioinformatik-Tools von einer typischen Säugetiergenom-Projekt extrahiert [Ergänzung] – Mehr unter: http://blog.openhelix.eu /?p = 20002&preview = true # sthash.pcNdYhOZ.dpuf

Was können wir über die Quelle oder Verwendung dieser Gegenstände lernen?
Suche nach Informationen über den Quellcode, Datensätze, Dateitypen, Repositories, und zugehörige beschreibende Informationen über die Einzelteile liefert eine Vielzahl von Zugangs. Einige Objekte sind mit traditionellen wissenschaftlichen Publikationen verbunden und haben gültige und aktuelle Links zu Software-oder Daten (sind aber auch manchmal falsch zitiert). Diese können in bestimmten Publikationen paywalled werden, oder in nicht verfügbar Sitzungspapiere beschrieben. Einige haben nicht zugeordneten Publikationen auf allen, oder stammen oder in Vorbereitung beschrieben. Einige Werkzeuge bleiben unveröffentlicht in der Literatur, lange, nachdem sie in breiten Gebrauch weg, und deren Dokumentation oder Handbuch zitiert statt. Einige befinden sich auf den Seiten der Fakultät Forschungs, einige sind Schüler Dissertationen. Einige Tools werden auf projektspezifische Seiten. Einige bestehen auf Code-Repositories manchmal veraltet diejenigen, die verschwinden können. Eine Reihe von ihnen sind von ihren anfänglichen Publikationen verschoben, ohne Weiterleitungsadressen. Einige sind Anspielungen auf andere Publikationen Verfahren. Einige von ihnen sind wie eine Zeitreise zurück bis zu den 1990er Jahren, mit Seiten, erscheinen Original für die Zeit zu sein,. Einige können in Gefahr zu verschwinden vollständig das nächste Mal ein Update an einer Universität Website sein Website Zugriff ändert.
Andere Werkzeuge sind kommerzielle Pakete, die unbekannte Details haben können, Versionen, oder fragwürdige Nachhaltigkeit und Zukunfts Zugang.
Wenn Details der Datenverarbeitung oder Software-Implementierungen zur Verfügung gestellt werden, die Menge kann variieren. Manchmal Parameter sind im Lieferumfang enthalten, andere nicht.
Fehlt Werkzeug, das ich haben wollte
Einer meiner Lieblings-Datendarstellungen in der Projektergebnisse war Abbildung 2 in der Hauptpapier, Oxford Netze der Arten Vergleiche in einer Baumstruktur organisiert phylogenetische. Dies vermittelt eine enorme Menge an Informationen in einem kleinen Bereich sehr effektiv. Ich hatte gehofft, dass dies eine bestehende Tool irgendwo, aber beim Schreiben an das Team fand ich, es ist ein R-Skript von einem der Autoren, mit einer nachfolgenden Baumanordnung im Grafikprogramm "Zeichner" von einem anderen Mitarbeiter. Ich mochte diese, obwohl, und hoffen, dass sie verfügbar sind breiter.
Ostereier
Am meisten Spaß Zitat stieß ich war der Seite für PHYLIP, und die FAQ und Kredite waren bemerkenswert. Trotz der Tatsache, dass es keine traditionellen Publikation mir zur Verfügung, ein langwieriger "Credits" Seite bietet einige interessante Einblicke über das Projekt. Das "Nein, danke zu" Teil war eigentlich ein faszinierender Blick auf die Wirrungen der Fördermittel zu bekommen, um Software-Entwicklung und Wartung unterstützen. Der Teil über die "Outreach" war besonders amüsant zu uns:
"Hat alles" Outreach "Zeug meine, ich habe zu Zeit gibt Workshops zu kulinarischen Kunststudenten mystifiziert widmen? Diese Zuschüsse sind für die Entwicklung von fortschrittlichen Methoden, und Briefing "die öffentliche oder nicht-universitären Erzieher" zu diesen Methoden scheint eine Verschwendung von Zeit — obwohl ich verbringen einige Anstrengungen auf die Bekämpfung der Kreationisten und Intelligent Design Befürworter, aber ich weiß nicht bringen diese Methoden dabei. "
Auch die Idee der "Reichweite" und Unterstützung für die Nutzung der Werkzeuge ist sicherlich unklar Werkzeuganbietern, offenbar. Training? Yeah, in keiner Weise formal.
Diskussion:
Die Gibbon Genom-Sequenzierungsprojekt stellte eine wichtige und gut dokumentiertes Beispiel für ein typisches Projekt in diesem Bereich. Nach meiner Erfahrung, dies war eine detaillierte Auflistung und Beschreibung als viele andere Projekte, die ich untersucht, und einige Tools, die mir neu und interessant waren bereitgestellt wurden. Eindeutig eine enorme Anzahl und Umfang der Bioinformatik Artikel, Werkzeuge, Repositories, und Konzepte für den Rahmen einer Genom-Sequenzierungsprojekt benötigt. Auf den Spuren der Herkunft von ihnen, obwohl, ist uneben und herausfordernde, und das ist nicht nur in diesem Projekt-es ist ein Problem unter dem Feld. Zugang zu aktuellen Bioinformatik Objekte ist auch unebene, und des künftigen Zugangs kann sogar noch eine Hürde sein, wie Alterungsprojektseiten verschwinden oder unbrauchbar. Dieses Projekt hat eine interessante Momentaufnahme der Stand der Dinge zur Verfügung gestellt, und guten Überblick über den Umfang des Bewusstseins, Fähigkeiten, Ressourcen, und das Wissen, dass die Forscher, Support-Mitarbeiter, oder Studenten müssten Projekte von ähnlichen Umfang erreichen.
Es verwendet einfacher zu sein. Früher haben wir die geringe Zahl der Werkzeuge auf der VAX verwenden, bergauf, im Schnee, in beide Richtungen, natürlich. Als ich ein Doktorand, einen Tag der Rückseite des Labor in den frühen 1990er Jahren, mein Kollege Trey und ich waren auf etwas herumstöbern wir gerade über-das World Wide Web gehört. Wir hatten eines dieser kleinen lustigen Macs mit den Teenie-Bildschirme, und wir fanden die Leute machen texty Web-Seiten mit banalen Schriftarten und Farben ungerade, und über ihre Forschung sprechen.
Obwohl wir beide waren mit einer Vielzahl von installierten Programmen oder Befehlszeilen für Sequenz Lesen und Ausrichtung, Manipulation, Plasmidkarten, Literatursuche und Lagerung, Bildverarbeitung, Phylogenien, und so weiter-wir wussten, dass diese Web-Sache ging, das Thema offen zu brechen.
Nicht lange nach, Ich wurde mehr und mehr Zeit in den hinteren Raum des Labors verbringen, Herausziehen Sequenzen aus diesem Ort NCBI (sehen eine Mitte der 1990er Jahre Schnittstelle hier), und auf der Suche nach neuen Splice-Varianten. Ich fand sie. Nur durch Eingabe-keine Radioaktivität und Gele von mir verlangt! Wie cool war, dass? Wir verließen uns auf Pedros Liste, um mehr nützliche Tools finden (Archiv von Pedro Molekularbiologie Suche und Analyse-Tools.).
Beide von uns ging dann in Postdocs und Arbeitsplätze, die stark in biologische Software und / oder Datenbankentwicklung waren. Wir haben eine Vordersitz auf die Veränderungen in diesem Zeitraum hatte, und es ist wirklich erstaunlich, zu beobachten. Und es war großartig für uns, die wir unsere Interessen-in eine Gesellschaft, die Menschen besser zu nutzen diese Tools hilft entwickelt, und es hat sich wirklich gelohnt.
Am OpenHelix, Wir versuchen immer, im Auge behalten, welche Werkzeuge sind Menschen mit. Wir durch die lange Schleppnetz regelmäßig, lange, lange ergänzende Materialien aus den "Big Data" Arten von Projekten, mit einem Kiemennetz, um die Software-Tools, die in Gebrauch sind in der Gemeinde zu extrahieren. Welche Datenbanken und Websites sind Menschen, die die? Was sind die grundlegenden Dinge, die jeder braucht? Was sind die innovative Dinge zu halten Ausschau nach? Welche Dateiformate oder Begriffe würden die Leute mit einer Ressource herstellen müssen?
Aber als ich begann, es zu tun, Ich dachte,: vielleicht sollte ich das als Ausgangspunkt nutzen, um einige der Probleme von Software-Tools und Daten in der Genomik diskutieren. Wenn Sie waren neu auf dem Feld und musste herausfinden, wie ein Projekt wie das geht, oder welches Wissen, Fähigkeiten, und Werkzeuge, die Sie benötigen würde, können Sie eine Vorstellung davon, wo Sie wollen zu etablieren? So habe ich dieses Papier, um den Stand der Dinge zu analysieren Art: Welche Websites Bioinformatik / tools / Formate / Objekte / Elemente werden in einer Arbeit dieses Umfangs enthalten? Können Sie sie finden? Wo sind die Barrieren oder Gefahren? Könnten Sie lernen, sie zu nutzen und zu replizieren, die Arbeit, oder vorantreiben von hier?
Es wurde Beleuchtungs mir eigentlich bauen sie alle an einem Ort. Es dauerte ein wenig Zeit, um die Werkzeuge, aufzuspüren und zu lokalisieren Informationen über sie. Aber es schien eine Momentaufnahme wert Nahme sein. Und ich hoffe, es werden einige der Bedürfnisse im Bereich, vor einige der wichtigsten Stücke verloren gehen, um den Launen der Zeit und Technik. Und auch ich hoffe, dass das Bewusstsein fördert gutes Verhalten in der Zukunft. Die Dinge scheinen besser zu werden-Gemeinschaft Druck auf Datensätze und Code-Repositories in unterstützten veröffentlichen gestiegen. Wir konnten einige standardisierte Zitat Strategien für die Werkzeuge verwenden, Quellen, und Parameter. Das US NIH ernst über die Verwaltung von "Big Data" und sicherzustellen, dass es ordnungsgemäß verwendet werden kann wurde mit großer Begeisterung aufgenommen worden. Aber es gibt noch einige Hügel zu erklimmen, bevor wir auf der Oberseite sind diese.
Referenz:
L. Carbone, R. Alan Harris, Sante Gnerre, Krishna R. Veeramah, Belén Lorente-Galdos, John Huddleston, Thomas J. Meyer, Javier Herrero, Christian Roos, Bronwen Aken & Fabio Anaclerio & der. (2014). Gibbon-Genom und die schnelle Entwicklung der Karyotyp kleinen Affen, Nature, 513 (7517) 195-201. DOI: http://dx.doi.org/10.1038/nature13679
FigShare Version dieses auf: http://dx.doi.org/10.6084/m9.figshare.1194879