Les données ne sont pas dans les documents de plus, vous savez.

Cette semaine, je travaillais sur la finition quelques documents de formation sur le Encoder des données. Nous avons parlé de cela avant, et nous avons eu certains matériaux à déjà pour soutenir le projet ENCODE, puisque nous avons un contrat avec les gens de UCSC de faire une formation sur ce. (Les nouveaux matériaux doivent être plus tard ce mois-ci.) Mais nous étions en fait un atelier sur ces données / logiciel récemment et nous avons eu une chose vraiment super arrive.

Dans l'atelier nous sommes arrivés à l'exercice où j'ai montré aux participants comment ajouter les données pour les sites de GATA1 facteur de transcription liant à la visualisation. Ces données font partie de la Site Yale facteur de transcription liant suivre.

Au premier rang de la salle de formation, un chercheur a effectivement commencé à pouffer de rire. Parfois, vous pouvez avoir du plaisir dans la formation aux logiciels, mais c'était différent. Cette femme était si heureux d'avoir découvert quelque chose qu'elle ne savait pas avant environ GATA1 contraignante près de son gène d'intérêt qu'elle était folle de joie.

Peut-être ce qui se passe quand elle lit les papiers, trop. Mais il m'a semblé que ce qu'elle venait de faire était venu à travers quelque chose qui n'est pas dans les journaux. Et cet élément spécifique peut ne pas être dans les journaux pendant une longue période. Mais parce qu'elle savait comment utiliser le navigateur de génome UCSC, et parce qu'elle est maintenant au courant des données encoder dans le navigateur, elle a découvert quelque chose d'important pour sa recherche.

Et ce n'est pas dans la littérature. C'est dans les bases de données.

J'ai aussi été récemment à l'aide de nouvelles sur le site de l'International Cancer Genome Consortium de l'interface BioMart à leur Centre de coordination des données. Avec la récente mise à jour, ils ont ajouté quelques nouvelles fonctionnalités, J'ai été en utilisant la nouvelle vue de la “Gènes affectés” sur cette page. J'ai choisi un type de cancer, J'ai chargé la protéine gènes codant, et là je regardais les gènes qui avaient été constatées à plusieurs reprises être affecté chez le patient après patient. Certains de ces gènes ne sont pas une surprise, certainement. Mais je me suis assis là à regarder les données que beaucoup de gens ne savent pas à propos–parce qu'il n'est pas encore dans les journaux. Et c'est peut-être pas pour longtemps.

Maintenant, deux de ces “grandes données” projets ont mises en garde: Ces données sont pré-publication. Bien qu'il existe certains niveaux de QC, il devrait être considéré comme préliminaire et que vous devez faire diligence avant de s'enfuir avec les conclusions à ce sujet. Et les deux projets ont des politiques d'utilisation des données de savoir jusqu'où vous pouvez la prendre avant la embargo sur les ou moratoire est considéré comme levé. Mais encore: vous pourriez faire des découvertes que personne d'autre n'a fait encore si vous 1) sont conscients que ces données est là, et 2) savoir comment utiliser le logiciel pour nous mettre au travail. Il n'ya vraiment aucun autre moyen de le savoir.

Cela dit, Je sais qu'il ya des problèmes avec les informations dans des bases de données. Un document a parlé à quelques questions de mauvaise annotation des données (Schnoes et al-dessous):

En raison de la libération rapide des nouvelles données de projets de séquençage du génome, la majorité des séquences de protéines dans les bases de données publiques n'ont pas été caractérisé expérimentalement; plutôt, séquences sont annotées en utilisant l'analyse computationnelle. Le niveau de misannotation et les types de misannotation dans de grandes bases de données publiques sont actuellement inconnues et n'ont pas été analysés en profondeur…..

Vous devez donc être conscient de ce. Et vous avez besoin pour confirmer ce que vous voyez. Mais encore une fois–vous avez besoin: 1) prise de conscience des outils utilisés pour ce faire, et 2) formation sur la façon d'utiliser les outils pour être sûr que vous avez trouvé l'information appropriée.

C'est pas non plus dans les journaux plus. C'est à vous de.

Il ya tant de projets de cette nature là-bas maintenant. Nous savons de nombreuses espèces, types de données, et des sujets qui sont tout simplement jeter trucs formidables dans les éthers….et si beaucoup de gens ne le réalisent pas. Je souhaite juste que j'ai eu le temps de la mine tout moi-même. Il ya de véritables joyaux de découverte là-bas. Mais vous avez besoin d'une carte, et vous avez besoin des outils. Et je veux en savoir plus rire, les gens. Obtenez sur elle, s'il vous plaît.

Référence:
Schnoes, A., Brown, S., Dodevski, I., & Babitte, P. (2009). Erreur d'annotation dans les bases de données publiques: Misannotation de la fonction moléculaire de l'enzyme Superfamilles PLoS Computational Biology, 5 (12) DOI: 10.1371/journal.pcbi.1000605

Rosenbloom, K., Dreszer, T., Faisan, M., Barber, G., Meyer, L., Pohl, A., Raney, B., Wang, T., Hinrichs, A., Direction, A., Fujita, P., Apprises, K., Rhead, B., Smith, K., Kuhn, R., Karolchik, D., Haussler, D., & Kent, Dans. (2009). ENCODE du génome entier de données dans le navigateur de génome UCSC Nucleic Acids Research, 38 (Base de données) DOI: 10.1093/nar/gkp961

Hudson (Président), T., Anderson, W., Aretz, A., Barker, A., De Bell, C., Barnabé, R., Bhan, M., Chauve, F., Eerola, I., Gerhard, D., Guttmacher, A., Guyer, M., Hemsley, F., Jennings, J., Kerr, D., Klatt, P., Kolar, P., Kusuda, J., Lane, D., Laplace, F., Lu, Y., Nettekoven, G., Ozenberger, B., Peterson, J., Rao, T., Remacle, J., Schafer, A., Shibata, T., Stratton, M., Vockley, J., Watanabe, K., YH.g, H., Yuen, M., Knoppers (Chef), B., Bobrow, M., Cambon-Thomsen, A., Dressler, L., Digue, S., Joly, Y., Kato, K., Kennedy, K., Nicolas, P., Parker, M., Rial-Sebbag, E., Roméo-Casabona, C., Shaw, K., Wallace, S., Wiesner, G., Zeps, N., Lumières (Chef), P., Biankin, A., Chabannon, C., Chin, L., Clément, B., de Alava, E., Degos, F., Ferguson, M., Geary, P., Hayes, D., Hudson, T., Johns, A., Kasprzyk, A., Nakagawa, H., Penny, R., Piris, M., Sarin, R., Chaussures, A., Shibata, T., l'étang, M., Futreal (Chef), P., Aburatani, H., Bayes, M., Bowtell, D., Campbell, P., Estivill, X., Gerhard, D., Grimmond, S., Eh bien, I., Hirst, M., Lopez-Otin, C., Majumder, P., Marra, M., McPherson, J., Nakagawa, H., Et, Z., Pont, X., Ruan, Y., Shibata, T., Stratton, M., Stunnenberg, H., Swerdlow, H., Velculescu, V., Wilson, R., Xue, H., YH.g, L., Spellman (Chef), P., Bader, G., Boutros, P., Campbell, P., Flicek, P., Getz, G., Guigó, R., Guo, G., Haussler, D., Heath, S., Hubbard, T., Jiang, T., Jones, S., Li, Q., Lopez-Bigas, N., Luo, R., Muthuswamy, L., Francis Ouellette, B., Pearson, J., Pont, X., Quesada, V., Raphaël, B., Sander, C., Shibata, T., Vitesse, T., Stein, L., Stuart, J., Teague, J., Totoki, Y., Tsunoda, T., Valencia, A., Wheeler, D., Wu, H., Zhao, S., Zhou, G., Stein (Chef), L., Guigó, R., Hubbard, T., Joly, Y., Jones, S., Kasprzyk, A., Lathrop, M., Lopez-Bigas, N., Francis Ouellette, B., Spellman, P., Teague, J., Thomas, G., Valencia, A., Yoshida, T., Kennedy (Chef), K., Axton, M., Digue, S., Futreal, P., Gerhard, D., Gunter, C., Guyer, M., Hudson, T., McPherson, J., Miller, L., Ozenberger, B., Shaw, K., Kasprzyk (Chef), A., Stein (Chef), L., Zhang, J., Haider, S., Wang, J., J'ai, C., Croix, A., Liang, Y., Gnaneshan, S., Guberman, J., Hsu, J., Bobrow (Chef), M., Chalmers, D., Noisette, K., Joly, Y., Khan, T., Kennedy, K., Knoppers, B., Lowrance, W., Masui, T., Nicolas, P., Rial-Sebbag, E., Lyman Rodriguez, L., Vergely, C., Yoshida, T., Grimmond (Chef), S., Biankin, A., Bowtell, D., Cloonan, N., DeFazio, A., Eshleman, J., Etemadmoghadam, D., Gardiner, B., Kench, J., Chaussures, A., Sutherland, R., Assaisonnement, M., Waddell, N., Wilson, P., McPherson (Chef), J., Gallinger, S., Tsao, M., Shaw, P., Petersen, G., Mukhopadhyay, D., Chin, L., DePinho, R., Thayer, S., Muthuswamy, L., Shazand, K., Beck, T., Sam, M., Timms, L., Ballin, V., Lu (Chef), Y., Son, J., Zhang, X., Chen, F., Hu, X., Zhou, G., YH.g, Q., Tian, G., Zhang, L., Xing, X., Li, X., Zhu, Z., Yu, Y., Yu, J., YH.g, H., Lathrop (Chef), M., Tost, J., Brennan, P., Holcatova, I., Zaridze, D., Brazma, A., Egevad, L., Prokhortchouk, E., Elizabeth Banks, R., Uhlen, M., Cambon-Thomsen, A., Orme, J., Ponten, F., Skryabin, K., Stratton (Chef), M., Futreal, P., Birney, E., Borg, A., Dale Børresen, A., Caldas, C., Foekens, J., Martin, S., Reis-Filho, J., Richardson, A., Sotiriou, C., Stunnenberg, H., Thomas, G., l'étang, M., van't Veer, L., Chauve (Chef), F., Birnbaum, D., Blanche, H., Boucher, P., Boyault, S., Chabannon, C., Eh bien, I., Masson-Jacquemier, J., Lathrop, M., Pauporté, I., Pivot, X., Vincent-Salomon, A., Tabone, E., Theillet, C., Thomas, G., Tost, J., Treilleux, I., Chauve (Chef), F., Bioulac-Sage, P., Clément, B., Decaens, T., Degos, F., Frank, D., Eh bien, I., Eh bien, M., Heath, S., Lathrop, M., Samuel, D., Thomas, G., Zucman-Rossi, J., Lumières (Chef), P., Eils (Chef), R., Frère, B., Korbel, J., Korshunov, A., Landgraf, P., Lehrach, H., Pfister, S., Radlwimmer, B., Reifenberger, G., Taylor, M., par Kalle, C., Majumder (Chef), P., Sarin, R., Rao, T., Bhan, M., Chaussures (Chef), A., Pederzoli, P., Lawlor, R., Delledonne, M., Bardelli, A., Biankin, A., Grimmond, S., Gress, T., Klimstra, D., Zamboni, G., Shibata (Chef), T., Nakamura, Y., Nakagawa, H., Kusuda, J., Tsunoda, T., Miyano, S., Aburatani, H., Kato, K., Fujimoto, A., Yoshida, T., Champ (Chef), E., Lopez-Otin, C., Estivill, X., Guigó, R., des Sanjosé, S., Piris, M., Monserrat, E., González-Díaz, M., Pont, X., Jares, P., Valencia, A., Himmelbaue, H., Quesada, V., Béa, S., Stratton (Chef), M., Futreal, P., Campbell, P., Vincent-Salomon, A., Richardson, A., Reis-Filho, J., l'étang, M., Thomas, G., Masson-Jacquemier, J., Aparicio, S., Borg, A., Dale Børresen, A., Caldas, C., Foekens, J., Stunnenberg, H., van't Veer, L., Easton, D., Spellman, P., Martin, S., Barker, A., Chin, L., Collins, F., Compton, C., Ferguson, M., Gerhard, D., Getz, G., Gunter, C., Guttmacher, A., Guyer, M., Hayes, D., Lander, E., Ozenberger, B., Penny, R., Peterson, J., Sander, C., Shaw, K., Vitesse, T., Spellman, P., Vockley, J., Wheeler, D., Wilson, R., Hudson (Président), T., Chin, L., Knoppers, B., Lander, E., Lumières, P., Stein, L., Stratton, M., Anderson, W., Barker, A., De Bell, C., Bobrow, M., Burke, W., Collins, F., Compton, C., DePinho, R., Easton, D., Futreal, P., Gerhard, D., Vert, A., Guyer, M., Hamilton, S., Hubbard, T., Kallioniemi, O., Kennedy, K., Droit, T., Liu, E., Lu, Y., Majumder, P., Marra, M., Ozenberger, B., Peterson, J., Schafer, A., Spellman, P., Stunnenberg, H., Wainwright, B., Wilson, R., & YH.g, H. (2010). Réseau international de projets sur le génome du cancer Nature, 464 (7291), 993-998 DOI: 10.1038/nature08987