Newly updated Quick Reference Card

주의 비디오 도움말: 클라우드 UCSC 게놈 브라우저,,en,GBIC,,yo (GBIC)

Newly updated Quick Reference CardFor all the years we’ve been out doing training on the UCSC Genome Browser tools, we could watch the evolution of the needs of the researchers and the corresponding features of the UCSC Genome Browser site. 처음에는, people just needed access to the public data. But then they needed ways to add their own data to the public data context and share the views. UCSC gave us custom tracks, and they gave us browser sessions. Woot!

점점, the data sets got bigger and more complex and custom tracks couldn’t handle the volume. UCSC delivered track hubs. Woot!

Some people were telling us that they had patient data that they couldn’t load on to the UCSC site because of privacy and legal issues. Then UCSC delivered GBIB–상자에서 게놈 브라우저. You could download a local copy of the browser and use your own data behind your firewall.

All of these strategies continue to help users combine their own data with the public data and visualize what they want to show. But there’s also another way now–GBIC, Genome Browser in the Cloud. This week’s tip shows you the video the team created to help people to understand what the GBIC can do. There’s additional information about the features that you can see on their announcement, via the mailing list. But just quickly, here’s the nutgraf:

지금까지, genomics research groups working with sensitive medical data were largely limited to using local Genome Browser installations to maintain confidentiality, complicating data-sharing among collaborators. 오늘, the Genome Browser group of the UC Santa Cruz Genomics Institute announced they have changed that by launching a new product, Genome Browser in the Cloud (GBiC). GBiC introduces new freedom to collaborate by allowing rapid Browser installation, in a UNIX-based cloud or UNIX-virtualized cloud.

And here you can have a look at how it works.

또한, we’ve recently updated our popular 빠른 참조 카드, and we added the note that the GBIC can be used to help people work with their own data. You can download those cards, or get some printed ones, from our website. These cards have had to keep evolving over the years to keep up with all the important features that UCSC adds regularly.

Try out the GBIC with your own data. And they are always looking for feedback on how it suits your needs, or other things you might need. Help them evolve.

공개: UCSC Genome Browser tutorials and materials are freely available because UCSC 스폰서 us to do training and outreach on the UCSC Genome Browser.

Tyner C, Barber GP, Casper J, 클로 슨 H, Diekhans M, Eisenhart C, Fischer CM, Gibson D, Navarro Gonzalez J, Guruvadoo L, Haeussler M, Heitner S, AS Hinrichs, Karolchik D, Lee BT, Lee CM, Nejad P, 레이니 BJ, 로젠 블룸 KR, Speir ML, Villarreal C, Vivian J, 츠바이크 나치 작가 AS, 하우 슬러 D, Kuhn RM은, and Kent WJ. UCSC의 게놈 브라우저베이스: 2017 업데이트. 핵산의 해상도. 2016 Nov 29;. PMID: 27899642; PMC: PMC5210591.

UCSC 게놈 브라우저, default human genome changed

This has gone out over the announcement mailing list, and is also on their web site. But in case you aren’t checking those, seemed important to get people to see.

14 September 2015 — Human Genome Browser default changed to GRCh38/hg38

In conjunction with the release of the new 100-species Conservation track on the hg38/GRCh38 human assembly, we have now changed the default human browser on our website from hg19 to hg38. This should not affect your current browsing sessions; if you were last looking at the hg19 (or older) 브라우저, the Genome Browser will continue to display that assembly for you when you start it up. There are circumstances, 그러나, in which the selected assembly can switch to the newer version. 예를 들면, the assembly will switch to hg38 if you reset your browser defaults. If you find yourself in a situation where some of your favorite browser tracks have “disappeared”, you may want to check that you’re viewing the right assembly.

We will continue our efforts to expand the annotation track set on the hg38 browser to include many of the tracks present on previous human assemblies. In cases where it makes sense, data may be simply “lifted” from hg19 using migration tools. In many instances, 그러나, we must rely on our data providers to generate new versions of their data on the latest assembly. We will publish these data sets as they become available.

For a summary of the new features in the GRCh38 assembly, 를 참조하십시오 개요 we published in March 2014.

UCSC replaces UCSC Genes with GENCODE as default gene set

UCSC Genome BioinformaticsThis is a big deal. And now I have to change my training materials. But I think it’s worthwhile. The GENCODE set is very extensive and the range of annotated types captures important details.

이 이메일에서 온 UCSC 게놈 브라우저 발표 메일링리스트. Pasting in full for those who aren’t on this list, 또는 여기리스트 아이템 링크:

[게놈 발표] GENCODE 유전자 인간에 이제 기본 유전자 세트 (GRCh38 / hg38) 어셈블리

생물 정보학 지역 사회 내에서 설정 공통 유전자 표준화를 향한 움직임으로, 우리의 기본 유전자가 인간 게놈 어셈블리에 설정된 UCSC 유전자 모델 GENCODE 세트를 채택하기로 결정했다. 우리의 기본 유전자가 인간 게놈 어셈블리 GRCh38에 설정된 오늘 우리는 설정 GENCODE의 V22 포괄적 인 유전자를 발표했다 (hg38), 이전 기본 UCSC 유전자를 대체하는 UCSC 생성 세트. 이러한 전환을 용이, 새로운 유전자 세트는 익숙한 UCSC 유전자 스키마를 이용한다, UCSC 세트의 이전 버전에 출연 한 거의 모든 같은 테이블 이름과 필드를 사용하여.

기본적으로, 만 성적 증명서로 태그 브라우저 표시 “기본” GENCODE 컨소시엄. 이러한 표지 된 트랙에서 찾을 수있다 : “GENCODE 기본” 유전자와 유전자 예측 트랙 그룹. 그러나, GENCODE 포괄적 인 세트의 모든 성적표는 테이블에 존재하는, 및 모든 GENCODE 슈퍼 트랙 트랙 구성 설정을 조정함으로써 보여 질 수있다. UCSC 생성 유전자의 가장 최신 버전은 여전히​​ 트랙에 액세스 할 수있는 “올드 UCSC 유전자”.

새 릴리스가 195,178 전체 성적 증명서, 비교 104,178 이전 버전. 표준 유전자의 총 수보다 증가한 48,424 에 49,534. 이전 버전과 새로운 유전자 세트를 비교:

  • 9,459 성적 증명서는 변경되지 않았습니다.
  • 22,088 성적 증명서는 새 버전으로 이월되지 않았다.
  • 43,681 성적 증명서는 “compatible” 이전 세트에서 그와, 두 성적 증명서가 일치 접합을 보여 의미. 대부분의 경우에, 과거와 성적 증명서는 UTRs의 길이에 차이가.
  • 28,950 성적 증명서는 이전 세트에서 그와 중복, 하지만 일관된 접합을 표시하지 않습니다 (나, 그들은 스플 라이스 사이트를 각기 다른 중복 인트론을 포함)

새로운 GENCODE 기본 트랙에 대한 자세한 정보는에서 찾을 수 있습니다 GENCODE 기본 트랙 설명 페이지.


우리가 가야 끄기. 내 아침에 흥분을 추가하는 방법. 나는 아직도 더 커피를 필요, 그래도.

Phytozome notice, new and improved v10 coming soon [see update]

This announcement came out while I was at a conference last week–but I wanted to pass it along. This appears to be a big change in the way Phytozome 작품. And there will be down-time before it rolls out, starting May 1. I like to post major announcements from mailing lists because I know everyone isn’t signed up on every mailing list in bioinformatics as I am…. I can’t figure out how to link to their mailing list archive, so I’m posting the whole thing here.

There appears to be a quick-start guide for the new interface, and I’ll keep an eye out for the chance to do another Tip of the Week (이전 팁).

Via the mailing list, from David Goodstein:

Subject: May 1st retirement of Phytozome v9

The last full day of support for v9 of Phytozome will be Friday, May 1st. Over the subsequent weekend, v9 will be brought down and forwarding services will be put in place to ensure as many URLs as possible find the correct, or at least related, pages in Phytozome v10.

1. Why does v9 of Phytozome need to be retired?
The Phytozome v9 website, HTTP에서://www.phytozome.net, is based on an older technology stack that is no longer supported by any developers on the Phytozome team. Newer genome releases, and newer data sets (diversity and expression data) are also not hosted on v9. In the interests of focussing our limited developer resources in the most effective way possible, and having a single location for access to Phytozome genomic data and analysis, we will have a single website going forward: Phytozome v10, located at http://phytozome.jgi.doe.gov .

2. What happens to the genomic data contained in Phytozome v9?
The vast majority of v9 genomes and annotations are available at the Phytozome v10 website, often in updated form (one genome, B 조. Rapa chiifu, is not being carried forward). Users can still find bulk data files containing all the genomes and annotations from Phytozome v9 at the JGI Genome Portal: HTTP를://genome.jgi.doe.gov/pages/dynamicOrganismDownload.jsf?organism=PhytozomeV9

3. I have bookmarks to various resources/genes/families at v9; what happens to those URLs?
-Links to the main site, help pages, release notes, and organism info pages will be automatically forwarded to the corresponding pages in v10.
-Gene pages: forwarding scripts will attempt to determine the corresponding gene page in v10
-GBrowse pages: GBrowse in v9 is replaced by JBrowse in v10. We will attempt to forward URLs to the corresponding location in JBrowse if it exists; 하지 않으면, the URL will be forwarded to the default location in the corresponding organism’s JBrowse.
-The following v9 URLs/pages will NOT forward to new locations in v10:
—Gene family pages
—Sequence Query results (BLAST results) and BioMart query results. Note that these expire after 3 days and are therefore not archivable at the present time.
—Keyword Search Results pages

4. I have no idea how to use the new Phytozome v10 interface. 도움!
There’s a Phytozome Quick Start Guide available at http://phytozome.jgi.doe.gov/pz/QuickStart.html . Release notes for Phytozome v10 are at http://phytozome.jgi.doe.gov/pz/portal.html#!releaseNotes.

5. I have further questions. What should I do?
Email the Phytozome development team at phytozome@jgi-psf.org

Thanks for using Phytozome.



Goodstein D.M., S. 슈, 연구. Howson는, 연구. Neupane, 연구. 디. 헤이즈, Kokocinski. 상, 티. Mitros, 에. Dirks, 너. Hellsten, 없음. 퍼트 냄 & 디. S. Rokhsar & (2011). Phytozome: 녹색 식물의 게놈에 대한 비교 플랫폼, 핵산 연구, 40 (D1) D1178-D1186. 간접 자원부: http://dx.doi.org/10.1093/nar/gkr944

업데이트: From the Phytozome team–v10 has been available already.

생물 학자에 대한 통계

호기심 우연의 일치에서 (통계적으로 관련이없는), 이번 주 내가 주 내 비디오 팁 등 유용한 통계 소프트웨어 및 도움말 게시물을 강조 할 계획. 위해 이번 주에 다른 조각이 당신을 다시 유혹하는, 난 당신이 방금 발표 된 자연의 편리한 수집을 가지고:

경우에 저쪽에 직접 링크 트윗 나누기 나중에: 생물 학자들에 대한 통계 - 무료 자연 컬렉션 발표 후입니다.

컬렉션은 여기: http://www.nature.com/collections/qghhqm

NCBI 월에 이틀간의 게놈 핵킹 마라톤을 개최하는

이 휴가 전에 수요일에 내 이메일에 와서 때문에, 그것은 어떤 사람들이 참석하는 것 같아서 사람을 놓칠 수 있다는 같았. 그래서 난 그냥 비트를 다시 게시하여 신호를 증폭하고 싶어. 그것은 온 NCBI 공지 메일 링리스트 당신은 모든 일을보고 싶다면, 여기 단지의 일부를 발췌 해요. 이것은 애플리케이션을 보유 편, 참고.

7 월 5 일부터, NCBI는 차세대 시퀀싱 데이터의 고급 생물 정보학 분석에 초점을 맞추고 게놈 핵킹 마라톤을 개최한다. 이 이벤트는 학생들을위한 것입니다, 박사후 연구원 및 연구자는 이미 차세대 시퀀싱 데이터에서 유전자 분석을위한 파이프 라인의 사용에 종사. 의 작업 그룹 5-6 개인은 DNA-SEQ 형성한다 / multiomics을, RNA - Seq, 메타 지노믹스 후성 유전학. 이 그룹은 클라우드 인프라 내에서 큰 데이터 세트를 분석하는 파이프 라인을 구축 할 것.

기본 조직 세션 후, 팀은 보낼 것입니다 2.5 데이터 세트의 그룹과 관련 과학적 문제 도전 세트를 분석 일. 학생들은 분석하고 이러한 문제에서 작동하기 위해 데이터 세트를 결​​합한다. 이 과정은 베데스다의 NIH 메인 캠퍼스에서 개최됩니다, 메릴랜드.

데이터 집합:
데이터 집합은 NCBI에서 지내게의 저장소에서 올 것이다. 도중에, 학생들은 분석을 위해 다른 데이터 세트와 도구를 포함 할 수있는 기회를 갖게 될 것입니다. 주의 사항, 당신은 과정에서 자신의 데이터를 사용하는 경우, 우리는 당신이 이벤트의 마지막 6 개월 이내에 공공 데이터베이스에 제출하도록 요청.

모든 파이프 라인 및 다른 스크립트, 이 과정에서 발생하는 소프트웨어 및 프로그램은 그 목적을 위해 설계 공공 GitHub의 저장소에 추가됩니다. 원고 참가자 프로세스 핵킹 마라톤의 설계의 개요 및 descripting, 제품과 과학적인 결과는 해당 저널에 제출 될 것입니다.

적용하려면, 아래 링크 된 양식을 작성 (대략 10-15 완료 분). 응용 프로그램은 오후 5 EST로 인해 12 월 1 일입니다.

참가자는 신청자의 풀에서 선택됩니다; 종래 학생 타이의 경우에 우선 순위가 부여 될. 허용 지원자는 오전 9 EST 12 월 10 일에 통지됩니다, 그들의 참여를 확인하기 위해 정오에 12 월 12 일까지이. 모니터링 된 이메일 주소를 기입하십시오, 경우에 후속 질문이 있습니다.

[몇 가지 물건이 여기에 제거, 요구 사항, 미리는 reqs, 실제 이벤트 물건에 다른 세부 사항. 여기에 전체 버전을 참조하십시오.]

* 유전체학 핵킹 마라톤 신청서: https://docs.google.com/forms/d/1isJT0Ns-5MHX8mH4xQnDEFbhlu4HombXspQQaADQoec/viewform

멀리 해킹.

생물 정보학 도구 전형적인 포유 동물 게놈 프로젝트로부터 추출 [보충]

이 표입니다 1 즉 전체 블로그 게시물을 함께: 생물 정보학 도구 전형적인 포유 동물 게놈 프로젝트로부터 추출. 자세한 내용과 설명을위한 주요 게시물을 참조. 표는 게시물에 보관하기에 너무 클, 그러나 나는 그것이 웹 검색되고 싶어. 사본은 또한 FigShare에있는: http://dx.doi.org/10.6084/m9.figshare.1194867

계속 읽기

생물 정보학 도구 전형적인 포유 동물 게놈 프로젝트로부터 추출

이 확장 된 블로그 게시물에서, 나는 최근 게놈 시퀀싱 용지에서 생물 정보학 관련 항목에 대한 정보를 추출하는 내 노력을 설명, 및 더 큰 문제는이 분야에서 제기. 이 길다, 그것은 블로그 포스트 및 용지 형식 사이의 하이브리드 뭔가, 그냥 내 자신의 조직을 위해 몇 가지 구조를 제공합니다. 이 사본은 전체 데이터 세트와 함께 FigShare에 게시됩니다. 멋진 종이와 자신의 프로세스와 자원을 광범위하게 문서화 수집을 위해 긴팔 원숭이 게놈 프로젝트 팀에 큰 감사. 내가 강조하고 싶었 문제는 일반적으로 생물 정보학 도구에 대한 액세스에 대한 아르와의 모든 프로젝트에 국한되지 않는, 하지만 필드에 대해 아르.


생물 정보학 분야, 데이터와 코드의 가용성에 대한 많은 논의가있다, 재현성 또는 자원을 사용하여 연구의 복제는 이전의 연구에서 설명. 문제의 범위를 탐색하려면, 나는 도구를 평가하기위한 시작점으로 잘 정리 긴팔 원숭이 게놈 시퀀스 프로젝트의 최근 간행물을 사용, 저장소, 데이터 소스, 현재 프로젝트에서 사용했던 다른 생물 정보학 관련 항목. 라는 생물 정보학 항목의 세부 사항은 게시에서 추출 된, 및 도구에 대한 위치와 정보는 탐구했다.

프로젝트 정보학 항목의 작은 분획은 용지의 본체에 표시했다 (~ 16 %). 그들 중 대부분은 보충 자료에서 발견. 우리는 과거에 언급 한 바와 같이, 어느 쪽도 데이터도 필요한 도구는 더 이상 전통적인 종이 구조에 게시하지 않습니다. 오버 중 100 생물 정보학 항목 작업에 기재된, 가용성 및 유용성은 크게 변화. 일부 교수 또는 학생 웹 사이트에있는, 프로젝트 사이트에 대한 몇 가지, 코드 저장소의 일부. 일부는 기존의 문헌에 게시, 일부는 학생의 논문 출판물 아르, 일부는 지금까지 공개되지 않기 때문에, 웹 사이트 또는 소프트웨어 설명서 설명서는 필요한 정보를 제공하는 역할을. 이 도구를 사용하는 방법에 대한 정보가 매우 고르지 못한 것을 의미, 지원은 종종 존재하지 않는다. 다른 소프트웨어 버전에 대한 액세스가 추가로 도전 포즈, 어느 오픈 소스 도구 또는 상업적 제품.

새 게시 및 스토리지 전략, 새로운 기술 도구, 폭 넓은 지역 사회의 인식과 지원은 더 나은 이러한 상황을 타개하기 시작, 확실히 앞으로 도움이 될 것입니다. 지속적으로 참조 도구에 대한 전략, 버전, 그들에 대한 정보가 매우 도움이 될 것입니다. 생물 정보학 사회는 역사의 일부를 관리 할 필요가 고려할 수 있습니다, 이 필드를위한 중요한 기초 조각, 그 중 일부는 미래 사회에 사용 가능한 상태로 유지하기 위해 현재 상태에서 구출 될 필요가있다.


자연의 웹 사이트에서, I는 최근 발표 된 논문의 사본을 수득: 긴팔 원숭이 게놈 작은 원숭이의 빠른 염색체의 진화 (CARBONE 외, 2014). 용지의 텍스트와 보충 교재에서, 나는 수동으로 명명 된 데이터베이스 도구에 대한 모든 참조를 추출, 데이터 소스 사이트, 파일 형식, 프로그램, 유틸리티, 또는 다른 계산 움직이는 부분은 내가 식별 할 수 그. 일부는이 과정 놓친 어쩌면이 될 수, 예를 들면, 내가 인식하지 않았거나 일부 기존 도구를 사용하여 연결하지 않은 이름 (또는 일부 이미지는 도구에서 생성 된, 어쩌면). 일부 참조를 "집에서 Perl 스크립트"이었다 또는 그들이 사용할 수있게되었다 않는 다른 "사용자 정의"시나리오는 일반적으로 포함되지 않았다. 로 간주 조각 일부 다른 기준에 "이미 설명과 유사한 방식으로"행해지고 존재, 나는 당신의 세부 사항을 추출하기 위해 이전 논문 상류 가지 않았다. 소프트웨어 실험실 장비와 관련된, 같은 시퀀서로 (다양한 기관에있는) 또는 PCR 기계는 포함되지 않았다. 따라서이 가능성이 사용하고있는 소프트웨어 항목의 언더 수를 나타냅니다. 또한 추가로 몇 가지에 대한 연구 팀에 연락, 신속하게 도움과 인도를 받았다. 게시자 또는 리소스 사이트에서 일반적인 인터넷 검색 엔진 또는 내부 검색을 사용하여, 나는 항목에 대한 소프트웨어의 소스 또는 인용에 일치하는 항목이 시도.

내가 양동이에 넣어 것은 생물 정보학 사회의 외부 학생이나 연구자들에게 필요한 및 / 또는 생소 할 가능성이 높은 항목 또는 특정 개체 이름을 포함. 일부는 관련 아르, 하지만 서로 다른. 예를 들어, 당신은 "무엇을 이해할 필요가유전자 온톨로지"전체적으로이며, 하지만 당신은 또한 "무엇을 알 필요가GOslim"입니다, 개념적 차이와 여기 내 지정 시스템에 별도의 객체. 일부는 다른 도구의 하위 구성 요소, 하지만 중요한 측면은 이해하기 (에서 GOTERM_BP_FAT 데이빗 또는에서 randomBed BEDTools) 보고서의 개별라는 이름의 항목은 다음과 같습니다, 이러한 비 실무자 모호한 수 있습니다로. 기타 생물 정보학 전문가는이 컬렉션에 자신의 할당에 동의 할 수. 우리는 목록의 미래 반복에 그 (것)들에 관하여 토론이 제거 또는 포함을 논의 할 수있다.


생물 정보학 개체 또는 항목에 대한 참조의 마스터 목록을 생성 한 후, 목록을 확인하고 중복 또는 추적이 불가능 측면에 대한 학살했다. "집 Perl 스크립트에서"에 대한 참조 또는 다른 "사용자 정의"스크립트는 일반적으로 삭제되었다, 코드 저장소에 대한 특별한 기준이 제공되지 않는 한. 이것은의 결과 133 나머지 항목.

그들은 어떻게 참조 아르? 어디 작품?
주요 간행물 (14 PDF 페이지) 그리고 첫째 부가 정보 파일 (133 PDF 페이지) 이 프로젝트를 위해 사용 생물 정보학 개체의 이름을 제공. 주요 논문에서 언급 된 모든 항목은 보충 교재에서 참조 하였다. 메인 종이라는 오브젝트 수가 있었다 21 의 133 나열된 구성 요소 (~ 16 %). 이것은 내가 전에 탐구 한 컨소시엄 또는 "빅 데이터"논문의 다른 유사한 유형과 일치: 소프트웨어 툴에 관한 필요한 정보의 벌크, 데이터 소스, 방법, 매개 변수, 및 기능은 광범위한 보충 자료에왔다.

항목은 다양한 방법으로 참조된다. 때때로 그들은 본문의 본문에 이름을 지정하는, 또는 방법. 때때로 그들은 사항으로 포함되어 있습니다. 때로는 도구는 그림 전설 만 언급, 또는 참조 만에. 이 경우에는, 일부 세부 사항은 "작성자 정보"섹션에서 발견되었다.


상기 한 바와 같이, 대부분의 부가 정보에서 발견. 그리고이 예에서, 이 텍스트 또는 테이블이 될 수. 이것은 이러한 대규모 프로젝트 논문의 상당히 전형적이다, 우리의 경험에서. 이러한 유형의 정보에 대한 텍스트 광산 서적을 시도하는 사람은이 정보에 대한 사항이 다양한 알고 있어야합니다.

어떤 생물 정보학 객체이 논문에 참여하고 있습니다?
생물 정보학 도구를 설명, 자원, 데이터베이스, 파일, 등등, 항상 도전하고있다. 이 내가 년 전 내 benchwork 생물학 논문에 넣어 것 "시약"에 유사하다. 그들은 결과에 문제가있다, 이러한 효소 공급 업체로, 마우스 스트레인 버전, 또는 항체 종의 자세한 사항. 그들은 당신이 재생하거나 일을 확장해야 할 일을 구성, 또는 적절한 문맥을 이해. 하지만 생물 정보학의 경우, 이는 같은 파일 포맷을 의미 할 수있다 FASTQ 또는 AXT 에서 형식 UCSC 게놈 브라우저. 그들은 같은 저장소 자원을 의미 할 수있다 SRA. 그들은에서 여러 가지 다른 버전이 다운로드 된 데이터 집합이 될 수 있습니다 ENSEMBL (버전 67, 69, 70, 또는 73 여기에, 하지만 이는 ENSEMBL으로 한 번만 계산했다). 이 참조 될 수 있습니다 Reactome 테이블에.

마음이 넓은 정의로, 테이블 1 라는 이름의 생물 정보학의 목록은이 프로젝트에서 추출 된 개체를 제공합니다. 이름이나 별명 또는 지정, 그것이 발견 될 수있는 사이트 (가능하다면), 간행물 또는 일부 인용은 가능하면 포함되어 있습니다. 최종적으로, 열은이뿐만 아니라 주요 논문에서 발견되었는지 여부를 지정.

무엇을 표시하지 않거나 일부는 다른 컨텍스트와 용도에 여러 번 참조에게 있다는 것입니다, 이러한 사용 빈도를 실현하지 명을 발생할 수 있습니다와 함께. 예를 들어, 아이러니하게도, RepeatMasker 너무 많은 시간을 참조했다 나는 한 지점에서 그것을 표시 중지하기 시작했다.

테이블 1. 소프트웨어 도구, 객체, 형식, 파일, 자원은 전형적인 포유 동물의 게놈 시퀀싱 프로젝트에서 추출. 이 블로그 포스트에 웹 버전의 부록을 참조하십시오: http://blog.openhelix.eu/?p=20002, FigShare에서 또는 액세스: http://dx.doi.org/10.6084/m9.figshare.1194867

우리는이 항목의 소스 또는 사용에 대해 무엇을 배울 수?
소스 코드에 대한 정보를 검색, 데이터 세트, 파일 형식, 저장소, 및 항목에 대한 관련 설명 정보 접근의 다양한 산출. 일부 개체는 기존의 과학 출판물과 관련된 소프트웨어 나 데이터가 유효하고 현재 링크가 아르 (뿐만 아니라, 때로는 잘못 인용된다). 이러한 특정 출판물에 paywalled 할 수있다, 또는 사용할 수없는 회의 논문에 설명되어 있습니다. 일부는 전혀 관련 출판물이 없습니다, 또는 제출 또는 준비에 설명되어 있습니다. 일부 도구는 문헌에 게시되지 않은 남아, 그들은 광범위한 사용으로 갔어요 긴 후, 자신의 문서 나 매뉴얼은 대신 인용. 일부는 교수 연구 페이지에있는, 일부는 학생의 논문 아르. 일부 도구는 프로젝트 별 페이지에 있습니다. 일부 코드에 존재하는 저장소 때로는되지 않는 사람이 사라질 수 있음. 그들 중 다수는 초기 간행물에서 이동 한, 전달 주소없이. 일부는 절차 기타 출판물에 대한 암시 아르. 그들 중 일부는 바로 다시 1990 년대로 시간 여행처럼, 표시 페이지는 시간 원본이어야합니다 함께. 일부 대학 웹 사이트에서 다음 시간보기 업데이트를 완전히 사라지고의 위험이있을 수있다 사이트 액세스를 변경.

다른 도구는 알 수없는 내용을 가지고있다 상용 패키지를 포함, 버전, 또는 의심 지속 가능성과 미래의 액세스.

데이터 프로세싱 또는 소프트웨어 구현의 세부 사항이 제공되면, 양은 변할 수. 때로는 매개 변수가 포함되어 있습니다, 다른 사람 없습니다.

도구를 누락 내가하고 싶어
프로젝트 결과에서 내가 제일 좋아하는 데이터 표현 중 하나였다 그림 2 주요 논문에서, 계통 구조로 구성 종 비교 옥스포드 격자. 이것은 매우 효율적으로 작은 영역에 방대한 양의 정보를 운반. 나는 이것이 기존의 도구는 곳이라고 기대했다, 하지만 팀에 쓰기에 나는 저자 중 하나가 R 스크립트입니다 발견, 다른 공동 작업자 그래픽 프로그램 "작가"의 후속 트리 구성에. 난 정말이 좋아, 그래도, 그것은 더 넓게 사용할 수있게 희망.

부활절 달걀
내가 건너 온 가장 재미 인용했다 PHYLIP 페이지, 및 FAQ 및 크레딧 놀라운했다. 사용할 수있는 기존의 게시 나에게 존재하지 않는다는 사실에도 불구하고, 긴 "크레딧"페이지가 프로젝트에 대한 몇 가지 흥미로운 통찰력을 제공합니다. The "아니 덕분에" 일부는 실제로 소프​​트웨어 개발 및 유지 보수를 지원하기 위해 자금을 얻기의 고난에서 매혹적인 모습이었다. "전도"에 대한 부분 우리에게 특히 재미 있었다:

아웃 리치 "물건 나는 요리 예술의 학생들을 신비화하는 워크숍을주는 시간을 할애한다는 뜻은"이 모든 것이 있습니까 "? 이 보조금은 진보 된 방법의 개발을위한, 브리핑하는 방법에 대한 "공공 또는 비 대학 교육은"시간 낭비 할 것 같다 — 나는 싸움 창조와 지적 설계 지지자에 어떤 노력을 투자 할 수 있지만, 하지만 난 그렇게 이러한 방법을 가져 오지 않습니다. "

심지어 도구의 사용을위한 "전도"및 지지체의 아이디어는 툴 공급자에 확실히 불분명, 분명히. 훈련? 예, 하지 공식적인 방법.


긴팔 원숭이 게놈 시퀀싱 프로젝트는이 분야에서 일반적인 프로젝트의 중요하고 잘 문서화 된 예제를 제공. 내 경험에, 이것은 내가 탐구 한 많은 다른 프로젝트보다 더 자세한 수집 및 설명했다, 나에게 새로운 흥미 로웠 몇 가지 도구가 제공되었다. 분명 엄청난 수와 생물 정보학 항목의 범위, 도구, 저장소, 와 개념은 게놈 시퀀싱 프로젝트의 범위에 필요한. 그들의 기원을 추적, 그래도, 고르지 도전, 이것은이 고유하지 않다 프로젝트는 필드 가운데 문제 야. 생물 정보학 개체에 현재의 액세스도 고르지, 미래의 액세스가 사라지거나 사용할 수 없게 될 수도 있습니다 프로젝트 페이지를 노화와 같은 장애물의 더 일 수있다. 이 프로젝트는 재생의 상태의 흥미로운 스냅 샷을 제공하고있다, 과 인식의 범위를 잘 설명, 기술, 자원, 지식이 연구원, 지원 직원, 또는 학생들은 유사한 범위의 프로젝트를 수행 할 필요가.

little_mac그것은 간단하기 위해 사용. 우리는 VAX 툴에 작은 번호를 사용하는 데, 오르막, 눈속에, 두 가지, 물론. 나는 대학원생 때, 1990 년대 초 연구소의 뒤쪽에 일일, 내 동료 트레이와 나는 우리가 단지에 대해 - 월드 와이드 웹 들었다 뭔가 주위에 파고 있었다. 우리는 조그마한 화면과 함께 그 작은 재미 맥 중 하나를했다, 우리는 사람들이 평범한 글꼴과 이상한 색상의 texty 웹 페이지를 만들고 있었다 발견, 그들의 연구에 대해 이야기.

우리는 모두 시퀀스 읽기와 정렬 설치된 프로그램 또는 명령 라인의 다양한 사용하고 있었지만, 조작, 플라스미드지도, 문헌 검색 및 저장, 이미지 프로세싱, phylogenies, 등 - 우리는이 웹 일을 벌리고 항목을 깰 거라는 걸 알고 있었다.

그 후 얼마되지 않아, I는 랩의 배면 방 더 많은 시간을 소비 하였다, 이 NCBI 장소에서 시퀀스를 잡아 당겨 (여기에 1990 년대 중반 인터페이스를 참조), 그리고 소설 스플 라이스 변종을 찾고. 나는 그들을 발견. 그냥 입력하지 노 날에 필요한 방사능 젤을하여! 이었다 멋진 방법? 우리는 더 많은 유용한 도구를 찾을 수 페드로의 목록에 의존 (페드로의 분자 생물학의 검색 및 분석 도구의 보관.).

우리 모두는 생물학적 소프트웨어 및 / 또는 데이터베이스 개발에 많이 있었다 박사후 연구원 및 작업으로 갔어요. 우리는이 기간 동안 변화에 앞 좌석을 했어, 그것을보고 정말 대단 했어요. 그리고 그것은 좋은되었습니다 우리 - 우리는 사람들이보다 효과적으로 이러한 도구를 사용하는 데 도움이되는 기업으로 우리의 관심을 개발, 그것은 정말 보람있다.

OpenHelix시, 우리는 항상 사용하고있는 도구 사람들에 눈을 유지하기 위해 노력하고있다. 우리는 정기적으로 긴 통해 트롤, 긴, 프로젝트의 "빅 데이터"종류에서 긴 보충 자료, 지역 사회에서 사용중인 소프트웨어 도구를 추출하는 자망을 사용하여. 사람들은 어떤 데이터베이스와 사이트에 의존? 기초 가지 모두가 필요로하는 것은 아르? 에 대한 경계를 유지하는 최첨단 물건은 무엇입니까? 형식이나 용어는 사람들이 자원과 연결해야하는 파일?

하지만 시작으로해야 할 일, 내 생각: 아마 I은 게놈의 소프트웨어 툴의 문제 및 데이터의 일부를 설명하는 시작점으로서 사용. 당신은 필드에 새로웠다 그리고 만약이 같은 프로젝트가가는 방법을 알아 내려고했다, 또는 무엇에 대한 지식, 기술, 및 도구가 필요할 것, 당신이 목표로하는 경우의 몇 가지 아이디어를 설정할 수? 그래서 일종의 놀이의 상태를 분석하기 위해이 문서를 사용: 어떤 생물 정보학 사이트 / 도구 / 형식 / 개체 / 항목은이 범위의 작업에 포함되어 있습니다? 당신이 그들을 찾을 수 있습니다? 어디는 장애물이나 위험 아르? 당신이 그들을 사용하고 작업을 복제 할 수 배울 수, 또는 여기에서 앞으로 운전?

실제로 한 군데로 모아 나에게 조명했다. 이 도구를 추적하고 그들에 대한 정보를 찾으려면 시간이 꽤 걸렸다. 그러나 스냅 샷의 가치가 복용 할 듯. 그리고 나는 그것이 현장에서 요구의 일부를 강조 희망, 키 조각의 일부는 시간과 기술의 변덕에 손실되기 전에. 또한 나는 인식이 미래에 좋은 행동을 장려 희망. 상황이 증가하고 있습니다 지원 저장소에 데이터 세트와 코드를 게시 할 수있는 더 나은 지역 사회의 압력을 받고있을 것. 우리는 도구에 대한 몇 가지 표준화 인용 전략을 사용할 수 있습니다, 소스, 및 매개 변수. The 미국 NIH는 "빅 데이터"를 관리하고 올바르게 사용할 수 있다는 보장에 대한 심각한 점점 큰 열정으로 충족 된. 하지만 여전히 일부 언덕은 우리가이 위에있어 전에 등반이 남아 있습니다.


L. CARBONE, 연구. 앨런 해리스, 산테 Gnerre, 크리슈나 R. Veeramah, 벨렌 Lorente-Galdos, 존 허들 스턴, 토마스 J. 메이어, 하비에르 헤레, 기독교 로스, Bronwen AKEN & 파비오 Anaclerio & al. (2014). 긴팔 원숭이 게놈 작은 원숭이의 빠른 염색체의 진화, 자연, 513 (7517) 195-201. 간접 자원부: http://dx.doi.org/10.1038/nature13679

이 게시물의 FigShare 버전: http://dx.doi.org/10.6084/m9.figshare.1194879

주의 비디오 도움말: HiSeq X-텐 데이터 Biodalliance 브라우저

드라마 둘러싼 $1000 게놈 너무 자주 매를 폭발, HiSeq X 텐 설치가 공개되었을 때와 올해 초 잡담을 많이 있었다–질문에게: 인가 $1,000 진짜 게놈? 그리고 비용 분석에 대한 몇 가지 푸시 백: 그 “$1000 게놈” 것입니다 당신에게 $ 72M 비용합니다. 놀이의 필드에 좋은 프레임 워크를 제공 조각이 여기에있다: 에 오신 것을 환영합니다 $1,000 게놈: 일루미나 (Illumina)에 믹 왓슨과 차세대 시퀀싱. 이외에도 미디어 날리고에서, 그래도, 중요한 것은 데이터입니다. 많은 사람들이 아직 데이터에 액세스 할 수 없었을.

Gholson 리옹 통해, 나는 일부에 대한 액세스에 대해 들어:

공동의 집합 (의학 연구의 Garvan 연구소, DNAnexusAllSeq) 제공 한 X 텐에서 설정 한 테스트 데이터. 나는 그들이 이러한 노력을 설명 드리겠습니다:

X에게 텐 데이터를 탐색하기 위해이 특별한 기회를 활용.

의학 연구의 Garvan 연구소, DNAnexus 및 AllSeq는 일루미나의 HiSeq X 텐을 사용하여 생성 된 첫번째 공개 테스트 데이터 세트에 대한 게놈 커뮤니티 오픈 액세스를 제공하기 위해 협력하고있다, 매우 강력한 시퀀싱 플랫폼. 우리의 목표는이 기술 발전이 작업 오늘과 미래에 무엇을 의미하는지에 대한 깊은 이해를 할 수 있도록 샘플 데이터를 제공하는 것입니다.

나의 초점은이 데이터 자체가되지 않습니다–그러나 당신은 기술이 시스템의 측면과 프로세스의 많은 관심이 있다면, 이 Garvan에서 워렌 카플란하여이 정보를 프리젠 테이션을 듣고있다:

샘플 데이터는 세포주에서 유래, GM12878 세포. 이 세포는 여기에 Coriell 저장소에서 아르: 카탈로그 ID: GM12878. 편리, 이 단계 중 하나이다 1 세포 라인 부터 인코딩 프로젝트도, 그래서이 세포주에 거기에 다른 공공 데이터가–과거에 탐구와에 대해 몇 가지 알고있다하는.

있다 2 다운로드 파일의 시퀀스의 다른 데이터 세트, 브라우저가 볼에 그 중 하나를 사용할 수 있습니다. 나는 Genoscenti 모든 파일을 다운로드를 통해이 될 것이라 확신합니다. 하지만 난 항상 관심 새로운 시각화이기 때문에, 나는 그들이 사용할 게놈 브라우저를 탐구하고 싶었다. 내가 들어했지만 Biodalliance 전, 우리는 끝으로 강조하지 않았다, 그래서 나는 그 탐구하는 흥미로운 일이 될 것이라고 생각. Biodalliance가 유연한, 임베디드, 확장 그것의 자신의 모습 가치 시스템, 이 테스트 데이터를 전달할뿐만. 당신이 나중에 들러서 경우 ​​X 텐 데이터는 더 이상 사용할 수 없습니다, 좋은 샘플 데이터 세트에 대한 자신의 사이트에 가서. 그들의 “시작하기” 페이지 기능에 좋은 소개가.

동영상에, 난 그냥 X-텐 GM12878 데이터 시각화 기능 중 일부 주위에 빠른 테스트 드라이브 할게요. 나는 샘플 영역의 몇 가지 살펴 보자, SOD1 유전자 하나는 검색 및 트랙을 설명하기. 그리고 지역을 살펴 보겠습니다 그 나는 CNV 데이터가 동형 접합 삭제를했던 과거의 인 코드에서 알고 즉이 데이터 세트에 모습 볼. (나중에 삭제를 찾으려면, 유전자 OR2T10 또는 UGT2B17 검색).

참고: 데이터는 시간에 민감한입니다–분명히 9 월까지 만 사용할 수있어 30 2014. 뜨거운있는 동안 그래서 그것을 얻을, 또는 지금 주변 검색.

빠른 연결:

테스트 데이터 사이트: http://allseq.com/x-ten-test-data

Biodalliance 브라우저 소프트웨어 상세: http://www.biodalliance.org/

참고 문헌:

T.A 다운. & 티. Kokocinski. 피. 허바드 (2011). 희롱: 웹에서 볼 수 있도록 대화 형 게놈, 생물 정보학, 27 (6) 889-890. 간접 자원부: http://dx.doi.org/10.1093/bioinformatics/btr020

헤이든 E 확인. (2014). 인가 $1,000 진짜 게놈?, 자연, 간접 자원부: http://dx.doi.org/10.1038/nature.2014.14530

던햄의 I., 셸리 F. 알드레드, 패트릭 J. 콜린스, 캐리. 데이비스, 프랜시스 도일, 찰스 B 조. 엡스타인, 세스 Fr​​ietze, 제니퍼 해로우, Rajinder Kaul & Jainab Khatun & (2012). 인간 게놈의 DNA 요​​소의 통합 백과 사전, 자연, 489 (7414) 57-74. 간접 자원부: http://dx.doi.org/10.1038/nature11247

에 의해 Garvan NA12878 HiSeqX 데이터 집합 의학 연구의 Garvan 연구소, DNAnexus 및 AllSeq 하에서 사용 가능합니다 크리에이티브 커먼즈 저작자 표시 4.0 국제 라이센스