태그 아카이브: biomart

주의 비디오 도움말: TargetMine, Data Warehouse for Drug Discovery

Browsing around genomic regions, layering on lots of associated data, and beginning to explore new data types I might come across are things that really fire up my brain. 날 위해서, visualization is key to forming new ideas about the relationships between genomic features and patterns of data. But frequently I want to take this to the next step–asking where else these patterns appear, how many other instances of this situation are there in a data set, and maybe adding additional complexity to the problem and refine the quest. This is not always easy to do with primarily visual software tools. This is when I turn to tools like the UCSC 테이블 브라우저, BioMart, 및 InterMine to handle some list of genes, or regions, or features.

We’ve touched on all of these before–sometimes with full tutorial suites (UCSC, BioMart), and sometimes as a 금주의 팁, InterMine복잡한 쿼리에 대한 InterMine. Learning about the foundations of these tools will let you use various versions or flavors of them at other sites. I love to see tools that are re-used for different topics when that’s possible, rather than building a whole new system. There are ModENCODE, 쥐, yeast mines, 더. This week’s tip is about one of those others–TargetMine is built on the InterMine foundation, with a specific focus on prioritizing candidate genes for pharmaceutical interventions. 부터 their site overview, I’ll add this description they use: TargetMine

TargetMine is an integrated data warehouse system which has been primarily developed for the purpose of target prioritisation and early stage drug discovery.

For more details about their framework and philosophy, you should see their papers (아래 링크). The earlier one sets out the rationale, the data types, and the data sources they are incorporating. They also establish their place in the ecosystem of other databases in this arena, which helps you to understand their role. But you should see the next paper for a really good grasp of how their candidate prioritization work with the “Integrated Pathway Clusters” concept they’ve added. They combined data from KEGG, Reactome, 및 NCI’s PID collections to enhance the features of their data warehouse system.

This week’s Video Tip of the Week highlights one of the tutorial movies that the TargetMine team provides. There’s no spoken audio with it, but the captions that help you to understand what’s going on are in English. I followed along on a browser with their example–they have a sample list to simply click on, and you can see various enrichments of the sets–경로, 유전자 온톨로지, Disease Ontology, InterPro, CATH, and compounds. They call these the “biological themes” and I find them really useful. You can create new lists from these theme collections. They also illustrate the “template” option–pre-defined queries with typical features people may wish to search. The example shows how to go from the list of genes you had to pathways–but there are other templates as well.

Another section of the video has an example of a custom query with the Query Builder. They ask for structural information for proteins targeted by acetaminophen. It’s a nice example of how to go from a compound to protein structure–a question I’ve seen come up before in discussion threads.

In their more recent paper (also below), they have some case studies that illustrate the concepts of prioritizing targets for different disease situations with their system. They also expand on the functions with additional software to explore the pathways: http://targetmine.mizuguchilab.org/pathclust/ .

So have a look at the features of TargetMine for prioritization of candidate genes. I think the numerous “themes” are a really useful way to assess lists of genes (or whatever you are starting with).

빠른 연결:

TargetMine: http://targetmine.mizuguchilab.org/ [참고: their domain name has changed since the publications, this is the one that will persist.]

InterMine: http://intermine.github.io/intermine.org/

참고 문헌:

첸, Y를, Tripathi, 실은, & 미즈 구치, C 조. (2011). TargetMine, an Integrated Data Warehouse for Candidate Gene Prioritisation and Target Discovery PLoS 하나, 6 (3) 간접 자원부: 10.1371/journal.pone.0017844

첸, Y를, Tripathi, 실은, Dessailly, B를, Nyström-Persson, 제이, 아마드, 미국, & 미즈 구치, C 조. (2014). Integrated Pathway Clusters with Coherent Biological Themes for Target Prioritisation PLoS 하나, 9 (6) 간접 자원부: 10.1371/journal.pone.0099030

Kalderimis A., 연구. 라인, 디. Butano, S. Contrino, M. 라인, Kokocinski. Heimbach, F 조. 후, 연구. 스미스, 연구. Stěpán, Kokocinski. 설리반 & G 조. Micklem & (2014). InterMine: extensive web services for modern biology, 핵산 연구, 42 (W1) W468-W472. 간접 자원부: http://dx.doi.org/10.1093/nar/gku301

주의 비디오 도움말: 복잡한 쿼리에 대한 InterMine

우리는 오랜 시간 동안 InterMine의 팬 봤는데. 우리가 해냈어 팁 - 중 - 주 동안 시간 전 즉,이 소프트웨어는 많은 종류의 빅 데이터 프로젝트에서 광산에 사용할 수있는 방법을 강조. InterMine의 일반적인 프레임 워크는 서로 다른 프로젝트에서 사용하기 위해 사용자 정의 할 수 있습니다–오늘은 FlyMine 설치 및 YeastMine 맛에서 동영상을 포함합니다–하지만 당신은뿐만 아니라 많은 다른 장소에서이 편리한 도구의 버전을 찾을 수 있습니다.

첫 번째 영상은 당신이 할 수있는 일의 다른 유형의 광범위한 개요입니다–이것은 비록 FlyMine, 당신도 다른 광산에서 비슷한 동작을 찾을 수 있습니다.

이 다음 동영상은 사람들이 수행해야 할 작업에 대한보다 구체적인입니다–유전자의리스트 작업. 이 예제는 최근 YeastMine의 사람들에 의해 제작되었다, 그러나 다시이 다른 광산에서와 비슷한 방식으로 작동합니다. 또한 읽어야 SGD 그것에 블로그 게시물–만들기, 분석, 저장: YeastMine의 유전자 목록의 힘.

나는이 프레임 워크에 대한 발견 다른 것은 이것으로 조정하는 이러한 모델 생물 광산의 여러 가지의 노력 InterMOD 구조. 나는 종종 경계입니다 있지만 “하나의 검색 모두를 지배하는” 노력의 종류, 우리가 잘 발달 된 사회와이를 지원하는 인프라가 없을 수 많은 종의 게놈 정보를 정기적으로 추가하는 중앙 조직 원리로이 가치가있을 수 있습니다.

나는 확실히 이들과 유사한 쿼리 도구를 많이 사용–같은 UCSC 테이블 브라우저, 및 BioMart. UniProt 다르지만 비슷한 개념의 그 쿼리를 작성하는 방법을 제공합니다. 이러한 인터페이스를 사용하면 데이터 저장소에서 정보를 추출하는 일부 영리하고 복잡한 방법을 구성 할 수 있습니다.

빠른 링크:

InterMine: http://intermine.github.io/intermine.org/

FlyMine: http://www.flymine.org/

YeastMine: http://yeastmine.yeastgenome.org/

InterMOD: http://intermod.intermine.org

참고 문헌:

스미스 R.N., Aleksic, J., Butano D., 카의 A., Contrino S., 후진타오 F., 라인 씨 M., 라인 씨 R., Kalderimis. & 러더 포드 K. & (2012). InterMine: 이종 생물 학적 데이터의 통합 및 분석을위한 유연한 데이터웨어 하우스 시스템., 생물 정보학 (옥스퍼드, 영국), 간접 자원부:

라인 씨 R., 스미스 R., 러더 포드 K., Wakeling M., Varley A., Guillier F., JANSSENS, H., 지 W., 매 클래 런 P. & 노스 P. & (2012). FlyMine: 초파리와 아노 펠 레스 유전체학을위한 통합 데이터베이스., 게놈 생물학, PMID:

Balakrishnan R., 공원 J., K. Karra, Hitz의 주전, Binkley G., 홍콩 E.L., 설리번 J., Micklem G. & 체리 J.M. (2012). YeastMine–다목적 도구 키트로 사카로 마이 세스 세레 비시 애 데이터에 대한 통합 데이터웨어 하우스., 데이터베이스 : 생물 학적 데이터베이스와 curation의 저널, PMID:

설리번 J., K. Karra, 목슨 요즘 SAT, Vallejos, A., Motenko H., 웡 J.D., Aleksic, J., Balakrishnan R., Binkley G. & 해리스 T. & (2013). InterMOD: 모델 생물 연구의 통합 데이터 및 도구를 통합., 과학 보고서, 3 (1802) PMID:

주의 비디오 도움말: 암 유전체학에 대한 ICGC 포털

A 바이오 스타 (Biostar)에서 질문 암에 대한 “유전자 세트” 최근에 내가 다시는 내 마음에 드는 데이터 소스 중 하나를 찾고있어–the ICGC, 국제 암 게놈 컨소시엄, 과 데이터 포털. 이전 게시물 우리는 기존 포털을 기반으로 한 짓을했는지 (자신의 사이트에 계속 사용할 수있는). 그들은 지난 가을 출시와 함께 물건을 조금 변경, 나는 아직 변경 사항을 적용하지 않았다.

편리, 그들은 그들이 제공하는 데이터에 액세스하는 방법을 설명하는 짧은 동영상을했다. 그들은 새로운 데이터를 추가하는 것을 계속했습니다, 소프트웨어를 완성하기. 당신은 그것을 체크 아웃해야합니다.

ICGC 데이터 포털 자습서 부터 ICGCVimeo.

과거에 나는 정말 유용한 정보 내가 조사했다 폐암 세포주와 비교 발견. 다시이 세포주 년에 발견되었다 나는 실제 종양 샘플에서 동일한 돌연변이를 보았다. 그러나도 발견했습니다 프로젝트 및 데이터에서 몇 가지 흥미로운 결과에 대해 더 자세히 이야기 최근 출판물이 있었다 (아래 링크).

당신은 정말 그들이 당신의 연구 영역을 커버하는 경우 데이터에 대한 이러한 프로젝트를 채굴 할 필요가. 즉, 아직 발표되지 않은 배울 많이 있습니다–단지에 읽어해야 자신의 사용 정책 당신은 저널에 중대한 발견을 전달하기 전에!

빠른 링크:

데이터 포털: http://dcc.icgc.org/

프로젝트 홈페이지: http://icgc.org/

참고 문헌:

허드슨 (위원장) 티제이, W. 앤더슨, Areta A., 바커 주후, 벨 C., Bernabé R.R., Bhan M.K., Calvo의 F., Eerola I. & 게르하르트 D.S. & 큰 컨소시엄에 많은 다른 사람… (2010). 암 게놈 프로젝트의 국제 네트워크, 자연, 464 (7291) 993-998. 간접 자원부:

알렉산드로 L.B., 닉 - 자이 S., D.C.에게 쐐기, Aparicio는 S.A.J.R., Behjati S., Biankin A.V., Bignell G.R., Bolli N., 보그. & Borresen - 데일 A.L. & 큰 컨소시엄에 많은 다른 사람…; (2013). 인간의 암에서 돌연변이 과정의 서명, 자연, 500 (7463) 415-421. 간접 자원부:

곤잘레스 - 페레즈의 A., Mustonen, V., REVA B., 리치 G.R.S., Creixell의 P., Karchin R., 바스케스 M., 핑크 J.L., Kassahn K.S. & 피어슨 J.V. & 큰 컨소시엄에 많은 다른 사람… (2013). 전산 암 게놈의 기능 유전자 변종을 식별하는 접근, 자연 방법, 10 (8) 723-729. 간접 자원부:

무슨 대답이야? (진 아이디 전환)

Biostar 질문에 대한 사이트입니다, 응답 및 생물 정보학 질문에 대해 논의. 우리의 회원커뮤니티는 매우 유용한 찾아. 자주 질문 및 답변은​​ 우리의 독자들에게 밀접한 관계가있는 것을 BioStar에서 발생하는 (게놈 자원의 최종 사용자). 매주 목요일은 우리가이 스레드 여기에 그 질문 중 하나이며, 답변을 강조합니다. 당신이이 스레드에 질문을 할 수, 또는 당신은 항상 BioStar에 참가할 수.

이번주의 하이라이트 질문:

좋은 무엇입니까 “유전자 ID를 변환 도구

이것은 이전 질문입니다, 부터 2 년 전, 하지만 여전히 관련성이 높은 답변을 여전히 매우 도움과 같은 자원의 전체 데이빗, BioDBnet, BioMart 외.

이것 좀 봐. 또한, 를 확인하는 것이 좋습니다 우리 UCSC 고급 튜토리얼의 3 분의 운동 . 운동:

“UCSC 유전자의 목록에서, 유전자 기호를 추가하고 유전자 세트에 대한 자세한 내용은 ID를 GO. 보너스 단계: 검색어를 가면 추가합니다.”

당신은 몇 가지 간단한 수정으로 UCSC 표 브라우저로 이렇게 할 수있을 방법을 통해 걷고.

주의 비디오 팁: 연간 검토 IV, 2ND 절반

당신은 아시다시피, 우리는이 동영상을 해왔 팁 -의 - 주FOUR 년. 우리는 주위 완료 200 작년부터 다양한 자원 작은 맛있는 가벼운 음식 소개, 2011 (옙, 그건 2012 지금). 올해의 끝에서 우리가 휴가 전통의 일종을 설립했습니다: 우리는 그들을 모두 수집하고 요약 게시물 뭐하는거야. 당신이 그들 중 하나를 놓친있다면 그것은 당신의 일을하는 것이 유용 하리라 일을 좀 빨리 좀보고있는 좋은 방법.

당신은 과거를 볼 수 있습니다’ 여기 팁: 2008 에, 2008 II에, 2009 에, 2009 II에, 2010 에, 2010 II에. The 상반기의 요약 2011 지난 주에에서 구할 수 있습니다.

July 2011

July 6: 유전자 우선 순위 포털을 사용하여 우선 순위 유전자

July 13: PolySearch, 한 번에 여러 데이터베이스를 검색

July 20: 인간 Epigenomics 시각화 허브

July 27: 새로운 SIB 생물 정보학 자원 포탈


August 2011

August 3: SNPexp, SNP를 유전자 발현의 상관 관계

August 10: 게놈 브라우저 소프트웨어를 비교 CompaGB

August 17: 잡아, revisited 비교 genomes

August 24: 빠른 모티브 다이어그램에 대한 도메인 그리기

August 31: UniProt에서 PSI의 SBKB으로, 그리고 다시 다시


September 2011

September 7: 플라자를 사용하여 플랜트 비교 유전체학

September 14: 박테리오 파지 게놈 탐사에 대한 phiGENOME

September 21: 게놈의 위치 얻기 측면 시퀀스

September 28: R 통계 소프트웨어 소개


October 2011

October 5: 유전자 변형 및 약물 정보 VnD 자원

October 12: UCSC 게놈의 브라우저에 추적 허브

October 19: 미토콘드리아 사체 GBrowser

October 26: Ensembl에서 변동 데이터


November 2011

November 2: MizBee Synteny 브라우저

November 9: 게놈 변종의 새로운 데이터베이스: DGV2

November 16: MapMi, microRNA LOC의 자동 매핑

November 23: BioMart 중앙 포털의 새로운

November 30: Phosphida, 포스트 translational 수정 데이터베이스

December 2011

December 7: VarSifter, 키 순서 유사 식별을 위해

December 14: NCBI의 게놈 자원에 큰 변화

December 21: 휴일 에그농 (또는 orthologous 유전자를 탐험하기)

December 28: 주의 비디오 팁: 연간 검토 IV (상반기 중 2011)

주의 비디오 도움말: BioMart 중앙 포털의 새로운

BioMart 널리 사용되는 데이터 관리 오픈 소스 소프트웨어, 최종 사용자가 다양한 형태와 생물 학적 데이터의 소스를 통해 복잡하고 사용자 지정 쿼리를 생성할 수 있도록 인터페이스. 그것은의 일부 GMOD 도구 키트, 큰 데이터를 여러 프로젝트 팀을 선택한 BioMart 사용할을 구성하고 데이터를 만들기 위해 소프트웨어를.

우리는 수년 동안 BioMart의 팬들을 봤는데. 우리가 설명한 최초의 소프트웨어 도구 중 하나, 그것은 우리가 적용되는 사이트의 많은 통합되면서–같은 Ensembl로. 결국 우리는 자체 자습서 제품군에 그것을 부러, 그래도, 자신의 Marts를 구축 그룹의 수십 지금은있다 등. 피부는 변경될 수 있으며 사용할 수있는 데이터 세트는 다른 사이트에서 달라질 수 있지만, 기본 소프트웨어의 기능은 동일합니다. 메인 BioMart 포털을 사용하여 배우는 것은 당신이 그들 모두를 사용하는 데 도움이 될 것입니다. 최근까지 BioMart를 사용하여 데이터 제공자의 목록은 홈페이지에 있던, 하지만 여기 내 슬라이드에서 해당 목록의 맛을의:

이 비디오 팁에서 나는 새롭게 다시 설계된 BioMart 메인 사이트를 소개시켜 드릴게요, 당신은 알고 BioMart의 다른 버전의 일부 터치를해야한다는. 우리는 업데이 트됩니다 우리 튜토리얼 스위트 곧 새로운 모습과 함께, 하지만 소프트웨어의 기능의 대부분은 우리가 달리 적용 것과 동일합니다 (구독에 의해 가능).

BioMart 순환의 두 가지 주요 버전은 지금있다. V 0.7 아마 지금 설치를 게놈 사이트의 어떤에 BioMart가 발생 가진 사람에게 가장 친숙한 될 하나입니다. 그러나 새로운 다시 설계된 V가 0.8 그것은 개발 중입니다. 그것은 국제 암 게놈 컨소시엄에서 사용되는 하나의 (ICGC.org) 그리고 또 한가지 0.8 BioMart 중앙 포털 시험해 사용할 수. 결국 이것은 많은 대체 수 0.7 설정, 그러나 이것은 사이트에 따라. 일부는 함께 계속 수도 있습니다 0.7 대신 업데이 트보다 동안. 그래서 아마이 시간에 둘 다 사용하는 방법에 대한 아이디어를 가지고 현명.

이미 이야기 생물 정보학의 사람있어 새로운 BioMart 인터페이스의 특징 중 하나는 ID 변환기입니다. 이 분야의 일반적인 문제, 그리고 스티븐 터너는이 문서의 facelift의 좋은 측면이라고 생각: BioMart 진 ID 변환기.

또 BioMart 당신이에서 사용할 수있는 도구 중 하나에 불과합니다 싶어 은하 자세한 분석을위한 데이터 큰 swaths에 액세스하려면. 은하에서, 를 엽니다 “데이터 가져오기” 그 BioMart를 보려면 메뉴 선택 사항 중 하나입니다.

BioMart에 대한 버즈 많이도 지난주에 있었을 때 “가상 호”저널 데이터베이스의 이었을뿐만 아니라 그 릴리스되었습니다 BioMart에 대한 개요 기사 전체, 뿐만 아니라 그들의 관리 및 쿼리 인터페이스 BioMart를 사용하는 자원뿐만 아니라 여러. 그래서 당신은 유용한이 소프트웨어가 얼마나 광범위하게 볼 수 있습니다, 데이터 제공자의 다양한 종류 중에서. 당신은 공급자 사이트에서 BioMart의 로컬 설치를 사용할 수 있습니다, 또는이 소스의에서뿐만 아니라 쿼리에 메인 사이트를 사용할 수 있습니다–더 강력하게 당신은 너무 쿼리 데이터베이스 간 수.

빠른 링크:

BioMart 기본 사이트: http://www.biomart.org/

BioMart 새로운 스타일의 바이오 중앙 포털: http://central.biomart.org/

GMOD에서 BioMart 페이지: http://gmod.org/wiki/BioMart

BioMart에 대한 데이터베이스의 가상 호: http://www.oxfordjournals.org/our_journals/databa/biomart_virtual_issue.html

참고 문헌:

캐스프리직, A. (2011). BioMart: 생물 학적 데이터 관리의 패러다임 변화를 주도 데이터베이스, 2011 간접 자원부: 10.1093/database/bar049

장, 제이, Haider, 미국, Baran, 제이, Cros, 대답 :, Guberman, 제이, 수의, 제이, 리앙, Y를, 야오, 실은, & 캐스프리직, A. (2011). BioMart: 대규모 협업 프로젝트에 대한 데이터 연방 프레임 워크 데이터베이스, 2011 간접 자원부: 10.1093/database/bar038

Guberman, 제이, 에, 제이, Arnaiz, 오, Baran, 제이, 블레 이크, 대답 :, 발독, 기철, Chelala, C., 집과 잇닿은 작은 농장, 디, Cros, 대답 :, CuttsDi 제노바, 기철, 제노 아의, 대답 :, 포브스, 미국, 후지사와, 토니, Gadaleta, 이봐요, E., Goodstein, 디, Gundem, 샷, Haggarty, B를, Haider, 미국, 홀, 엠, 해리스, 토니, 산사나무의 열매, 기철, 후, 미국, 허바드, 미국, 수의, 제이, Iyer, 브이, 존스, 추신, Katayama, 토니, Kinsella, 기철, 콩, 실은, 로손, 디, 리앙, Y를, 로페즈 - 라이스, 북아 일, 루오, 제이, 풍부한, 엠, 석공, 제이, Moreews, F., Ndegwa, 북아 일, 오클리, 디, 페레즈 - Llamas, C., Primig, 엠, Rivkin, 이봐요, E., Rosanoff, 미국, 목자, 기철, 사이먼, 기철, Skarnes, B를, 스매들리, 디, Sperling, 실은, 스푸너, 더블유, 스티븐슨, 추신, 돌, 사장님, 티그, 제이, 왕, 제이, 왕, 제이, 위티, B를, 웡, 디, 왕 - Erasmus, 엠, 야오, 실은, Youens - 클락, 사장님, 나, C., 장, 제이, & 캐스프리직, A. (2011). BioMart 중앙 포털: 생물 학적 커뮤니티 오픈 데이터베이스 네트워크 데이터베이스, 2011 간접 자원부: 10.1093/database/bar041

Haider, 미국, Ballester, B를, 스매들리, 디, 장, 제이, 쌀, 추신, & 캐스프리직, A. (2009). BioMart 중앙 포털–생물 학적 데이터에 대한 통합 액세스 핵산 연구, 37 (웹 서버) 간접 자원부: 10.1093/nar/gkp265

워크샵 세계 투어, 최근 중지: 아프리카 북서부의 회교 왕국, 아프리카

트레이너 & 주최

작년에 내가 줄 수있는 기회를했다 Ifrane 모로코 워크샵 (UCSC의 게놈과 표 브라우저, 은하) 알 Akhawayn 대학. 올해, 메리와 나는에 이상 3 일 워크숍에 대한 반환 Mohammadia 대학 하산 II. OpenHelix은 워크숍의 공동 후원했다 (우리의 시간을 기부, 자료와 전문). 워크숍은 자원의 세계 투어에서 주제 과다을 취재 (튜토리얼-무료) 그리고 입문 UCSC 게놈 브라우저 (튜토리얼-무료) 및 인코딩 (튜토리얼-무료) 의 게놈의 변화 분석 dbSNP (튜토리얼-회원 가입) 사용 및 분석 은하 (튜토리얼-회원 가입). 당신은 주제의 전체 일정을 볼 수 있습니다 Mohammadia 워크샵 일정 여기에 (PDF 파일).

작년으로, 우리는 학생들과 감동 먹었다 (거기 있었다 117 합계, 에 대해 50/50 성별 비율). 영어는 대부분의 경우 자신의 셋째 또는 넷째 언어입니다, 모로코 아랍어, 선택 자신의 언어되고 프랑스어 또는 여러 아프리카 언어. 아직, 그들은 세심되었으며 매우 통찰력과 매력적인 질문. 그들은 또한 무척 열성적 이었

워크숍 학생

학습자. 그것은 그들을 가르치고 즐겁게했다.

우리는 감사하고 싶습니다 NIH에서 모하메드 Bourdi, 누가 이것을 구성하는 시간과 재정 자원의 대량 소비 (그리고 작년) 작업장. 우리는 내년에 아마도 앞으로 수년 동안 이들을 반복하고 확장하는 희망. 우리는 스폰서를 찾는 것입니다.

몇 가지 질문은 우리가 여기서 답변을 되풀이하려는 우리의 독자들이 해답을 추구하려는 워크샵에 요청했다:

*한 학생은 primers를 설계 밀 게놈 자원을 찾고 있었어요. 밀의 게놈은 아직 완전하지 않습니다, 하지만 시작 몇 가지 자료가 없습니다:
밀 게놈 시퀀싱 컨소시엄
Gramene의 밀 자원
밀 유전자와 게놈 리소스 센터 @ 캔사스 주
아마도 또 받으라고 보존 시퀀스에 대한
추가 편집:
제임스’ 밀 초안 시퀀스에 게시 그 거대한 게놈에 몇 가지 통찰력을 제공 할 수.
*또 다른 학생은 dotplot 도구에 대한 질문:
은하 dotplot 분석을 포함하여 양각 도구 대규모 컬렉션을 제공합니다, 로가 EBI는 도구를 양각으로

* '동적 프로그래밍을 찾는 우려 또 다른 질문’ (최적의 솔루션) 여러 개의 시퀀스 정렬 도구로 스스로 발견하게하는 한 반대. 이런 문제는 동적 프로그래밍 솔루션의 검색 공간의 복잡도는, 이 슬라이드 세트는 이해하는 데 도움이, 특히 슬라이드 1-5 및 17-22. 너무 계산 집약이다. 그렇게 말했다, 학생이 체크 아웃 원하는 것일 수도 MSAProps위키백과에이 목록.

독자는 이것에 다른지도 있어요?

교육의 순간

* 우리가 생물학에서 DC-지역 인턴쉽을 찾는 방법을 알고있는 경우에 다른 학생이 물었다. 다른 학생 (말리의 수학자) 생물 정보학에 미국에서 뭔가를 찾고 있었던. 미국이나 캐나다 아프리카 생물 학생을 가지고 프로그램의 아이디어?

경우, 모로코 학생 (또는 다른 사람) 추가 질문이, 여기에 물어 주시기 바랍니다!


그리고 한편. 작년에 나는 모두를했다 3 투어 FES 시간은. 올해 내 여행의 장점을했습니다. 메리와 나는 FES와 마라 케시에서 몇 일 동안. 우리 가족은 마라 케시에서 우리에 입사하고 나중에 나의 가족과 나는을위한 돌아다녔다 8 아틀라스 산맥을 방문하는 일, 사하라와 FES. 말할 필요도없이, 그것은 일생 일대의 여행이었습니다. 모로코는 매력과 아름다운 장소입니다. 다시 방문 기대.

FES의 게이츠와 문은 아름답다

사하라에 낙타 여행





국제 암 게놈 컨소시엄; 톰 허드슨과 인터뷰

우리가 했어 이야기 국제 암 게놈 컨소시엄 (ICGC) 번 전, 우리는 있었 금주의 팁 프로젝트 및 데이터베이스 작년에. 자신의 사이트와 소프트웨어가 변경 되었기 때문에 그것은 새로운 팁 시간 수. 데이터 액세스의 가장 멋진 부분 중 하나는 그들이를 사용하고있다 BioMart 인터페이스에 대한 쿼리 도구–하지만 몇 가지 멋진 새로운 기능을 가지고 BioMart의 v0.8 최첨단 스타일.

어쨌든, 나는 ICGC의 원칙 중 하나와 인터뷰에 대한 오늘 아침 짹짹를 봤어요, 톰 허드슨. 그것은 프로젝트에 대해 논의 좋은 인터뷰의, 진행, 더. 당신이 ICGC의 작품을 다음되지 않은 경우 해당하는 좋은 진입 점으로 인터뷰를 사용할 수. 그리고 데이터를 체크 아웃–그리고 사이트에서 구할 수있는 BioMart 인터페이스.

인터뷰 (거기에 지적 tweeter와 모자 팁):

RT @ ResearchMedia: ICGC 사무국 박사 토마스 허드슨 # 암 퇴치에 컨소시엄으로 일하는의 혜택을 설명 http://t.co/CqM1UQm

ICGC를 방문: http://www.icgc.org/ 지금의 흐름은 데이터를보고 시작하는 데이터 포탈 클릭.


금주의 팁: 마이닝을위한 InterMine “큰 데이터”

이내에 검색어에 대한 큰 데이터 세트를 통합–및 전체–다양한 컬렉션은 최근 생물 정보학에 상당히 적극적되었습니다 경기장 중 하나입니다. 로 점점 더 많은 “큰 데이터” 프로젝트는 데이터 요소 및 데이터 유형의 거대한 숫자를 양보, 이것은 더 필요 해지고있다. 나는 데이터를 검색하는 사랑, 대규모 사용자 정의 쿼리가 좀 더 광범 발견을 만들고 싶어할지 때하지만 시간이 있습니다.

지금은 자원과 전 데이터 컬렉션의 구조 및 사용자 정의 검색어로 바뀌게 인터페이스의 수를 없습니다. The UCSC 테이블 브라우저, BioMart, 은하–이들은 거의 지속적으로 내 손에있는 것들입니다. 하지만 우리가보고있는 또 다른 창고 및 인터페이스 시스템이 점점 더: InterMine.

InterMine와 내 첫 진정한 만남은위한 거였어 modENCODE 데이터. 몇몇 정말로 훌륭한 데이터가 지금이 프로젝트의 밖으로 흐르는있어 (나는 그것에 대해 조금 얘기 최근에 여기에), 그리고 그들이 사용하는 인터페이스와 스토리지 시스템 InterMine입니다.

FlyMine가에 대한 초기 자극했다 “내” 시스템. 몇 년 뒤에 FlyMine는 다양한 프로젝트에서 들리는데 비행 데이터의 증가 금액 창고 및 쿼리 시스템으로 만들어졌습니다. 목표는 생물 정보학에 대한 강력한 시스템을 충분히 가지고하는 것이었다 + 슈퍼 유저, 하지만 벤치 생물학 사용할 또한 친절하면서도 강력한 인터페이스.

초기 신문은 기본적인 구성 요소를 설명: 사용자 인터페이스 3 기본 구성 요소: 브라우징을위한 큰의 빠른 검색; 사용자는 그들의 필요에 조정할 수있는 몇 가지 사전 정의된 표준 또는 가능성이 쿼리 형식을 액세스할 수 있습니다 템플릿 라이브러리; 그리고 가장 진보된 액세스를 위해 완벽하게 사용자 정의 쿼리 작성기. 이 종이 개발은 계속되고 있기 때문에, 그리고 다른 새롭고 멋진 기능뿐 아니라 현재 없습니다.

FlyMine 노력의 또 다른 큰 목표는 목록 다룰 수 있도록했다. 우리는 여전히 워크샵 들어갈 가장 일반적인 질문 중 하나는: “나는 _____의 목록을 가지고. 어떻게이 처리하는 가장 좋은 방법?” FlyMine–일반 및 InterMines–검색어에 사람들을 도와주는 물건의 목록과 그들의 탐험을 관리.

InterMines의 MyMine 기능도 좋은 구성 요소입니다. 당신이 원하는 로그인 및 매장 물건을 만들 수에 대한 액세스를 반복해야: 검색어, 목록, 등등.

너무 자신의 시스템에 대한 InterMine를 사용하는 다른 사람들이–최근 종이에 TargetMine, 용 “유전자 우선 순위 및 타겟 디스커버리” 구매, 그리고 곧 팁로 나타날 수도 있습니다! 제니퍼에 팁 했어요 YeastMine 부터 SGD 한번뿐.

하지만 트리거 무슨 날이 도움말 편지가 온 것이다 할 RGD 메일링리스트 지난 주에이 말을:

효과 금요일, 월 20, 2011 MCW BioMart 도구는 은퇴한 것입니다 RGD와 MCW의 프로테오믹스 센터로. 광산 쥐 데이터에 대한, 우리가 RatMIne 도구는 사용하기 쉬운 것으로 나타났습니다, 보다 유연하고 BioMart보다 더 많은 데이터 유형을 포함. 또한, RatMine가 BioMart에서 찾을 수 없습니다 분석 도구를 포함, RatMine 사용자에게 하나주고, 모두 취득 및 분석 데이터를위한 직관적인 인터페이스를.

그래서 그들은 InterMine 완벽하게 이동하고 은퇴 쥐 BioMart을, 독점적으로 그들의 설치시 RatMine를 사용하여. 주의이 팁은 InterMine을 모색할 것입니다 그래서, RatMine, 그리고 몇몇 다른 광산. 그것은 지상의 많은 커버 구요–좀 더 광범위하게 사용할 수있게하지만, 그것은 아마 InterMine에 대해 알고 귀하의 시간 가치. 그것은 당신이 추가 분석을 위해 갤럭시에 데이터를 가지고하려는 경우 광산과 쿼리하는 방법을 이해하는 것도 중요하다. 당신은 갤럭시 방문할 경우 당신이 보게 될 그들의 “데이터 가져오기” 섹션 내에게 도구에 액세스할 수 있습니다–하지만 당신은 여전히​​ 호스트 사이트 처음에는 기본적인 쿼리를 어떻게 알 필요가있다.

이 도움말 RatMine에 터치되지만, 포커스가 좀 더 일반적인 InterMine 제품군입니다. RGD는 또한 자신의 고지에서이 작업을했다:

RatMine의 개요 및 방법을 사용하는, RGD 튜토리얼 동영상으로 이동, “RatMine 데이터베이스에 소개”, 에 http://rgd.mcw.edu/wg/home/rgd_rat_community_videos/an-introduction-to-the-ratmine-database2. 양자 택일로, 를 따르십시오 “셀프 가이드 투어” RatMine의을 클릭하여 “둘러보기” 어떤 RatMine 페이지 상단의 링크.

직접 RatMine을 사용해, 로 이동 http://ratmine.mcw.edu/ 및 단순화된 데이터 마이닝 및 분석을 시작.

당신이 RatMine 사용에 대한보다 구체적인 정보를 갖고 싶어요면, 자신의 소개를 체크 아웃해야합니다.

빠른 연결:

InterMine: http://intermine.org/

RatMine: http://ratmine.mcw.edu/

modENCODE: http://www.modencode.org/

은하: http://usegalaxy.org/

라인, 기철, 스미스, 기철, 러더 포드, 사장님, Wakeling, 엠, Varley, 대답 :, Guillier, F., Janssens, 반장님, 그건, 더블유, 매클래런, 추신, 북, 추신, 라나, 디, 라일리, 토니, 설리반, 제이, 왓킨스, 엑스, 우드 브리지, 엠, Lilley, 사장님, 러셀, 미국, 애쉬 버너, 엠, 미즈 구치, 사장님, & Micklem, G 조. (2007). FlyMine: Drosophila와 아노 펠 레스 게놈에 대한 통합 데이터베이스 게놈 생물학, 8 (7) 간접 자원부: 10.1186/기가바이트 - 2007 - 8 - 7 - R129

광업 “큰 데이터” 입니다…매혹적인. 하고 필요한.

우리가 곧 워크숍있다, 내가이 이야기를 마지막 시간 이후 변화가되었는지 확인하려면 큰 데이터에 움직인다 시간을 보내고, 슬라이드를 업데이 트가 필요한 경우, 때로는 가설을 형성하고 테스트 해. (추신: 우리는 베일러에 다음이야, 사람이 워크샵을 찾고있다면.) 금요일에 나는 완전히에서 시작 쿼리에서 자신을 잃었 UCSC인코딩 데이터, 그리고에 종료 ICGC BioMart. 그리고 와우. 제가 연구실 somedays 있었시겠습니까….

마지막 워크샵의 의견 중 하나는 조직보고와 같은 세포 라인에 대한 인코딩 데이터가 동일이 아니라고했습니다. 그리고 난 완전히 동의–하지만 마우스 데이터를 인코딩은 데이터의 정렬을 도움이 될 것입니다. 그러나 과거의 시간 culturing 세포를 많이 소비하는 사람처럼, 나는 다른 세포 라인에서하는 방법 알고 관심 “참조” 게놈 보완. 그리고이보고있는 인간의 인코딩 프로젝트 중 하나가 특정 부분이 있어요: 일반 전지 CNV 추적.

여기 내가 한거야: 에 올 줄은 구조 변화의 유형을 찾아 테이블 쿼리 브라우저 3 검사되었습니다 세포 라인: GM12878, HepG2, 그리고 K562. 나 혼자 궁금해: 이러한 CNVs의 얼마나 많은이 알려진 유전자 중복? 그리고 유사 어떤 종류가 있습니다? 여기 그 검색어를 구조화하는 방법의 예제는 세포 라인 중 하나에의:

이 쿼리는 정상적인 부분을 산출, amplifications, 삭제–일부 삭제는 homozygous하고 일부는 heterozygous 아르. 제가 인코딩 워크샵에서 만들 점 중 하나는 내가 셀 라인을 썼다면 나는 그것에 대해 것들이 종류를 알고 싶은데요있다–나는 누군가가 너무 바깥 헬라와 다른 큰 세포 라인을했으면 좋겠. (아마도 누군가는, 하지만 데이터에 대한 몰라. 누군가가있다면, 내게 소리쳐주세요.)

그래서 이러한 변화 주​​변 일하고 있어요, 그리고 세포 라인 중 하나에 하나의 특정 지역에 대해 궁금해하고. 그것은 다소 중요한 보이는 유전자 영역을 꺼내서. 이 영역이 일부 암에 문제가있는 것으로 알려진 것을 찾을 수있는 문학에 가서.

나는 재미있는 일이라도 이러한 유전자와 회전 있었는지 ICGC 데이터를 보러 갔는데. 그리고 와우–whadda 나중에 알고: 데이터의 톤 그 데이터가 없어 아직 설정, 하지만 난 세포주에서 뭘 찾았는지 실제 종양에서 거기에 이미 데이터의 일부 사이에 상당한 대응을 발견. 그것은 그것에 대해 결론을 위해 너무 이른. 당신이 * *보고되지 않은 무엇이 큰 데이터 프로젝트에서 이해하기 어려워요, 거기에 이미 얼마예요, 얼마나 아니, 등등. 하지만 다른 유전자 뭉치를 확인하고 아무도 내가 보는 것 같았 패턴의 종류 보여주지.

때문에 ICGC 사용 정책, 나는 내가 본 것에 대해 구체적으로 말할 수 있다고 생각하지. 하지만 매우 궁금 해서요. 제가 연구실이있다면이 아침에 학생을 넣어했을 ;)

그리고 요점은 이것입니다: 데이터가 더 이상 신문에 없습니다. 이것은 데이터베이스에. 그리고 당신은 그것 광업 필요–이러한 큰 데이터 프로젝트는 당신에게 픽업 도끼를 죽여과 광산로 향하고.


당신은 내가 무슨 짓을 할 필요가 무엇:

1. 의 이해 UCSC 기능 그리고 인코딩 데이터. 그들이 UCSC과 UCSC에서 인코딩 팀에 의해 후원으로 자유롭게 사용할 수 있습니다 이들에 대한 자습서를 확인.

2. BioMart: 우리는 자습서를 여기에, 하지만 우리의 가입 패키지에.

당신은 필요 없어요 어떤: 현재 문학. 그것은 신문에 안, 및되지 않을 수 있습니다. The “큰 데이터” 물건 데이터베이스에, 단 소량 진짜로 전통적인 방식으로 게시될 수 있습니다.