标记档案: biomart

一周的视频提示: TargetMine, Data Warehouse for Drug Discovery

Browsing around genomic regions, layering on lots of associated data, and beginning to explore new data types I might come across are things that really fire up my brain. 对我来说, visualization is key to forming new ideas about the relationships between genomic features and patterns of data. But frequently I want to take this to the next step–asking where else these patterns appear, how many other instances of this situation are there in a data set, and maybe adding additional complexity to the problem and refine the quest. This is not always easy to do with primarily visual software tools. This is when I turn to tools like the UCSC的表浏览器, BioMart, 和 InterMine to handle some list of genes, or regions, or features.

We’ve touched on all of these before–sometimes with full tutorial suites (UCSC的, BioMart), and sometimes as a 提示的周, InterMineInterMine对于复杂的查询. Learning about the foundations of these tools will let you use various versions or flavors of them at other sites. I love to see tools that are re-used for different topics when that’s possible, rather than building a whole new system. There are ModENCODE, 大鼠, yeast mines, 多. This week’s tip is about one of those others–TargetMine is built on the InterMine foundation, with a specific focus on prioritizing candidate genes for pharmaceutical interventions. 从 their site overview, I’ll add this description they use: TargetMine

TargetMine is an integrated data warehouse system which has been primarily developed for the purpose of target prioritisation and early stage drug discovery.

For more details about their framework and philosophy, you should see their papers (下面链接). The earlier one sets out the rationale, the data types, and the data sources they are incorporating. They also establish their place in the ecosystem of other databases in this arena, which helps you to understand their role. But you should see the next paper for a really good grasp of how their candidate prioritization work with the “Integrated Pathway Clusters” concept they’ve added. They combined data from KEGG的, Reactome, 和 NCI’s PID collections to enhance the features of their data warehouse system.

This week’s Video Tip of the Week highlights one of the tutorial movies that the TargetMine team provides. There’s no spoken audio with it, but the captions that help you to understand what’s going on are in English. I followed along on a browser with their example–they have a sample list to simply click on, and you can see various enrichments of the sets–途径, 基因本体论, Disease Ontology, InterPro, CATH, and compounds. They call these the “biological themes” and I find them really useful. You can create new lists from these theme collections. They also illustrate the “template” option–pre-defined queries with typical features people may wish to search. The example shows how to go from the list of genes you had to pathways–but there are other templates as well.

Another section of the video has an example of a custom query with the Query Builder. They ask for structural information for proteins targeted by acetaminophen. It’s a nice example of how to go from a compound to protein structure–a question I’ve seen come up before in discussion threads.

In their more recent paper (also below), they have some case studies that illustrate the concepts of prioritizing targets for different disease situations with their system. They also expand on the functions with additional software to explore the pathways: http://targetmine.mizuguchilab.org/pathclust/ .

So have a look at the features of TargetMine for prioritization of candidate genes. I think the numerous “themes” are a really useful way to assess lists of genes (or whatever you are starting with).


TargetMine: http://targetmine.mizuguchilab.org/ [注意:: their domain name has changed since the publications, this is the one that will persist.]

InterMine: http://intermine.github.io/intermine.org/


陈, 华, 特里帕蒂, 属, & Mizuguchi, ç. (2011). TargetMine, an Integrated Data Warehouse for Candidate Gene Prioritisation and Target Discovery 科学公共图书馆一, 6 (3) 分类号: 10.1371/journal.pone.0017844

陈, 华, 特里帕蒂, 属, Dessailly, 二, Nyström-Persson, j的, 艾哈迈德, 学, & Mizuguchi, ç. (2014). Integrated Pathway Clusters with Coherent Biological Themes for Target Prioritisation 科学公共图书馆一, 9 (6) 分类号: 10.1371/journal.pone.0099030

Kalderimis A., ř. 莱恩, ð. Butano, S. Contrino, M. 莱恩, Ĵ. Heimbach, F. 胡锦涛, ř. 史密斯, ř. Stěpán, Ĵ. 沙利文 & Ğ. 米克勒姆 & (2014). InterMine: extensive web services for modern biology, 核酸研究, 42 (W1) W468-W472. 分类号: http://dx.doi.org/10.1093/nar/gku301

一周的视频提示: InterMine对于复杂的查询

我们一直InterMine的球迷很长一段时间. 我们做了 在一段时间前尖 - 的周 这强调了这个软件,可用于矿场许多类型的大数据项目的方法. InterMine的通用框架可以在不同的项目进行定制使用–今天我将包括来自FlyMine安装和YeastMine风味视频–但你可能会发现这个方便的工具版本在很多其他地方,以及.

第一视频是不同类型的东西,你可以做的更广泛的概述–虽然这是 FlyMine, 你会发现类似的行为在其他矿业太.

这下一个视频是更具体的有关任务,人们需要完成–与基因的清单工作. 这个例子是最近由YeastMine制作人, 但同样这应该工作在整个矿业的其他类似的方法. 你也应该阅读 新元 在它的博客文章–创建, 分析, 节省: 的基因列表中YeastMine电源.

我注意到这个框架的另一件事是几个这些模式生物矿山的努力来协调这个 互调 结构. 虽然我经常警惕 “一个搜索来统治他们所有” 种种努力, 有可以在这个值可以作为一个中央的组织原则,因为我们不断增加,可能没有那么发达的社区和基础设施,以支持他们更多的物种的基因组.

当然,我用了很多的查询工具,类似于这些–像 UCSC的表浏览器, 和 BioMart. UniProt 提供方法来建立查询这是不同的,但在概念上类似的. 使用这些接口可以构造一些聪明和复杂的方法来提取出的信息数据存储库.


InterMine: http://intermine.github.io/intermine.org/

FlyMine: http://www.flymine.org/

YeastMine: http://yeastmine.yeastgenome.org/

互调: http://intermod.intermine.org


史密斯R.N., Aleksic,J。, 硝基漆D。, 卡尔A., Contrino S。, 胡非。, 莱恩M。, 莱恩河, 一个Kalderimis. & 卢瑟福Ķ. & (2012). InterMine: 灵活的数据仓库系统的异构生物数据的整合和分析。, 生物信息学 (牛津, 英格兰), 分类号:

莱恩河, 史密斯河, 卢瑟福K。, Wakeling M。, 瓦利A。, Guillier楼, 詹森,H。, 姬W。, 麦克拉伦P. & 电话号码. & (2012). FlyMine: 果蝇和按蚊基因组学的集成数据库。, 基因组生物学, PMID:

维文河, 公园J., K. Karra, 公元前秋装新款, 宾克利G。, 香港E.L., 沙利文J., MicklemĞ. & 樱桃J.M. (2012). YeastMine–一个集成的数据仓库酿酒酵母数据作为多用途工具包。, 数据库 : 生物数据库和策展杂志, PMID:

沙利文J., K. Karra, 莫克森S.A.T., VALLEJOS,A。, Motenko H。, 黄J.D., Aleksic,J。, 维文河, 宾克利Ğ. & 哈里斯Ŧ. & (2013). 互调: 集成的数据和工具,模式生物研究的统一。, 科学报告, 3 (1802) PMID:

一周的视频提示: ICGC门户癌症基因组学

在映泰的问题 关于癌症 “基因组” 最近让我在看我最喜欢的数据来源之一再次–的 ICGC, 国际癌症基因组协会, 和他们的数据门户网站. 职位 我们所做的是基于他们的传统门户网站 (目前还可以使用他们的网站上). 他们改变了一点东西有释放去年秋天, 我还没有涵盖这些变化还.

便利地, 他们已经做了简短的视频,解释了如何访问他们提供的数据. 他们已经不断添加新数据, 并改进现有软件. 你应该看看.


在过去,我发现了一些非常有用的信息,以与肺癌细胞系我一直比较研究. 我看到了相同的突变实际的肿瘤样本中的被发现在该细胞系年前. 但也出现了最近出版的谈话中更详细了解该项目,并从数据的一些有趣的成果,我们发现有 (下面链接).

你真的需要挖掘这些项目的数据,如果它们覆盖您的研究领域. 有很多东西需要学习,已尚未公布–只是一定要读了他们的 使用策略 您提供您的伟大发现到之前的期刊!


数据门户: http://dcc.icgc.org/

项目主页: http://icgc.org/


哈德森 (主席) T.J., W·安德森, Areta A。, 公元巴克, C.贝尔, Bernabé R.R., 其班M.K., 卡尔沃楼, Eerola我. & 格哈德D.S. & 许多人在一个​​大财团… (2010). 国际癌症基因组项目的网络, 自然, 464 (7291) 993-998. 分类号:

亚历山德罗夫L.B., NIK-扎伊纳尔S。, 楔特区, 阿帕里西奥S.A.J.R., Behjati S。, Biankin A.V., 比格内尔G.R., Bolli N。, 博格. & Borresen - 戴尔A.L. & 许多人在一个​​大财团…; (2013). 在人类癌症的突变过程的签名, 自然, 500 (7463) 415-421. 分类号:

冈萨雷斯 - 佩雷斯A。, 穆斯托宁,五, Reva公司B。, 里奇G.R.S., Creixell的P., Karchin R。, 巴斯克斯M。, 芬克J.L., Kassahn K.S. & 皮尔逊J.V. & 许多人在一个​​大财团… (2013). 计算方法来确定在癌症基因组功能基因变异, 自然方法, 10 (8) 723-729. 分类号:

答案是什么? (基因ID转换)

映泰 网站是一个要求, 生物信息学的问题,回答和讨论. 我们的成员社区和发现它非常有用. 经常出现的问题和答案在映泰是我们的读者有密切关系 (基因组学的最终用户资源). 每星期四,我们将其中的一个突出问题和答案在这里在这个线程. 您可以询问一下该线程问题, 或者你可以随时参加在映泰.


什么是好的 “基因标识转换工具

这是一个旧的问题, 从 2 年前, 但仍然相关和答案仍然非常有用,如资源 国宝, BioDBnet, BioMart 和其他人.

检查出来. 还, 可能要检查出 第三行使我们的加州大学圣克鲁兹分校的高级教程 . 演习:

“从UCSC的基因列表, 添加基因符号和基因组的附加信息的ID. 奖金步骤: 添加GO术语。”


一周的视频提示: 年度回顾IV, 2下半年

正如你可能知道, 我们一直在做这些视频 提示-的-的周 多年来. 我们已完成约 200 小珍闻引进各种资源,从去年, 2011 (YEP, 它的 2012 现在). 截至今年年底,我们已经建立了一个传统节日排序: 我们正在做一个总结后,收集所有. 一.

你可以看到过去几年’ 秘诀在这里: 2008 在, 2008 二, 2009 在, 2009 二, 2010 在, 2010 二. 该 总结上半年 2011 可从上周.

七月 2011

七月 6: 使用基因优先次序门户的优先顺序的基因

七月 13: PolySearch, 一次搜索许多数据库

七月 20: 人类表观可视化枢纽

七月 27: 新SIB的生物信息学资源门户


八月 2011

八月 3: SNPexp, SNP位点和基因表达之间的相关性

八月 10: CompaGB为比较基因组浏览器软件

八月 17: 抢, 比较基因组的重新审视

八月 24: 域画出快速图案图

八月 31: 从UniProt PSI SBKB和回来


九月 2011

九月 7: 使用广场的植物比较基因组学

九月 14: phiGENOME为噬菌体基因组探索

九月 21: 获得侧翼序列的基因组的位置

九月 28: R统计软件简介


十月 2011

十月 5: 越南盾资源遗传变异和药物信息

十月 12: 在UCSC基因组浏览器的轨道枢纽

十月 19: 线粒体转录来自全世界几十个

十月 26: 从Ensembl的变化数据


十一月 2011

十一月 2: MizBee共线性浏览器

十一月 9: 新的数据库的基因变种: DGV2

十一月 16: MapMi, 自动制图的microRNA LOC

十一月 23: BioMart中央门户网站的新

十一月 30: Phosphida, 一个翻译后修饰数据库

十二月 2011

十二月 7: VarSifter, 确定关键的序列变异

十二月 14: NCBI的基因组资源的大变化

十二月 21: 蛋酒为假期 (或探索同源基因)

十二月 28: 一周的视频提示: 年度回顾IV (上半年 2011)

一周的视频提示: BioMart中央门户网站的新

BioMart 是广泛使用的数据管理开源软件, 同一个接口,使最终用户在许多不同类型和生物数据来源的复杂和定制查询. 它的一部分 全球媒体点播 工具包, 和许多项目团队有大的数据选择 BioMart 组织,使他们的数据提供给您的软件.

我们已经多年BioMart球迷. 这是我们描述了最早的软件工具之一, 因为它被集成到很多的网站,我们讨论–作为Ensembl. 最后,我们打破了它,到自己的教程套件, 虽然, 现在有群体已经建立了自己的几十个集市. 虽然皮肤可能会改变,可用的数据集将在不同的地点不同, 底层软件的功能是相同的. 学习使用的主要的BioMart门户网站,将帮助您使用所有. 直到最近网页上的数据提供者使用BioMart的名单, 但这里有一个该列表中的幻灯片从我的味道:

在这个视频提示中,我将推出重新设计的新BioMart主要网站, 和一些其他版本的BioMart的触摸,你应该知道. 我们将更新 我们的教程套件 很快与新面貌, 但该软件的功能最重要的是,因为我们已经介绍了,否则 (可通过订阅).

现在BioMart循环的主要有两个版本. 的V 0.7 是一个可能会遇到任何已安装的基因组学网站BioMart的人最熟悉的,现在. 但是有一个新的和重新设计的v 0.8 正在开发的. 这是在国际癌症基因组协会之一 (ICGC.org) 还有一个 0.8 BioMart中央门户 可以尝试. 这最终可能取代了许多 0.7 设置, 但是,这取决于在网站上. 有人可能会坚持 0.7 ,而不是更新,而. 因此,它可能是明智的,有一个如何使用在这个时候他们两个的想法.

新BioMart接口已经得到了生物信息学的乡亲交谈的功能之一是转换器的ID. 这是一个在该领域的共同问题, 史蒂文特纳认为,这是一个好的方面的换装: BioMart基因ID转换器.

我也想请注意,BioMart是,你可以使用的工具之一 星系 访问大片的数据作进一步分析. 银河, 打开 “获取数据” 菜单看到BioMart的是你的选择之一.

上周也有很多约BioMart BUZZ时 “虚拟发行”期刊数据库 被释放,不仅是 概述文章约BioMart 作为一个整体, 但也有几个资源的使用以及对他们的管理和查询接口BioMart. 所以你可以看到有用这个软件是如何广泛, 许多不同类型的数据提供者之间的. 您可以使用BioMart本地安装在一个供应商的网站, 或者您可以使用主网站查询,以及这些来源的任何–更有力,你可以跨数据库查询.


BioMart主要网站: http://www.biomart.org/

BioMart新风格的生物中央门户: http://central.biomart.org/

在全球媒体点播的BioMart页面: http://gmod.org/wiki/BioMart

虚拟数据库的发行BioMart: http://www.oxfordjournals.org/our_journals/databa/biomart_virtual_issue.html


Kasprzyk, 一. (2011). BioMart: 推动在生物数据管理范式的变化 数据库, 2011 分类号: 10.1093/database/bar049

张, j的, 海德尔, 学, 巴兰, j的, CROS, 答:, Guberman, j的, 许, j的, 梁, 华, 姚明, 属, & Kasprzyk, 一. (2011). BioMart: 数据联合大型合作项目框架 数据库, 2011 分类号: 10.1093/database/bar038

Guberman, j的, 要, j的, Arnaiz, 澳, 巴兰, j的, 布雷克, 答:, 鲍尔多克, 河, Chelala, 三, 克罗夫特, 四, CROS, 答:, 卡茨, 河, 热那亚, 答:, “福布斯”, 学, 藤泽, 吨, Gadaleta, 大肠杆菌, 古德斯坦, 四, Gundem, 克, 古德纳, 二, 海德尔, 学, 霍尔, 米, 哈里斯, 吨, 山楂, 河, 胡锦涛, 学, 哈伯德, 学, 许, j的, 艾耶, V, 琼斯, 体育, 片山, 吨, 金塞拉, 河, 港, 属, 劳森, 四, 梁, 华, 洛佩斯 - 赖斯, 全, 罗, j的, 繁茂, 米, 石匠, j的, Moreews, 楼, Ndegwa, 全, 奥克利, 四, 佩雷斯 - 拉马斯, 三, Primig, 米, 里夫金先生, 大肠杆菌, Rosanoff, 学, 牧羊人, 河, 西蒙, 河, Skarnes, 二, 史沫特莱, 四, 斯珀林, 属, 斯普纳, 瓦特, 史蒂文森, 体育, 石, 光, 蒂格, j的, 王, j的, 王, j的, 屈, 二, 黄, 四, 皇 - 伊拉斯谟, 米, 姚明, 属, Youens - 克拉克, 光, 容, 三, 张, j的, & Kasprzyk, 一. (2011). BioMart中央门户: 生物群落的开放式数据库网络 数据库, 2011 分类号: 10.1093/database/bar041

海德尔, 学, Ballester, 二, 史沫特莱, 四, 张, j的, 赖斯, 体育, & Kasprzyk, 一. (2009). BioMart中央门户–生物数据的统一访问 核酸研究, 37 (Web服务器) 分类号: 10.1093/nar/gkp265

世界巡回讲习班, 最近停止: 摩洛哥, 非洲的

导师 & 组织者

去年我有机会给予 伊夫兰摩洛哥讲习班 (加州大学圣克鲁兹分校基因组和表的浏览器, 星系) 在Al Akhawayn大学. 今年, 玛丽和我返回更长的为期3天的研讨会 在穆罕默德哈桑二世大学. OpenHelix是一个车间的共同提案国 (捐赠我们的时间, 材料和专门知识). 研讨会涵盖了从资源的世界巡回演唱会的主题过多 (教程-免费) 和介绍 UCSC基因组浏览器 (教程-免费) 和 进行编码 (教程-免费) 基因组变异分析 dbSNP (教程-订阅) 和分析 星系 (教程-订阅). 的话题,你可以看到完整的时间表 穆哈默德研讨会时间表 这里 (PDF格式).

作为去年, 我们留下了深刻的印象与学生 (有 117 总, 关于 50/50 性别比例). 英语是他们的第三或第四语言在大多数情况下, 摩洛哥阿拉伯语, 非洲法语或自己选择的语言的各种语言. 然而,, 他们细心和要求非常敏锐的和引人入胜的问题. 他们也很热情


学习者. 这是一个教给他们的喜悦.

我们要感谢 在国立卫生研究院的穆罕默德Bourdi, 谁花了大量时间和财力组织 (和去年的) 研讨会. 我们希望明年,也许今后几年的重复和扩大这些. 我们将寻找赞助商.


*一个学生设计引物对小麦基因组资源. 小麦基因组尚未完成, 但也有一些资源上手:
小麦基因和基因组资源中心 _AT_堪萨斯州立
或许也 CATCH 保守序列
詹姆斯’ 张贴在小麦序列草图 那庞大的基因组可能会给一些洞察.
星系 提供了包括dotplot分析EMBOSS工具大集合, 如不 EBI的浮雕工具

* 有关的另一个问题找到一个“动态规划’ (最佳的解决方案) 多序列比对工具,而不是一种启发式. 这个问题是复杂的动态编程解决方案的搜索空间, 这张幻灯片设置可能帮助与理解, 尤其是幻灯片 1-5 和 17-22. 实在是太计算密集型. 这就是说, 学生可能要检查 MSAProps这在Wikipedia列表.



* 另一名学生问,如果我们知道如何找到直流区域生物科学实习. 另一名学生 (数学家从马里) 一直在寻找在美国生物信息学的东西. 方案的任何想法,使非洲的生物学学生到美国或加拿大?

如果我们的摩洛哥学生 (或任何其他人) 有任何其他问题, 请随意问他们在这里!


和一个侧面说明. 去年,我所有的 3 小时的参观Fes的. 今年,我把我的行程的优势. 玛丽和我花了几天在非斯和马拉喀什. 我的家人在马拉喀什加入我们,后来我和家人巡回演出 8 阿特拉斯山脉的天访问, 撒哈拉和FeS. 不用说, 这是一个千载难逢的行程. 摩洛哥是一个迷人而美丽的地方. 我期待着再次来访.







国际癌症基因组协会; 采访汤姆哈德森

我们 谈到 国际癌症基因组协会 (ICGC) 之前数次, ,我们有一个 提示的周 去年项目和数据库. 这可能是一个新的提示时间,因为他们的网站和软件已经改变. 数据访问非常酷的方面之一是,他们使用的是 BioMart 查询工具接口–但它的BioMart V0.8前沿的风格,有一些不错的新功能.

无论如何, 今天上午,我看到了关于接受记者采访时鸣叫ICGC的校长之一, 汤姆哈德森. 这是一个不错的采访时表示,有关该项目的会谈, 所取得的进展, 多. 如果你没有被ICGC的工作,你可能会利用这次采访中,作为一个很好的切入点,. 然后检查出的数据–和BioMart接口,可在现场.

采访 (和帽子尖高音指出我有):

RT @ ResearchMedia: 托马斯哈德逊博士ICGC秘书处概述了反对#癌症作斗争的工作作为一个财团的利益 http://t.co/CqM1UQm

访问的ICGC: http://www.icgc.org/ 点击数据门户,开始寻找在现在流动的数据.


提示的周: InterMine挖掘 “大的数据”

整合为大型数据集内的查询–和跨越–各种收藏已是近来非常活跃的生物信息学领域之一. 随着越来越多 “大的数据” 项目产量数据点和大量的数据类型, 这仅仅是变得更有必要. 我喜欢浏览数据, 但有些时候,大规模定制的查询是你必须要做出一些更广泛的发现.

现在有很多的资源和接口,我把收集的数据结构化和个性化的查询号码. 该 UCSC的表浏览器, BioMart, 星系–这些人是我有我的手几乎连续. 但是还有另外一个仓库和接口系统,我们看到越来越多: InterMine.

我第一次真正接触是与InterMine为 modENCODE 数据. 这里也有一些很了不起的数据流进行的该项目现在 (我讲一个关于该位 最近在这里), 和存储系统的接口和他们使用的是InterMine.

FlyMine是最初的动力为 “我的” 系统. 几年前,FlyMine创建为一个仓库和粉煤灰为越来越多的数据是从各种项目来查询系统. 我们的目标是有一个足够强大的生物信息学系统 + 超级用户, 而且界面友好而强大的台式生物学家使用.

最初的文件中描述的基本元件: 一个用户界面 3 主要组成部分: 快速搜索这是伟大的浏览; 模板库,让用户访问一些预先定义的标准或可能的查询类型,它们可以调整他们的需要; 和一个完全可定制的查询生成器为最高级访问. 由于本文的发展继续, 而且,还有其它新的很酷的功能,以及目前.

另一个大目标FlyMine努力是能够处理列表. 最常见的问题,我们仍然可以在车间之一: “我有一个列表_____. 什么是最好的方式来处理与?” FlyMine–和一般的InterMines–帮助人们查询和管理他们的探索的东西列表.

该InterMines MyMine功能也是一个不错的组成部分. 您可以创建一个登录名和商店的东西你想重复访问: 查询, 名单, 等.

有使用他们的系统InterMine也和其他人–最近的文件 TargetMine, 为 “发现基因的优先顺序和目标” 可用, 并可能显示为即将到来的小费! 詹妮弗没有给小费的 YeastMine新元 一旦以及.

但我做什么触发这​​个技巧是,从信来 含RGD 邮件列表上周说,这:

有效星期五, 五月 20, 2011 嘉慕BioMart的工具将被淘汰 RGD和MCW蛋白质组学中心. 对于采矿大鼠数据, 我们发现,RatMIne工具更容易使用, 更灵活,并采用多种类型的数据比BioMart. 此外, RatMine包括没有找到分析工具在BioMart, 给用户提供一个单一RatMine, 直观的界面,为获得和分析数据.

因此,他们正在充分InterMine和退役鼠BioMart, 专门使用在其安装RatMine. 因此,这一周的提示将探索InterMine, RatMine, 和其他一些地雷. 这是一个很大的地面覆盖–但它可能是值得你的时间了解InterMine的,因为它成为更广泛. 同样重要的是了解如何查询如果你想带来的数据作进一步的分析,以银河煤矿. 如果你访问银河你会看到他们的 “获取数据” 部分允许您访问矿山工具–但你仍然需要知道如何做在主机站点的第一个基本的查询.

虽然这个提示将触及RatMine, 重点是比较普遍InterMine套房. RGD肽也表示,他们注意到这一点:

如需RatMine概述和如何使用它, 到RGD的视频教程, “是对RatMine数据库简介”, 在 http://rgd.mcw.edu/wg/home/rgd_rat_community_videos/an-introduction-to-the-ratmine-database2. 另外, 按照 “自助导游” 通过点击的RatMine “采取参观” 链接在网页上方的任何RatMine.

要尝试为自己RatMine, 去 http://ratmine.mcw.edu/ 并立即开始使用简化的数据挖掘和分析.

所以,如果你想对使用RatMine更具体的信息, 一定要检查他们的简介.


InterMine: http://intermine.org/

RatMine: http://ratmine.mcw.edu/

modENCODE: http://www.modencode.org/

星系: http://usegalaxy.org/

莱恩, 河, 史密斯, 河, 拉瑟福德, 光, 韦克林, 米, 瓦利, 答:, Guillier, 楼, 詹森斯, 阁下, 这, 瓦特, 麦克拉伦, 体育, 北, 体育, 拉纳, 四, 浊, 吨, 沙利文, j的, 沃特金斯, 十, 伍德布里奇, 米, 利利, 光, 拉塞尔, 学, 阿什伯纳, 米, Mizuguchi, 光, & 米克勒姆, Ğ. (2007). FlyMine: 果蝇和按蚊基因组学综合数据库 基因组生物学, 8 (7) 分类号: 10.1186/的GB - 2007 - 8 - 7 - R129

挖掘 “大的数据” 是…迷人. 和必要的.

当我们车间来了, 我花了一段时间的大数据工具,看看周围已经出现了自上次我谈过变化, 如果需要更新的幻灯片, 有时形成了一个假设,测试它. (聚苯乙烯: 我们在未来贝勒, 如果有人正在寻找一个车间有。) 上周五,我完全失去了自己在查询开始在 UCSC的进行编码 数据, 结束了在 ICGC BioMart. 和WOW. 我想我有一个实验室somedays….

在我们的最后一次研讨会的意见之一是,细胞株的数据编码是不一样的,在组织寻找. 我完全同意,–但是,编码数据的鼠标是要帮助获取,数据的排序. 但是,作为的人花费在过去很多时间培养细胞, 我有兴趣知道如何不同的细胞系是从 “参考” 基因组的补充. 有人类ENCODE项目的特定部分,在这个: 常见的细胞CNV的轨道.

这是我: 表浏览器查询,寻找的类型结构的变化,未来在 3 已检查的细胞线: GM12878, 肝癌, 和K562. 我想知道自己: 如何这些CNVs中与已知基因的重叠? 什么类型的变化有? 这里有一个如何查询我的结构,样本细胞系之一:

此查询产生正常的部分, 扩增, 删除–一些缺失纯合子和一些杂合子. 我在ENCODE车间的要点之一是,如果我使用的是细胞系,我很好奇,知道这些东西–我想会有人做出来有HeLa和其他大细胞株. (也许有人是, 但我不知道有关数据. 如果有人, 给我的叫喊。)

所以,我的工作围绕着这些变化, 我好奇一个特定区域的细胞系之一. 拿出一些比较重要的前瞻性基因的一个地区. 我去了文献中找到,该地区被称为是在一些癌症的问题.

我去ICGC数据,看看如果有什么有趣的是这些基因. 和WOW–whadda遐知道: 有没有一吨的数据在数据尚未确定, 之间的一些数据,但我发现一个显着书信已经在那里真正的肿瘤,我发现在细胞株. 这是有关该结论还为时过早. 在这些大的数据项目很难知道你* *看到, 有多少是已经在那里, 多少不, 等. 但我查了一堆其他基因,并没有显示我看到这种模式的排序.

由于使用政策ICGC, 我不认为我可以谈论我所看到的具体. 但是,它很好奇. 如果我有一个实验室,我会穿上它的学生今早 ;)

我的观点是这样的: 数据是在报纸上不再. 它的数据库中. 你需要挖掘它–这些大数据项目交给你挑轴和指向您的地雷.



1. 掌握了 UCSC的功能编码资料. 检查我们的教程,都是免费的,因为它们是由加州大学圣克鲁兹分校和加州大学圣克鲁兹分校的编码团队的赞助.

2. BioMart: 我们有一个教程 在这, 但它是在我们的套餐包.

你不需要的东西: 目前的文献. 这不是在报纸上, 而且可能永远不会. 该 “大的数据” 东西是在数据库中, 只有少量真的可以以传统的方式出版.