标记档案: 基因组学

生物信息学工具,从一个典型的哺乳动物的基因组项目中提取 [补充]

这表 1 伴随完整的博客文章: 生物信息学工具,从一个典型的哺乳动物的基因组项目中提取. 看主职的细节和解释. 该表是太长,以保持在后, 但我想这是网络搜索. 副本也驻留在FigShare: http://dx.doi.org/10.6084/m9.figshare.1194867

继续阅读

提示的周: 双子座, 探索遗传变异

你管:

这一周的秘诀是星期几的缩写双子座 “基因组挖掘。” 不像大多数的提示,我们给每个星期, 这个人是一个软件包. 但, 它不使用如dbSNP数据库整合许多互联网数据库, 进行编码, UCSC的, ClinVar及KEGG. 这也是一个自由, 开源的工具,一个非常有用的软件套件,使研究人员能够创建相当复杂的查询,基于基因型, 继承模式, 等. 以上 12 分钟的剪辑是在一次会议上的演讲,给出了一个引进背后的科学工具.

从抽象 从开发商最近的一篇文章 给出了一个很好的介绍,有关该工具的功能:

现代DNA测序技术使遗传学家迅速查明在许多人类基因组遗传变异. 不过, 隔离少数变种相关疾病仍然是一个重要, 医学遗传学艰巨的挑战. 我们已经开发了GEMINI (基因组采), 探索各种形式的人类遗传变异的一个灵活的软件套件. 不同于现有的工具, 双子座集成一个多样化的和适应性强的遗传变异的基因组注释 (克, dbSNP, 进行编码, UCSC的, ClinVar, KEGG的) 成一个统一的数据库中,以方便解释和数据勘探. 而其他方法提供了一个灵活的集的变种过滤器或优先级方法, 双子座允许研究人员组成复杂的查询,基于样本的基因型, 继承模式, 都预装和定制的基因组注释. 双子座也提供即席查询和数据探索方法, 简单的编程接口自定义分析,利用底层数据库, 和命令行和图形工具,共同分析. 我们证明了双子座的实用程序,用于探索个人基因组的变化和家庭为基础的遗传研究, 并说明其能力扩展到涉及数以千计的人类样本的研究. 双子座是重复性和灵活性而设计的,我们的目标是为研究人员提供一个标准框架,医学基因组学.

如果您想了解更多, 有一些漂亮 良好的文档这里软件包.

虽然我在这, 风马牛不相及,除了它的人类基因组学, 这是 '当前SlideShare演示’ 个人基因组的状态. 当前slideshare引号,因为实际上是从 3 年前, 但好的资料,那里有很多. 任何人都知道一个最新的幻灯片组或广泛的前奏类似这样的个人基因组科学的当前状态?

 

相应和链接:

双子座软件包
dbSNP
进行编码
UCSC基因组浏览器
ClinVar
KEGG的

(下面这些工具教程的链接上面的粗体字)

相关参考:

哌拉ü, 查普曼BA, 基什内尔ŗ的, & 昆兰AR (2013). GEMINI: 遗传变异和基因组注释的中西医结合的探索. PLoS计算生物学, 9 (7) PMID: 23874191

一周的视频提示: NCBI的基因资源的大变化


NCBI的 创建于 1988 并一直保持着 GenBank中 多年的数据库. 他们还提供了多种类型的生物数据的计算资源和数据检索系统. 因此,他们都非常清楚的速度有多快,生物学家收集的数据已经改变,扩大. 由于各种数据类型的使用已开发, 它已成为明显的,新的信息类型 (如扩展元数据) 需要收集, 和数据处理的新方法.

NCBI的已经适应这种需要多年来,最近一直在调整它的基因组资源. 今天的提示将基于一些变化. 我的影片将重点放在 “完全重新设计的基因组网站”, 这是最近推出了在宣布 最近NCBI的通讯. 我还没有找到一个出版物描述的变化, 但进入一些细节和通讯 在基因组的现场顶部发现公布 (& 我想指出,在视频) 有关的变化非常有帮助的细节.

正如你将看到在公布, 的 基因资源 最近发生了变化不是唯一的相关资源, 包括基因组计划的资源的重新设计 BioProject 资源和创造 BioSample 资源. 我不会有时间细讲有关这两种资源,但在我后结束,我将链接到最近的两个NCBI的出版物,本月排在核酸研究 – 这些都是很好的资源,读上BioProject的更多信息, BioSample, NCBI的整个. 对于历史的角度看,我也链接到原来的基因组参考, 这是生物信息学和目前免费访问.

一些变化是非常有趣, 包括 “单基因组记录现在是一个有机体,不是一个基因组隔离。” NCBI的通讯状态 “主要改进包括更自然的组织为原核有机体的水平, 真核, 和病毒的基因组. 报告包括有关小学的核或原核基因组的可用性以及细胞器和质粒. ” 还有一张纸条, “由于自然分类系统的重组, 旧的基因组标识符不再有效. 这些基因组标识符通常不暴露在以前的系统,主要用于以编程方式访问. ” 这使我不知道什么样的变化,这将授权其他NCBI的资源, 以及外部资源. 我没有看到任何公告,尚未, 所以我就留下来调整 & 检查周围往往.

享受尖端 & 让我们, 或NCBI的, 知道你觉得他们的变化! :)

快速连结:

NCBI的主页: http://www.ncbi.nlm.nih.gov/

Entrez的基因资源首页: http://www.ncbi.nlm.nih.gov/genome

BioProject资源首页: http://www.ncbi.nlm.nih.gov/bioproject/

参考文献:

历史悠久的Entrez的基因组参考: Tatusova, 吨, 蝎,Mizrachi, 一, & Ostell, Ĵ. (1999). 在WWW Entrez的完整基因组: 数据的代表性和分析 生物信息学, 15 (7), 536-543 分类号: 10.1093/bioinformatics/15.7.536

巴雷特, 吨, 克拉克, 光, Gevorgyan, 河, Gorelenkov, V, Gribov, 大肠杆菌, 蝎,Mizrachi, 一, Kimelman, 米, 普鲁特, 光, Resenchu​​k, 学, Tatusova, 吨, Yaschenko, 大肠杆菌, & Ostell, Ĵ. (2011). BioProject和BioSample在NCBI数据库: 促进捕获和组织的元数据 核酸研究 分类号: 10.1093/nar/gkr1163

塞耶斯, 大肠杆菌, 巴雷特, 吨, 森, 四, 博尔顿, 大肠杆菌, 科比, 学, Canese, 光, Chetvernin, V, 教会, 四, DiCuccio, 米, Federhen, 学, Feolo, 米, Fingerman, 一, 格尔, 属, Helmberg, 瓦特, 卡普斯京, 华, 克拉斯诺夫, 学, 康特里曼, 四, 李普曼, 四, 阅读, z的, 马学恩, 吨, 马德伊, 吨, Maglott, 四, Marchler - 鲍尔, 答:, 磨坊主, V, 蝎,Mizrachi, 一, Ostell, j的, Panchenko, 答:, 潘, 属, 普鲁特, 光, 舒勒, 克, Sequeira, 大肠杆菌, 雪利酒, 学, 沙姆韦, 米, Sirotkin, 光, Slotta, 四, Souvorov, 答:, Starchenko, 克, Tatusova, 吨, 瓦格纳, 属, 王, 华, 威尔伯, 瓦特, Yaschenko, 大肠杆菌, & 叶, Ĵ. (2011). 国家生物技术信息中心的数据库资源 核酸研究 分类号: 10.1093/nar/gkr1184

提示的周: 抢 (比较基因组) 重新

我做了 CoGe的工具提示, Gevo公司 大约两年前,我们曾经经历过 从Eric里昂访客发表关于CoGe, 导致开发商 短短一年多前. 在我们正在进行的和偶尔的任务,以保持新鲜的秘诀 (并将其移动到 SciVee), 我决定重新CoGe和他们的工具之一. CoGe已经改变了一点,因为我们上次访问 (看到一些 变化在这里). 有一个新的接口, 更多的文档和更多的教程, 一些新的工具和互连和有更多的基因组. 我要给简要介绍SynMap的,并打算用它做一个基因组重排分析 (一个主题 文字教程 在现场).ResearchBlogging.org

在这个例子中选择的算法是配额对齐,这是最近的一篇论文的题目, “筛选通过在成对的基因组comparisions的同线性整数规划块” BMC生物信息学. 由于纸的结论国家:

配额对齐算法屏幕的共线性块设置为与指定的用户,只保留那些兼容的两个基因组之间的关系套数. 这些块, 反过来又, 可用于种间比较,找出真正的同源地区,如额外的下游分析.

并如上所述, 你会看到在这个技巧, “配额ALIGN程序也被整合为主要成分的SynMap http://genomevolution.com/CoGe/SynMap.pl webcite, 对于非程序员提供更容易获得数以千计的基因组.
唐, 阁下, 里昂, 大肠杆菌, 佩德森, 二, 施纳博教授, j的, 百德新, 答:, & Freeling, M. (2011). 筛选通过在成对的基因组比较的共线性块整数规划 BMC的生物信息学, 12 (1) 分类号: 10.1186/1471-2105-12-102

有一个适用于所有数据库, 甚至尤伯杯-操纵子

我玩弄 Google学术搜索的新的引文功能 让我收集在一个地方,我的论文容易 (工作非常出色, 增值税, 节省了一些小问题, 见下文) 当我注意到它错过了我的一个文件 2000: “比操纵子基因高阶的背景下保护.” 抽象:

操纵子, 共同的基因转录和共同调节的连续套, 过短时间的进化时间差保守. 基因序列, 基因的操纵子的内容和监管机制,可以有很大的不同, 即使在密切相关的物种. 这里, 我们目前的证据的几行,这表明,, 虽然操纵子和其个别的基因和监管结构比较不同物种的基因组时,重新排列, 这种重排是一个保守的过程. 基因重排总是保持在非常特殊的功能和监管环境的单个基因. 我们称这种保守的背景下一个超级的操纵子.

尤伯杯的操纵子. 这是我有价证券的建议长期. 当时在德国的生活和工作, 我认为这是一种滑稽的. 无论如何, 我从来没有真正扩大超过另一个失去了跟踪,研究和种类的纸张或该文件是否在多. 我输入了“超级操纵’ 今天在谷歌发现,它的被引用几次 (88) 和, 我发现这个有趣的: 已建成了几个数据库 “尤伯杯操纵子。”

一个中国研究组创建 尤伯杯操纵子数据库. 纸看起来很有趣, 但不幸的是,服务器已关闭 (这是否是临时或永久, 我不知道), 的 ODB (操纵子数据库) 使用超级-操纵子 (他们称之为参考操纵子) 在数据库中预测的操纵子 , Nebulon 是另一种, 雨果 是另一种. 阅读 çhapter上的计算方法 为预测尤伯杯操纵子 :)

只是去告诉你, 有一个适用于所有数据库.

哦, 回到谷歌学者引用. 它没有发现几乎每一个我发表的论文, 虽然错过了两个 (包括上面) 有两个误报. 此外, 许多引文失踪 (像 88 本文, 从其他文件和许多其他). 这并不是说这是没有用处的, 我觉得一个很好的工具,但它并不是完美的. 您可以fIND出更多关于Google学者引用, 约 微软类似的功能.

哦, 这篇文章在我 HumbleBrag厅名人堂? 如果是这样的保留的Twitter, 也许我应该叽叽喳喳,这样我就可以得到有 :). (虽然我不知道他指出相对较小的数据库为基础的一个相对较小的纸张构成吹牛, 虚心或不LOL).

提示的周: SNPTips和查看个人基因组数据

今天的周端上 SNPTips. 我们有一个 客户后 在这一早期. 我们通常的数据库和分析工具的提示, 但在把我们的23andme数据, 我们一直在使用SNPTips经常认为它可能使用的是一些我们的读者. SNPTips是由 5我解 23andme* 客户可以轻松地查看他们的基因组数据,同时浏览网页. 针尖会迅速告诉你如何安装浏览器扩展和它做什么. 在年底的小费, 我简要地显示了 自定义批注轨道 我创造了我的23andme数据使用 UCSC基因组浏览器s ** 个人基因组SNP的格式. 23andMe公司的数据格式是不完美的 (不允许rsID场, 有数据与23andme很少使用领域, 等), 但它确实有助于大大如果您想浏览的基因组浏览器中的数据. 你基本上采取23andme数据看起来像这样:

并重新排列列, 增加一些,使它看起来像这样:

你可以在电子表格程序中,这像我一样, 这有点劳动密集型. 如果我决定为我的女儿和丈夫的基因组数据,它 (这是一个明显的可能性), 我想创建一个Perl脚本来更改格式 (或者有一些东西已经在那里?).

它基本上需要:
*消除RSID列
*重新排列列的正确顺序
*加入 “染色体” 在染色体数目
*增加4列, 1 随着等位基因数, 2 with 0′与 (高频数据的数据没有23andme)
*改变来自XX基因型为X和XY到的x / y.

也请记住,该23andme位置数据从身材 36 (2006, HG18) 数据显示,在23andme的基因型是面向方面的积极链大会上的参考.

这不是最完美的解决方案, 但它的工程,并很好地与SNPTips. 这是非常令人上瘾的我 :). 我相信有更多的优雅可以做的.

*OpenHelix和它的员工有没有商业联系与5amsolutions或23andme或财务利益.
**UCSC的赞助商,通过为subgrantee教程和OpenHelix推广.

星期五SNPets

欢迎来到我们的链接集合星期五功能: SNPpets. 一周之内,我们遇到了很多链接和读取,我们认为很有趣, 但不要到一个博客帖子. 在这里,他们是您的享受…

提示的周: 银河页

这一周的尖端是一个简短的的介绍银河页. 这些特殊的网页内,用户可以创建 星系 系统注释, 各种分析和解释说明使用完银河. 用户有很多的能力来连结和嵌入历史, 工作流程和数据集以及使用文本,图像和更充分诠释分析. 诚如上周, 这是许多补充银河添加到基因组学研究的重现性和透明度增加.

星系, 一对重复性计算研究步伐

ResearchBlogging.org

银河一开始是非常有用的工具,这是基因组学研究做重复性和可共享. 在阅读研究论文,利用基因组学基因组分析或网上资源我的眼中钉之一是材料和方法部分. 通常的方法和参数是只提到在一个非常粗略地, 如果在所有. 我将无法再现的研究. 这, 随着能够轻松地做分析和共享, 是银河的根本目的之一是发达国家和它做了相当不错的工作 (我有点偏颇*).

银河开发商最近发表的一篇文章: “星系: 进入一个全面的方法支持, 重复性和透明的计算研究生命科学” 在 基因组生物学.

一对夫妇已经有问题或我都觉得银河需要更好地履行重复性和透明的目标函数计算研究. 的事情,我们已经要求在车间,银河已经多久的历史’ 和工作流的’ 坚持. 银河开发商坚持这将持续下去 (作为一个在线的世界无限可能). 本文, 开发商的回答似乎有什么错我一个很好的问题, 广泛持久的方法:

我们所追求的三大战略,以确保任何银河的分析和相关联的对象,可方便地访问和坚持. 第一, 我们正在发展出口和进口的支持,使银河分析,可存储为文件,并在不同的Galaxy服务器转移. 二, 我们正在建设一个社区空间,用户可以上传和共享银河对象. 三, 我们计划让银河页和与出版物相关的分析直接出口到长期, 搜索的数据存档等德赖厄德.

另一个特点是, 虽然我知道这是未来, 它的好,看在出版形式和它的测试站点, 的工具和用户社区. 这是在上面提到的报价, 但它不止于此. 这是一个扩展的能力,分享历史和工作流程:

为了帮助用户做出更好,更快的选择内银河, 我们正在扩大银河的共享模式,以帮助用户银河社区找到并突出显示有用的物品. 理想情况下, 社会将确定的历史, 工作流程, 并表示其他项目的最佳实践; 最佳实践的项目,可以用来帮助自己的分析,引导用户.

测试版网站给你一个什么的,在未来看 “银河工具棚,” 一个地方上传, 下载和共享工具导入到银河装置. 希望这最终也将包括能率和讨论工具. 另一个方面,我会期待的是能够共享工作流程,以一个开放的和更广泛的社区. 现在有出色的能力与其他用户分享你的同事在网络的历史和工作流程, 但我希望看到一个开放的社会共享和工作流率. 从上面的评论, 似乎是未来. 这将是一个非常受欢迎.

最后一个功能添加我想提的是网页:

银河页 (图 4) 是为交流访问的主要手段, 重现, 透明的计算研究通过银河. 页定制的基于Web的文件,使用户能够沟通整个计算实验, 和页面是朝着在网上发表或出版的补充下一代一步. 页面, 如出版物或补充, 包括文字和图形的组合描述实验的analyses.In除了标准的内容, 页还包括嵌入式银河项目从实验: 数据集, 历史, 和工作流程. 这些嵌入式产品提供了更多一层的互动, 提供额外的细节和环节,以及使用项目.

我尝试了页面 (点击 “用户” 在页面右上角, 然后点击 “网页” 访问网页). 我喜欢写的能力,基本上是一个什么方法和计算生物学材料. 你可以描述你做了什么, 嵌入历史, 数据集之类的. 不幸的, 在写这篇文章的时候我能够建立一个页面, 但无法观看 (服务器错误, 我用最新版本的Mac Safari和Firefox 10.5). 我相信,这是一个临时故障.

银河使得在过去几年的巨大进步,并期待将成为一个计算分析去,为实验生物学家工具. 本着这一精神, 你可能想看看他们的 入门教程 截屏 结识与工具!

*免责声明: 与OpenHelix银河集体合同,以提供一个星系的入门教程 (自由和开放给所有用户).

Goecks, j的, Nekrutenko, 答:, 泰勒, j的, & 银河队, T. (2010). 星系: 进入一个全面的方法支持, 重现, 和透明的计算研究生命科学 基因组生物学, 11 (8) 分类号: 10.1186/GB - 2010 - 11 - 8 - R86

星系 http://www.galaxyproject.org

提示的周: 小鼠基因组病理学

确定, 所以这不是我们常用的技巧,作为同. 但最近我在一个项目所涉及的动物模型,导致我这个病理基因资源. 越深,我迷上了这个项目的动物模型, 更清楚它成为一个巨大的基因组数据量是未来的将是伟大的–但它需要与适当的病理组织学和成对的基因组生物学较完整的理解.

所有这些模式生物工程–基因敲除小鼠大鼠, 突变小鼠 例如癌症的研究, 自交系 具体特点和基因组,如跨区域协作, 治疗的动物–需要优质病理学评估. 有表型类似项目 Europhenome 正在做的动物大集, 他们不仅需要规范的描述和本体, 但也形象的样品和评估. 在一个时代,我们都在寻找这个软件在基因和基因组区域扫描周围, 我们必须有病理数据,以及. 而这些数据还需要研究人员在相应的数据库和存储资源的标准化,以发现和研究. 我最近听说博士. 罗伯特加的夫谈他对鼠标病理学的工作是多么重要,在标准化和可检索的方式来捕捉信息. 他的这个项目的动力之一, 在这个舞台上,充分理解的需求.

应培训更多的人在病理学研究这些动物. 因此,在这个项目中,我留下了深刻的印象,了解一个在线学习项目,可以帮助的人谁​​需要了解的动物研究的基础和重要病理方面的介绍. 该项目已获得了一个奖杰出远程学习 (五月 25). 因此,作为一个公共服务在基因组学,我点你这个加州大学戴维斯分校项目.

你可以在一看,从这个背景和目标 基因病理中心 网站. 从那里,你可以单击导航 都柏林大学信息会话 得到了他们的课程品味, 或点击我上图中. 这是一个不错的努力.

我们已与加州大学戴维斯分校的这个网上学习项目没有关系–我们只是认为这是一个有价值的基因组学的重要组成部分,并希望谈论它.