标记档案: ensembl


一周的视频提示: UniProt updates, now including portable BED files

UniProt is one of the core resources that provides tremendously important curated information about proteins. You will find links to UniProt in lots of other tools and databases as well, but we’ve always championed going directly there for the full look at all the wide range of information they offer. Their foundation remains solid, but they also continue to add new and useful features over time. Recently they had a webinar to describe some of the new things, and the recording of that webinar will be this week’s Video Tip fo the Week.

The video starts with an overview of the whole UniProt site. The core of their great resource is the same, 当然. UniProtKB, UniRef, and UniParc are there for various ways to look across the data. The handy Proteomes collection of the proteins in a given species is available, and they also have reference proteomes from that access point. There’s a short section in the video that’s a guide to the basic search functions.

关于 9 minutes in they introduce the UniRule annotation features. When certain conditions are met, an annotation gets applied to a protein–which you can trace from the protein pages by clicking on the UniRule link for that annotation. unirule_sampleAnd their software offers a very cool way to look and see how/when conditions are applied. It will load a decision flow path and highlights what the logic rules were used in that particular case, so you can trace it and understand how a protein got a given item. That’s what I illustrate in the screen shot here.

关于 14 我的, the topic changed to the new Genome Annotation Tracks. They now offer you a way to take their annotations for a UniProtKB entry and use them with a separate genome browser. They hand you BED or BigBed files for different features. You can also load the whole thing as a Hub file to see all the sequence feature data at once. They are species-specific, and started with human, but others are coming. You can access them from the “下载” area of the homepage. The video also described a bit about the structure there as well. So you could take these files to ENSEMBLUCSC基因组浏览器 and load them, with all the UniProt features now to compare to the existing genomic context at those browsers. They illustrate how you can look at the “active site” 注释, but you can also look at post-translation modification sites, 域, 等. This was a feature that was new to me, and looks like a terrific idea.

So even if you think you know UniProt, check out these new options for additional ways to interact with the high-quality information they provide. 好东西.


UniProt: http://www.uniprot.org/


UniProt联盟 (2014). UniProt: a hub for protein information 核酸研究, 43 (D1) 分类号: 10.1093/nar/gku989



This week’s SNPpets include transcription factor binding site evolution–with their secret partners transposable elements; PrecisionFDA coming along; bad habits of bioinformaticians; new synthetic biology tools and rock star status; consumer reluctance to share their health data; Russian genomes on the way. 而更多的, including the XKCD on DNA in case you missed it.

SNPpets_2欢迎来到我们的链接集合星期五功能: SNPpets. 一周之内,我们遇到了很多链接和读取,我们认为很有趣, 但不要到一个博客帖子. 在这里,他们是您的享受…

一周的视频提示: TargetMine, Data Warehouse for Drug Discovery

Browsing around genomic regions, layering on lots of associated data, and beginning to explore new data types I might come across are things that really fire up my brain. 对我来说, visualization is key to forming new ideas about the relationships between genomic features and patterns of data. But frequently I want to take this to the next step–asking where else these patterns appear, how many other instances of this situation are there in a data set, and maybe adding additional complexity to the problem and refine the quest. This is not always easy to do with primarily visual software tools. This is when I turn to tools like the UCSC的表浏览器, BioMart, 和 InterMine to handle some list of genes, or regions, or features.

We’ve touched on all of these before–sometimes with full tutorial suites (UCSC的, BioMart), and sometimes as a 提示的周, InterMineInterMine对于复杂的查询. Learning about the foundations of these tools will let you use various versions or flavors of them at other sites. I love to see tools that are re-used for different topics when that’s possible, rather than building a whole new system. There are ModENCODE, 大鼠, yeast mines, 多. This week’s tip is about one of those others–TargetMine is built on the InterMine foundation, with a specific focus on prioritizing candidate genes for pharmaceutical interventions. 从 their site overview, I’ll add this description they use: TargetMine

TargetMine is an integrated data warehouse system which has been primarily developed for the purpose of target prioritisation and early stage drug discovery.

For more details about their framework and philosophy, you should see their papers (下面链接). The earlier one sets out the rationale, the data types, and the data sources they are incorporating. They also establish their place in the ecosystem of other databases in this arena, which helps you to understand their role. But you should see the next paper for a really good grasp of how their candidate prioritization work with the “Integrated Pathway Clusters” concept they’ve added. They combined data from KEGG的, Reactome, 和 NCI’s PID collections to enhance the features of their data warehouse system.

This week’s Video Tip of the Week highlights one of the tutorial movies that the TargetMine team provides. There’s no spoken audio with it, but the captions that help you to understand what’s going on are in English. I followed along on a browser with their example–they have a sample list to simply click on, and you can see various enrichments of the sets–途径, 基因本体论, Disease Ontology, InterPro, CATH, and compounds. They call these the “biological themes” and I find them really useful. You can create new lists from these theme collections. They also illustrate the “template” option–pre-defined queries with typical features people may wish to search. The example shows how to go from the list of genes you had to pathways–but there are other templates as well.

Another section of the video has an example of a custom query with the Query Builder. They ask for structural information for proteins targeted by acetaminophen. It’s a nice example of how to go from a compound to protein structure–a question I’ve seen come up before in discussion threads.

In their more recent paper (also below), they have some case studies that illustrate the concepts of prioritizing targets for different disease situations with their system. They also expand on the functions with additional software to explore the pathways: http://targetmine.mizuguchilab.org/pathclust/ .

So have a look at the features of TargetMine for prioritization of candidate genes. I think the numerous “themes” are a really useful way to assess lists of genes (or whatever you are starting with).


TargetMine: http://targetmine.mizuguchilab.org/ [注意:: their domain name has changed since the publications, this is the one that will persist.]

InterMine: http://intermine.github.io/intermine.org/


陈, 华, 特里帕蒂, 属, & Mizuguchi, ç. (2011). TargetMine, an Integrated Data Warehouse for Candidate Gene Prioritisation and Target Discovery 科学公共图书馆一, 6 (3) 分类号: 10.1371/journal.pone.0017844

陈, 华, 特里帕蒂, 属, Dessailly, 二, Nyström-Persson, j的, 艾哈迈德, 学, & Mizuguchi, ç. (2014). Integrated Pathway Clusters with Coherent Biological Themes for Target Prioritisation 科学公共图书馆一, 9 (6) 分类号: 10.1371/journal.pone.0099030

Kalderimis A., ř. 莱恩, ð. Butano, S. Contrino, M. 莱恩, Ĵ. Heimbach, F. 胡锦涛, ř. 史密斯, ř. Stěpán, Ĵ. 沙利文 & Ğ. 米克勒姆 & (2014). InterMine: extensive web services for modern biology, 核酸研究, 42 (W1) W468-W472. 分类号: http://dx.doi.org/10.1093/nar/gku301

生物信息学工具,从一个典型的哺乳动物的基因组项目中提取 [补充]

这表 1 伴随完整的博客文章: 生物信息学工具,从一个典型的哺乳动物的基因组项目中提取. 看主职的细节和解释. 该表是太长,以保持在后, 但我想这是网络搜索. 副本也驻留在FigShare: http://dx.doi.org/10.6084/m9.figshare.1194867



在这个扩展的博客文章, 我描述了我的努力,从最近的基因组测序纸提取有关生物信息学相关的项目信息, 而更大的问题,这引起了现场. 它的长, 这是一个博客文章和论文格式之间的东西的混合体, 只是为了给它一些结构,为我自己的组织. 这方面的一个副本也将被张贴在FigShare与完整的数据集. 非常非常感谢长臂猿基因组项目团队一个了不起的纸张和他们的流程和资源广泛,收集记录. 我想强调的问题是关于获得生物信息学工具一般都没有具体到这个项目在所有, 但有关领域.


在生物信息学领域, 有很多的讨论,有关数据和代码的可用性, 而在以前的工作或重复性使用的资源进行研究复制描述. 为了探讨这个问题的范围, 我用的是最近出版的证据充分的长臂猿基因组序列项目的启动点,以评估工具, 库, 数据源, 已被使用在当前工程等生物信息学相关的项目. 命名的生物信息学项目的详细情况,从公布中提取, 以及有关工具的位置和信息,然后探讨.

从项目的生物信息学的项目只有一小部分被记在纸上的主体 (〜16%). 他们中的大多数被发现在补充材料. 正如我们在过去已经指出, 无论是数据还是必要的工具,发表在传统的纸质结构更多. 在过 100 生物信息学项目中的工作描述, 可用性和易用性差别很大. 有些驻留在教师或学生网站, 一些项目网站, 一些代码库. 有些发表在传统文学, 有的学生论文出版物, 一些没有发表过,只有一个网站或软件文档说明书用来提供所需的详细信息. 这意味着,有关如何使用这些工具的信息很不平衡, 和支持往往是不存在的. 访问不同的软件版本带来了一个额外的挑战, 无论是对开源工具和商业产品.

新的出版和存储策略, 新的技术工具, 和广泛的社会知名度和支持都开始改变这些事情变得更好, 并有一定的帮助前进. 策略一贯参照工具, 版本, 而关于他们的信息将是非常有益的. 生物信息学社区还可能要考虑是否需要管理一些历史的, 基础件,这对这个领域很重要, 其中一些可能需要从它们的当前状态,以便营救保持提供给社会在未来.


来自大自然的网站, 我公司取得了最近发表的论文的复印件: 长臂猿基因组和小猩猩快速核型进化 (Carbone等, 2014). 从纸张的文本和补充, 我手动提取所有引用指定的数据库工具, 数据源的站点, 文件类型, 节目, 公用事业, 或其他计算的移动部件,我可以辨认. 有可能被一些错过了这个过程, 例如, 名字我不认识或不与现有的一些工具连接 (或从工具的一些图像生成, 或许). 有人提到了“内部Perl脚本”或其他的“自定义”的情况并不普遍纳入,除非他们已提供. 件视为被在其他一些参考做“以类似于已经描述的方式”是本, 我没有去上游的论文之前提取这些细节. 与实验室设备软件相关, 如音序器 (位于各院校) 或PCR机器不包括. 所以这可能表示在使用该软件产品的一个下位计. 我也联系了该研究小组的一些额外的东西, 并迅速得到了帮助和指导. 采用典型的互联网搜索引擎或内部搜索在发布或资源网站, 我试图以匹配项目的软件项目的来源或引用.

我把桶中包含的项目或对象的具体名称,这将是可能是必要的和/或不熟悉的学生或研究人员的生物信息学社区外. 有些是相关, 但不同的. 例如, 你需要了解什么“基因本体论“是作为一个整体, 但你也需要知道什么“GOslim“是, 概念差异,在我指定的系统在这里一个单独的对象. 一些是其它工具的子组件, 但很重要的方面来理解 (GOTERM_BP_FAT在 国宝 或randomBed BEDTools) 并在报告中个别项目命名, 因为这些可能是模糊的非从业. 其他生物信息学专业人员可能与他们的任务到此集合不同意. 我们可以讨论关于他们的名单将来的迭代讨论去除这些或纳入.


建立引用的主列表,以生物信息学的对象或项目后, 这份名单是检查和扑杀的重复或难以追查方面. “家中的Perl脚本”引用或其他“自定义”脚本通常被淘汰, 除非特别提到一个代码库中提供了. 这导致了 133 其余项目.

他们如何引用? 其中,在工作?
无论是 主要出版物 (14 PDF页面) 和 第一补充资料文件 (133 PDF页面) 该项目提供了生物信息学对象的名称中使用. 所有的主纸所引用的项目进行的补充也引用. 命名的对象的主纸的数目为 21 的 133 列出的组件 (〜16%). 这与其他相似类型的财团或“大数据”的论文中,我之前已经探讨了一致: 大部分有关软件工具的必要信息, 数据源, 方法, 参数, 和功能已在广泛的补充材料.

的数据项都以不同的方式引用. 有时,他们的命名正文体, 或方法. 有时,他们被列为注意事项. 有时候工具在图的传说只提, 或仅在参考. 在这种情况下, 一些细节被发现的“作者信息”一节中.


如上面所指出, 大多数被发现在补充信息. 并且在本实施例, 这可能是在文字或在表. 这是很典型的,这些大项目的论文, 在我们的经验. 任何试图文字矿出版物为此类信息应了解该品种对这些信息的位置.

描述生物信息学工具, 资源, 数据库, 文件, 等, 向来充满挑战. 这是类似于“试剂”,我会放在我的钳工生物学论文年前. 他们可能重要的成果, 诸如酶的供应商, 小鼠品系版本, 或抗体物种信息. 它们构成的东西,你需要复制或延长工作, 或者适当地了解情况. 但在生物信息学的情况下,, 这可能意味着文件格式如 FASTQAXT 从格式 UCSC基因组浏览器. 他们可以说像资源库资源 SRA. 他们可以从各种不同的版本下载的数据集 ENSEMBL (版本 67, 69, 70, 或 73 这里, 但它是只计算一次的ENSEMBL). 这可能是参考 Reactome 在表.

考虑到这一宽泛的定义, 表 1 提供名为生物信息学的对象列表,从这个项目中提取. 姓名或昵称或代号, 站点在它可以被发现 (如果可用), 和出版物或部分引用包括在可能的情况. 最后, 一列指定是否发现在主文件,以及.

什么是不显示的,有些是在引用不同的背景和用法多次, 有可能会导致人们不知道如何这些经常使用. 例如, 具有讽刺意味的, RepeatMasker 引用了这么多次,我开始停止标记它在一个点.

表 1. 软件工具, 对象, 格式, 文件, 从一个典型的哺乳动物的基因组测序项目中提取资源. 见网页版补充本博客文章: http://blog.openhelix.eu/?p=20002, 或FigShare访问: http://dx.doi.org/10.6084/m9.figshare.1194867

生物信息学工具,从一个典型的哺乳动物的基因组项目中提取 [补充] – 多见于: 銈://blog.openhelix.eu /?P = 20002&预览= TRUE#sthash.pcNdYhOZ.dpuf
生物信息学工具,从一个典型的哺乳动物的基因组项目中提取 [补充] – 多见于: 銈://blog.openhelix.eu /?P = 20002&预览= TRUE#sthash.pcNdYhOZ.dpuf


搜索有关源代码的信息, 数据集, 文件类型, 库, 而有关项目相关的描述性信息产生的各种接入. 有些对象是与传统的科学出版物相关联的,并有有效的和当前的链接,软件或数据 (但也有时会错误地引用). 这些可在某些出版物paywalled, 或不可用的会议文件中描述. 一些不具备相关出版物的全部, 或者被描述为提交或在制备. 有些工具仍然未发表的文献, 他们已经进入了广泛应用后长, 和他们的文档或手册,而不是引用. 有些驻留在教师研究网页, 有的学生论文. 有些工具被发现在具体项目的网页. 有些存在于代码库,有时弃用那些可能会消失. 其中一些来自他们最初的出版物移动, 没有转发地址. 有些典故程序等刊物. 其中有些是像时间旅行又回到上世纪90年代, 与出现的页面是原来的时间. 有些人可能会在接下来的时间完全消失的更新,在一所大学网站的风险改变站点的访问.

其他工具包括商业软件包,可能有不为人知的细节, 版本, 或有问题的可持续性和未来的访问.

当被提供的数据处理或软件实现的细节, 的量可以变化. 有时参数包括, 别人不.

该项目的成果之一是我最喜欢的数据表示为 图 2 在主纸, 有组织的系统发育树结构的品种比较牛津格. 这非常有效地输送在一个小区域的信息的大量的. 我希望这个地方是一个现有的工具, 但在写团队,我发现这是一个R脚本的作者之一, 随后有树排列在图形程序“插画”另一个合作者. 我真的很喜欢这个, 虽然, 并希望它更广泛地可用.

最好玩的引用我碰到的是 为PHYLIP页, 和常见问题解答和信贷均显着. 尽管没有传统的出版物提供给我, 一个漫长的“信用”页面提供了关于该项目的一些有趣的见解. 该 “没有得益于” 部分实际上是一个迷人的外观,在获得资金支持的软件开发和维护的磨难. 关于“外展”的一部分 特别有趣的我们:

“难道这一切”外展“的东西的意思是我必须花时间来给工作坊迷惑烹饪艺术学生? 这些赠款是先进的开发方法, 和简报“的公开或非大学教育的”关于这些方法似乎是在浪费时间 — 虽然我做花一些精力,争取创造论和智慧设计论的倡导者, 但我不提出这些方法这样做。“

即使是“外展”,并支持利用这些工具的想法肯定是不清楚的工具提供商, 显然. 培训? 是啊, 没有任何正式的方式.


长臂猿基因组测序项目在这一领域提供了一个典型的项目的一个重要证据充分的例子. 根据我的经验, 这是一个更详细的收集和介绍比我探讨了很多其他项目, 并提供了一​​些工具,是新的,有趣的我. 显然是一个巨大的数量和生物信息学的项目范围, 工具, 库, 和所需的基因组测序项目的范围概念. 追踪他们的起源, 虽然, 是不平衡的,具有挑战性的, 这是不是唯一的这个项目,这是该领域的一个问题. 目前获得生物信息学的对象也参差不齐, 和未来的访问可能会更加的障碍,作为老项目可能会消失或变得无法使用. 该项目提供了发挥的状态的有趣快照, 和认识的范围,很好的概述, 技能, 资源, 和知识的研究人员, 支持人员, 或学生需要完成类似规模的项目.

little_mac它使用的是简单的. 我们习惯用少量的工具对VAX, 上坡, 在雪地里, 左右逢源, 当然. 当我还是个研究生, 有一天在实验室在90年代初的背, 我的同事三分球和我在我们刚刚听说,在万维网的东西闲逛. 我们有那些有点滑稽的Mac电脑与极小的屏幕之一, 我们发现,人们在决策texty网页与平庸的字体和颜色失真, 而谈到自己的研究.

虽然我们俩都采用了多种已安装的程序或命令行的顺序读取和比对了, 操作, 质粒图谱, 文献检索和存储, 图像处理, 系统发育, 等等,我们知道这个网站的东西是要打破的话题敞开.

没多久, 我花越来越多的时间在实验室的里屋, 从这个NCBI的地方拉出序列 (看到了90年代中期,这里的接口), 并寻找新的剪接变异体. 我发现他们. 只需键入,不按我要求的放射性和凝胶! 如何的酷是? 我们依靠佩德罗的名单找到更多有用的工具 (佩德罗的分子生物学搜索和分析工具的存档.).

我们两人随后去了成博士后和作业都大举进军生物软件和/或数据库开发. 我们已经有一个前排座位,以在此期间的变化, 并且它已经非常了不起观看. 而且它已经对我们很有用处,我们开发我们的利益成为一个公司,帮助人们更有效地使用这些工具, 它已真正有价值.

在OpenHelix, 我们一直在努力什么样的工具的人使用,以保持关注. 我们透过长期拖网, 长, 从“大数据”各种各样的项目,长期补充材料, 使用刺网来提取软件工具正在使用的社区. 什么数据库和网站都人靠? 什么是基础性的东西每个人都需要? 什么是前沿的东西保持了望? 哪些文件格式或条款会的人需要有一个资源连接?

但是当我开始做, 我以为: 也许我应该以此为启动点,以讨论一些软件工具在基因组学的问题和数据. 如果你是新的领域,不得不弄清楚如何像这样的项目进展, 或者是什么的知识, 技能, 和工具,你需要, 你能确定在哪里瞄准一些想法? 所以我用这个纸之类的来分析的发挥状态: 什么样的生物信息学网站/工具/格式/对象/项目列入此范围内工作? 你可以找到他们? 哪里有障碍或危险? 你能学会利用它们和复制工作, 或驱动着从这里?

它启发我真正组装这一切在一个地方. 花了相当多的时间来跟踪工具下来,并找到有关它们的信息. 但它似乎是一个快照值得考虑. 我希望它突出了一些需要在野外, 之前的一些关键部分变得失去的时间和技术的变化莫测. 也希望认识鼓励良好的行为,在未来. 事情似乎是越来越好,社会压力公布数据集和代码库的支持有所增加. 我们可以使用一些标准的引用策略的工具, 来源, 和参数. 该 美国国立卫生研究院获得认真对待管理“大数据”,并确保其能正常使用 已经遭到了极大的热情. 但还是有一些小山离开爬上我们在此之上才.


L. Carbone的, ř. 艾伦·哈里斯, 三特索Gnerre, 克里希纳Ř. Veeramah, 贝伦洛伦特 - 加尔多斯, 约翰·赫德尔斯顿, 托马斯·. 迈耶, 哈维尔·雷罗, 基督教鲁斯, 布朗温阿肯 & 法比奥Anaclerio & 的. (2014). 长臂猿基因组和小猩猩快速核型进化, 自然, 513 (7517) 195-201. 分类号: http://dx.doi.org/10.1038/nature13679

FigShare版本的这个帖子: http://dx.doi.org/10.6084/m9.figshare.1194879

本周VideoTip: ENCODE @ Ensembl人类

我们有很多的教程 (2 事实上, ENCODE的基础 & 编码@ UCSC), 提示资料 关于 进行编码. 我们也有很多的教程 (再次 2, EnsemblEnsembl遗产- 上了年纪的版本 ), 提示资料 关于 Ensembl, EBI的数据库和浏览器.

现在,这里是一个尖端的一周Ensembl人类都和编码. 这是一个较近期添置 ENSEMBL的视频教程. 此视频看起来如何识别可能参与基因调控序列. Ensembl人类的大多数这样的数据的基础上进行编码数据. 这是使用 “矩阵,” 的方式来选择的调节数据,您需要根据细胞类型和TF. 结束时的 8 分钟的视频,他们商量了一下有关如何获得所有数据进行编码.

因此,, 现在你有一个丰富的信息,在这里通过我们的教程和我们的博客OpenHelix有关编码和ENSEMBL.


进行编码: http://encodeproject.org/ENCODE/
编码@ UCSC: http://genome.ucsc.edu/ENCODE/
Ensembl: http://www.ensembl.org
编码教程: http://openhelix.com/encode
ENSEMBL教程: http://openhelix.com/cgi/tutorialInfo.cgi?id=95

一周的视频提示: GBrowse和Ensembl浏览蝴蝶

数个月回来的时候 Heliconius (邮差) 蝴蝶基因组文件发布, 我们看到了如何在新的测序技术使我们获得了越来越多的基因组数据的另一个例子–是不是主要模式生物的物种,. 帝王蝶的基因组数据已被释放,以及在此之前,. 你可能不知道,有一个巨大的努力,得到成千上万的昆虫基因组–i5k项目. 我认为这是我最喜欢的事情,我们今天所处的: 我们可以更详细的检查更多的物种比我们之前曾经有. 我们不仅得到有趣的细节,从基因组序列框架, 但有趣的信息关于物种的进化关系, 有趣和新颖的生物学功能,可探索. 我的意思–人类基因组及其变化是巨大的–但黑脉金斑蝶有太阳罗盘! 散热效果如何??

像今天大多数基因组论文, 只有小部分获得的数据是在纸张的主体. 该 “引人注目的例子” 但有可能会. 但是, “12,699 预测蛋白质编码基因” 的 Heliconius 基因组, 只有极少数是真正在文字处理. 在一些数字的几个捧. 早期的君主蝴蝶纸传递 “一组 16,866 蛋白质编码基因” (和 10 纸以外的补充!). 但是,访问自己的数据和比较你的基因和物种的利益,你需要打开浏览器,陪文件.

在这种情况下,你有两个选择浏览器的样式: 的 Heliconius 基因组联盟 (纸张的作者) 保持在他们的GBrowse安装 Butterflygenome.org 网站. 君主组在GBrowse MonarchBase. 此外, 双方的数据,现在也包括在 Ensembl 在7月 2012 释放 15. [注意:: 见行政细节的意见 - 毫米]

对于本周的尖端我们四处飞从的物种特异性GBrowsers的,收集的套在Ensembl人类. 这是伟大的项目和资源信息的物种特异性位点的深度, 但它也很高兴有较大的基因组浏览器的附加工具,并显示. 社区浏览器可以提供现有的和新的数据可能还没有被包括在超级浏览器, 和超级浏览器可能会提供额外的工具和基础设施,是无法从社会的浏览器. 最好的办法是要注意两个, 舒适与主要的软件功能和自己的长处和短处.

错误–成千上万的人. 就绪. 和提防: 寻找 正确的超级英雄

注意:: 我一直无法定位的最后几天的所有atwitter的的Mothra的基因组.


Heliconius GBrowse: http://butterflygenome.org/

MonarchBase: http://monarchbase.umassmed.edu/genome.html

Ensembl人类后生动物: http://metazoa.ensembl.org/

i5k昆虫和其他节肢动物基因组测序计划 http://arthropodgenomes.org/wiki/i5K

如果您来寻找蝴蝶的照片, 试试这个: http://www.butterfliesandmoths.org/ 这也是一个公民的科学网站,在这里你可以提交你自己的踪迹–我已经做了,在过去的.


Dasmahapatra, K.K., 沃尔特斯, J.R., 布里斯科, 公元, 戴维, J.W., 惠布利, 答:, 纳多, 位于新泽西州, 子敏, A.V., 休斯, D.S.T., 弗格森, L.C., 马丁, S.H. & (2012). 蝴蝶物种之间的基因组揭示淫乱交换的模仿改编, 自然, 分类号: 10.1038/nature11041

詹, 学, 梅林, 三, Boore, Ĵ. & 里珀特, S. (2011). 帝王蝶长途迁徙的基因组产量洞察, 细胞, 147 (5) 1185. 分类号: 10.1016/j.cell.2011.09.052

stensmyr, M. & 汉森, 乙. (2011). 基因组适合君主, 细胞, 147 (5) 972. 分类号: 10.1016/j.cell.2011.11.009

kersey, P.J., 斯坦斯, D.M., 劳森, 四, Kulesha, 大肠杆菌, 德温特, 体育, 汉弗莱, J.C., 休斯, D.S.T., 基南, 学, Kerhornou, 答:, Koscielny, Ğ. & (2011). Ensembl人类基因组: 无脊椎动物物种的基因组大规模数据的综合资源, 核酸研究, 40 (D1) D97. 分类号: 10.1093/nar/gkr895

一周的视频提示: 年度回顾IV, 2下半年

正如你可能知道, 我们一直在做这些视频 提示-的-的周 多年来. 我们已完成约 200 小珍闻引进各种资源,从去年, 2011 (YEP, 它的 2012 现在). 截至今年年底,我们已经建立了一个传统节日排序: 我们正在做一个总结后,收集所有. 一.

你可以看到过去几年’ 秘诀在这里: 2008 在, 2008 二, 2009 在, 2009 二, 2010 在, 2010 二. 该 总结上半年 2011 可从上周.

七月 2011

七月 6: 使用基因优先次序门户的优先顺序的基因

七月 13: PolySearch, 一次搜索许多数据库

七月 20: 人类表观可视化枢纽

七月 27: 新SIB的生物信息学资源门户


八月 2011

八月 3: SNPexp, SNP位点和基因表达之间的相关性

八月 10: CompaGB为比较基因组浏览器软件

八月 17: 抢, 比较基因组的重新审视

八月 24: 域画出快速图案图

八月 31: 从UniProt PSI SBKB和回来


九月 2011

九月 7: 使用广场的植物比较基因组学

九月 14: phiGENOME为噬菌体基因组探索

九月 21: 获得侧翼序列的基因组的位置

九月 28: R统计软件简介


十月 2011

十月 5: 越南盾资源遗传变异和药物信息

十月 12: 在UCSC基因组浏览器的轨道枢纽

十月 19: 线粒体转录来自全世界几十个

十月 26: 从Ensembl的变化数据


十一月 2011

十一月 2: MizBee共线性浏览器

十一月 9: 新的数据库的基因变种: DGV2

十一月 16: MapMi, 自动制图的microRNA LOC

十一月 23: BioMart中央门户网站的新

十一月 30: Phosphida, 一个翻译后修饰数据库

十二月 2011

十二月 7: VarSifter, 确定关键的序列变异

十二月 14: NCBI的基因组资源的大变化

十二月 21: 蛋酒为假期 (或探索同源基因)

十二月 28: 一周的视频提示: 年度回顾IV (上半年 2011)

更新的教程资料的公告: UniProt, 基因组浏览器概述, 和世界旅游资源

正如你们许多人知道, OpenHelix 专门帮助人们获取和利用公众的生命科学数据,以便进一步研究金矿. 我们这样做的方法之一是通过创建材料火车的人 – 研究人员, 医生, 馆员, 和对科学感兴趣的人 - 在哪里可以找到他们感兴趣的数据, 以及如何访问数据在特定的公共数据库和数据存储库. 我们已经得到了 100 一切从教程 PubMed的功能糖组学网关 (后来).

除了创建这些教程, 我们还花了大量的时间,让他们准确和最新. 这可以是一个挑战, 特别是当大量的数据库或资源都在同一时间附近的主要发行版. 我们的团队不断评估和更新我们的材料和在这篇文章中,我很高兴地宣布最近发布的更新我们的三个教程: UniProt, 世界巡回演唱会, 概述基因组浏览器.

我们的 初级UniProt教程 显示用户如何: 执行文本搜索的UniProt蛋白质相关信息, 寻找序列作为一个起点, 理解不同类型的 UniProt 记录, 创建多序列蛋白质记录使用应用Clustal.

我们的 基因组浏览器概述 用户介绍引进 Ensembl, 地图查看器, UCSC基因组浏览器, 的 综合微生物基因组 (IMG) 浏览器, 并 GBrowse软件系统. 我们也接触 WebGBrowse, JBrowse, 的 查看器中西医结合基因组学 (导叶), 的 ARGO计划基因组浏览器, 的 综合基因组浏览器 (IGB)鹅群, 和 通告基因组浏览器, 或CGView.

我们的 世界旅游资源的基因组学 和未经注册是免费的访问. 它包括参观例如资源, 举办​​类别,如 算法和分析工具, 表达资源, 基因组浏览器 (既 真核原核/微生物) , 文学和文本挖掘资源, 和资源集中于 核苷酸, 蛋白质, 途径, 疾病和变异. 这主要的讨论,然后带领讨论如何找到免费资源 OpenHelix资源搜索门户, 其次是学习使用OpenHelix教程资源, 和额外资源学习方法的讨论.


OpenHelix入门UniProt教程套件: http://www.openhelix.com/cgi/tutorialInfo.cgi?id=77

OpenHelix概述基因组浏览器教程套件: http://www.openhelix.com/cgi/tutorialInfo.cgi?id=65

免费OpenHelix基因资源教程套件的世界巡回赛: http://www.openhelix.com/cgi/tutorialInfo.cgi?id=119


有一个基因组 + 转录. 现在是什么?

我赶上一些邮件列表阅读上周,当我看到一个不寻常的的项目,横跨 UCSC的讨论邮件列表. 的人在为一个新的项目中获得的基因组和转录组序列的过程中的要求 UCSC的 用它做什么指导小组. 这实际上是一个问题,我们已经听到很多在车间–人们正在考虑这个项目的拨款, 或一个全新的音序器的计划,到达在他们的网站. 我想其他人可能会考虑这些建议有用的信息, 所以我重新张贴在这里:



生物技术 (NICB), 爱尔兰 (www.nicb.ie/). 我们是一个由公帑资助

analysisng一个新的基因组 (和转录) 中国仓鼠
子房 (为) 这是最近出版的细胞株 (徐等人。, 该
中国仓鼠卵巢细胞的基因组序列 (为)-K1细胞株. 纳特
生物工程. 2011 七月 31;29(8):735-41. 分类号: 10.1038/nbt.1932。) 由另一
组. 我们做了很多关于这个有机体的功能工作,我们期待
一些很好的指引 (发表论文, 网上资源, 等)

例如, 出版后序, 下一步是什么(与)
在提供有关资料? SNP的名单? 预测
蛋白质/ secretome /号码预测蛋白质类型 (克.
激酶/ G -耦合/核/膜本地化), 等?

寻找灵感, 但这种类型分析输出是相对较新的的
本集团 (我们通常更多地集中在转化医学). 是
基因组/转录? 您的组织可以建议几个关键


UCSC的一般试图讨论具体的数据和软件,以限制他们的网站–因为这是他们的使命, 当然, 并因为他们不能每个人的基因组学万物–他们不会对自己的工作时间. 但是,这是一个特例, 他们组装了哈灵顿非常酷的答案和他的团队.

纸,哈灵顿引用我记得当时看到的CHO, 但我并没有作进一步调查. 于是我去寻找,看看本集团成立浏览器, 我无法找到一个. 我没找到 预览大会在Ensembl. 但我可以看到一个本地组为什么会自己收集需要更多的细节,以及为什么他们会想自己做一些事情. 和可能的一种简单的方法来扩展自己的数据的参考序列,而不是等待一个大的浏览器团队去.




1) 从中国仓鼠对齐所有序列的mRNA
2) 所有自己的转录数据对齐
3) 从中国仓鼠对齐所有GenBank的EST序列
4) 映射人类蛋白质的加州大学圣克鲁兹分校基因组的RefSeq得出
5) 映射从加州大学圣克鲁兹分校的RefSeq鼠标蛋白
6) 用鼠标做多物种的基因组对齐, 大鼠, 兔,
然而,, 象, 负鼠, 鸭嘴兽, 鸡. 做两两对齐.
7) 煤矿基因组读取和转录为单核苷酸多态性读取. 要小心
\8) 运行多个重复发现者.
9) 运行一个CpG岛的探测器.
10) 像奥古斯都运行良好的基因预测程序.
11) 尽量找到湿实验室组愿意做一些DNA酶检测….

我希望这是有益的. 祝你好运与你的工作!



我想这是相当多的东西的清单,我希望看到一个新的浏览器上的一个新的基因组. 而我觉得这是特别关键的原因是因为只有这被越来越多. 随着新的测序技术和海量数据, 越来越多的团体是他们的实验室或当地研究人员发现具有重要的序列数据. 可能是病人, 可生物模型, 可能是物种. 如何进行这个数据是很重要的.

你会怎么做,还有什么? 你有面对这个组的其他建议?

今天我正好注意​​到乔纳森艾森链接到一个文件可能有新的基因组的人提供指导: 细菌/ archael基因组的注释标准的重要文件 — 准备进行 “海量数据”. 我认为这是伟大的, 一个关键的讨论和认识到现在所拥有的. 对于完全相同的原因–新乡亲将要面临以令人难以置信的价格与组装和注释功能的新基因组, 我们学到了一些关于最佳做法和需要的东西. 当然, 事情也将演变–但有几个很好的出发点是真正有用的指导.

编辑: 刚刚从CHO纸研究者的说明, 他们指出我这个网站的一些工具: http://www.chogenome.org/


Xu光span>, Z., Sanders-Lorenz, E., Axen, S., 金, E., 约翰斯, 米, 斯科特, K., & Kerfeld, ç. (2010). 结合基因组学和生命科学上的生物信息学课程 PLoS生​​物学, 8 (8) 分类号: 10.1371/journal.pbio.1000448, 十, Nagarajan, 阁下, 刘易斯, 全, 泛, 学, 蔡, z的, 刘, 十, 陈, 瓦特, 谢, 米, 王, 瓦特, 哈蒙德, 学, 安德森, 米, 纳夫, 全, Passarelli, 二, 苏梅, 瓦特, 风扇, 阁下, 王, j的, 桂, 华, 李, 光, Betenbaugh, 米, 地震, 学, 家庭, 一, 保尔松, 二, & 王, Ĵ. (2011). 中国仓鼠卵巢细胞基因组序列 (为)-K1细胞株 自然生物技术, 29 (8), 735-741 分类号: 10.1038/nbt.1932

Klimke, 瓦特, 多诺万, 三, 白, 澳, 不足之处, j的, 克拉克, 光, 费奥多罗夫, 二, 密茨拉希, 一, 普鲁特, 光, & Tatusova, T. (2011). 解决问题: 前的海量数据的基因组注释标准 在基因组科学的标准, 5 (1), 168-193 分类号: 10.4056/sigs.2084864