标记档案: 进行编码

UCSC Genome Bioinformatics

一周的视频提示: UCSC基因组外显子的浏览器仅模式,en

球队在 UCSC基因组浏览器 continues to update their resources and offer new ways to find and visualize features of interest to researchers. One of the newer features is the “多区域” option. When it was first launched, I did a tip on how to use that, with some of the things that I noticed while I was testing it pre-launch. But now the folks at UCSC have their own video on the exon-only display that you might also find useful.

One of the things that is illustrated here is how the exon-only mode is handy to enhance your exploration of RNA-Seq data. It also uses a great 进行编码 data set as an example, and if you haven’t been using that collection it’s a good reminder of the kinds of things you can find in that resource still. And this extensive data set shows how much easier it is to look at different isoforms in the data in this new exon-only mode.

So have a look at this display option if you haven’t before, especially how it can help you to see transcript differences. 如果你不熟悉的 编码资料 that’s being used, you can also see our training on that which will help you to understand how to use that data and the filtering features that are also used in this video.

特别说明: I have updated the UCSC Intro slides to include the new Gateway strategies as well. So download those slides for the latest look.


披露: UCSC Genome Browser tutorials are freely available because UCSC 赞助商 us to do training and outreach on the UCSC Genome Browser.


UCSC基因组浏览器: http://genome.ucsc.edu

UCSC Genome Browser training materials: http://openhelix.com/ucsc

进行编码: 銈://www.openhelix.com/ENCODE2


带动, 米, 科, 答:, 罗森布鲁姆, 光, 雷尼, 二, 赞助商, 二, Nejad, 体育, 李, 二, 学习, 光, Karolchik, 四, Hinrichs先生, 答:, 海特纳, 学, 硬, 河, Haeussler, 米, Guruvadoo, 属, 藤田, 体育, Eisenhart, 三, Diekhans, 米, 克劳森, 阁下, 卡斯帕, j的, 理发, 克, 豪斯勒速度, 四, 库恩, 河, & 肯特, 在. (2016). UCSC基因组浏览器数据库: 2016 更新 核酸研究, 44 (D1) 分类号: 10.1093/nar/gkv1275

ENCODE项目联盟 (2012). 一个集成的人类基因组中的DNA元件的百科全书 自然, 489 (7414), 57-74 分类号: 10.1038/nature11247



This week’s SNPpets include a slew of new tools, including RNA secondary structure, 基因组注释, and a new platform for mitochondrial diseases. It includes some updates to old favorites, 像 多孔的组分 and a new InterMine for Xenopus. A call for help reviewing plugins at BioGPSݿ. Two very interesting items on citations for software tools–one about software citations, and one way to publish and get properly cited. Cracking the walnut genome. And an irresistable look at cheetah genomics. 而更多的.

SNPpets_2欢迎来到我们的链接集合星期五功能: SNPpets. 一周之内,我们遇到了很多链接和读取,我们认为很有趣, 但不要到一个博客帖子. 在这里,他们是您的享受…


UCSC Genome Bioinformatics

一周的视频提示: UCSC features for ENCODE data utilization

UCSC Genome BioinformaticsAs noted in 上周的提示 about the ENCODE DCC at Stanford, there was a workshop recently for the 进行编码 项目. There were a lot of folks speaking and a big room full of attendees. You should check out the full agenda and the playlist at the NHGRI site for all the videos, 幻灯片, and handouts: 进行编码 2015: Research Applications and Users Meeting.

This week I’m highlighting another video from this event. In this one, Pauline Fujita from the UCSC基因组浏览器 covers ways to work with ENCODE data in their browser.

Some of the talk includes intro stuff for brand new users, because there were certainly some in this workshop. If you are new to the tools, 太, you can also see our free tutorial suites (下面). Pauline also quickly highlights their Genome Browser in a Box virtual machine option for folks who have privacy sensitive or protected data, but only briefly. If you want some more info on that, 看看我们的 Tip of the Week on GBIB.

But soon she covered more detail on features like track hubs and how to use those (if you wanted to jump to that part, it begins around 20min). That extra search for items in the Track Hub is really good to know about. file_formats_help还, there’s some guidance here on the types of file formats that you may want to use to structure your data. Also why you want BED vs Wiggle, 例如. For the part that addresses these formats, jump to about 33min.

Towards the end there’s coverage of the Data Integrator. The idea with this feature is that maybe you’ve got some information on a region and you have this structured as a BED file–or a number of regions–and you want to find out what else is going on in those regions. The Data Integrator can help you with that by finding overlaps among different tracks of data (around 45min). The Variant Annotation Integrator does kind of a similar thing, but for VCF files with variation information (~48min). A smidge more guidance on track hubs comes in at 50min.

In our paper for Current Protocols (which is now in PubMedCentral), we talk a bit about the hubs structure too. So if it runs too quickly at the end, our paper shows some of that detail pretty much the same way. That might help you to think about how to structure them if the concept is new to you. But if you are ready to dive in, there’s a paper specifically about hubs. And there’s also more background on the browser’s tools and in the NAR database issue papers. There’s a lot of ENCODE data available to mine, and I really hope more folks can use the tools to find new insights into genomic regions they are interested in.


Track hubs: http://genome.ucsc.edu/cgi-bin/hgHubConnect

Data Integrator: http://genome.ucsc.edu/cgi-bin/hgIntegrator

变型注释集成: http://genome.ucsc.edu/cgi-bin/hgVai

ENCODE features at UCSC: http://genome.ucsc.edu/ENCODE

UCSC tutorial suites:

UCSC Intro Tutorial suites (视频, with our free slides + 演习): http://www.openhelix.com/ucscintro

UCSC Advanced Tutorial suites (视频, 幻灯片, 演习): http://www.openhelix.com/ucscadv


曼甘ME, 威廉姆斯JM, 库恩室, & Lathe WC (2014). 在UCSC基因组浏览器: 什么每一个分子生物学家应该知道的 Current Protocols in Molecular Biology., 107 (19.9), 199-199 分类号: 10.1002/0471142727.mb1909s107

罗森布鲁姆, 光, Armstrong, j的, 理发, 克, 卡斯帕, j的, 克劳森, 阁下, Diekhans, 米, Dreszer, 吨, 藤田, 体育, Guruvadoo, 属, Haeussler, 米, 硬, 河, 海特纳, 学, Hickey, 克, Hinrichs先生, 答:, Hubley, 河, Karolchik, 四, 学习, 光, 李, 二, 李, 三, Miga, 光, 阮, 全, 赞助商, 二, 雷尼, 二, 斯密特, 答:, 带动, 米, 科, 答:, 豪斯勒速度, 四, 库恩, 河, & 肯特, 在. (2014). UCSC基因组浏览器数据库: 2015 更新 核酸研究, 43 (D1) 分类号: 10.1093/nar/gku1177

雷尼, 二, Dreszer, 吨, 理发, 克, 克劳森, 阁下, 藤田, 体育, 王, 吨, 阮, 全, 赞助商, 二, 科, 答:, Karolchik, 四, & 肯特, 在. (2013). 轨道数据集线器上的UCSC基因组浏览器允许用户自定义的全基因组注释的可视化 生物信息学, 30 (7), 1003-1005 分类号: 10.1093/bioinformatics/btt637

披露: UCSC Genome Browser tutorials are freely available because UCSC 赞助商 us to do training and outreach on the UCSC Genome Browser.


一周的视频提示: 数据编码协调中心, phase 3


Image via: 用户的指南的DNA元件百科全书 (进行编码). 分类号:10.1371/journal.pbio.1001046.g001

进行编码 project began many years ago, with a pilot phase, that examined just 1% 人类基因组. But this initial exploration helped the consortium participants to iron out some of the directions for later stages–including focusing on specific cell lines, 技术, and technologies in Phase 2. There have been a number of publications that came out from consortium members, but in addition to the participant’s papers, a lot of other folks have mined this data for various investigations as well. There’s still plenty of opportunity for discovery. Some people may not realize that there’s an also ENCODE phase 3 进行.

When we had a contract with the folks at UCSC基因组浏览器 for outreach on ENCODE, we developed materials to help people explore the data. But we hadn’t delved into it much since phase 3 began. But the other day I got a note from my NHGRI YouTube subscription (GenomeTV) that a whole workshop of ENCODE phase 3 information had been made available. So I wanted to have a look.

There is a series of video segments that correspond to this agenda from the ENCODE workshop. I’ll be highlighting one of them here, the one that introduces the features of the Phase 3 Data Coordination Center at Stanford now. But there may be others that you want to examine for your research goals as well. Another way to work through the different segments is available from the NHGRI page here: http://www.genome.gov/27561910 That page offers the slides, 讲义, and exercises too.

The video is longer than our typical tips, but it’s worth seeing for the context and framework details. There’s also a section on searching and filtering, which explains how to locate precisely the things you want to find. There’s a helpful and funny analogy to searching for shoes as you would at Zappos. I’ve used the Zappos tool exactly that way, and I also like it very much. If you want more details on how their ontology structure helps them to accomplish this, check out the paper linked below. Also in the video, there’s a piece about how the metadata is structured, 你可以期望找到有.

There’s also a part about how to visualize the things you find. You end up loading them as a UCSC Genome Browser track hub, which is integrated with all they other data at UCSC. There’s another video with Pauline Fujita on the hubs which I’ll address separately later.

playlist for the whole meeting is here. I won’t be highlighting all of them, but I may select more of them for future tips.


ENCODE门户: 通过https://www.encodeproject.org/


malladi, V, Erickson, 四, Podduturi, 全, 罗, 属, 陈, 大肠杆菌, Davidson, j的, 希茨, 二, Ho, 米, 李, 二, Miyasato, 学, 鱼子, 克, Simison, 米, 斯隆, 三, Strattan, j的, 田中, 楼, 肯特, 瓦特, Cherry<三pan>, J.,j的span class ="tr_" id="tr_吨" data-token="Q2hpc2hvbG0," data-source="">Chisholm, j的, & 香港, é. (2015). Ontology application and use at the ENCODE DCC 数据库, 2015 分类号: 10.1093/database/bav010

编码项目联盟 (2012). 一个集成的人类基因组中的DNA元件的百科全书 自然, 489 (7414), 57-74 分类号: 10.1038/nature11247

编码项目联盟. (2011). 用户的指南的DNA元件百科全书 (进行编码) PLoS生​​物学, 9 (4) 分类号: 10.1371/journal.pbio.1001046

编码项目联盟 (2004). 编码 (DNA分子的百科全书) 项目 科学, 306 (5696), 636-640 分类号: 10.1126/science.11​​05136


This week’s SNPpets include definition confusion in “表观遗传学”, two HIPPIES, a new mouse ENCODE browser, 数字生活 (new ways to interact with published data), and new features at the Drug-Gene Interaction database (DGIdb). 哦–and the woolly mammoth genome.

欢迎来到我们的链接集合星期五功能: SNPpets. 一周之内,我们遇到了很多链接和读取,我们认为很有趣, 但不要到一个博客帖子. 在这里,他们是您的享受…


注意:: Because of the way Twitter has re-vamped their retweet software, it’s harder to get just the text versions of tweets. But embedded tweets are huge. We are going to try out this new format, but are not sure it will work for searching and indexing the way we like. We may revisit the old format after testing this out a bit.


欢迎来到我们的链接集合星期五功能: SNPpets. 一周之内,我们遇到了很多链接和读取,我们认为很有趣, 但不要到一个博客帖子. 在这里,他们是您的享受…


一周的视频提示: 新加州大学圣克鲁兹分校 “堆叠” 摆动轨迹视图

本周的视频技巧展示了一种新的方式来看看multiWig轨道数据在UCSC基因组浏览器. 一 新的选项最近已发布 (见 06 五月 2014), 一 “堆叠” 查看, 这是一个方便的方式来看待数据与新的战略. 但我承认它带着它一起工作,了解细节,而我一点. 因此,在这个技巧中,我希望你能看到什么新的可视化提供.

我不会去到背景上的多种类型的注释轨迹可用–如果您需要引入的基本轨迹视图的想法, 与开始我们 介绍教程 触及上的不同类型的图形表示. 自定义音轨在谈到 高级教程. 对于具体的指导 如何创建不同类型的轨道, 看到了加州大学圣克鲁兹分校的文档. 跟踪我今天说明视频中的类型, 一个MultiWig TRACk, 拥有自己的一节那边太. 基本, 如果你是完全新的这, 的 “蠕动” 风格是一种方式来显示整个区域的直方图显示. MultiWig让你叠加几个这样的直方图在一个空间. 在这个例子中,我会在这里展示, 看着结果 7 不同细胞系中都显示为一些组蛋白标记信号 (分层H3K27Ac轨道).

Annotation track cell lines


当我看到公告, 我认为这是一个很好的方式来显示所有的数据同时. 当我们这样做的基本研讨会, 我们并不总是有时间去进入这个视图的详细信息, 虽然我们探索它在 物料编码, 因为我使用的是轨道的编码数据集之一. 我会在同一个区域使用相同的轨道公告, 这是在这里显示:

stack announcement但是,当我第一次看这个, 我不知道如果峰值–着眼于粉红色的峰值,代表该NHLF细胞系–是为了下方或没有覆盖整个区域. 我试图找出基本上是这样的 (我的思维过程的图形表示如下):


通过尝试各种风格我很确定我有什么真正被显示的主意, 但我证实,与轨道开发商之一. 该值是唯一的粉色带段, 不低于它的整个区域. 和马修还指出,我认为他们是在相反的字母顺序排序的曲目 (所以NHLF是最高的堆栈). 这是我没有意识到还没有一个方面. 他们是基于分选不上的值在该点. 这是有道理的, 当然, 但它不是明显,我在第一.


在视频中,我会告诉你如何这部分看上去与不同 “覆盖方法” 该轨道页面上的设置. 我会在看的SOD1区, 像例如公告. 我调整了一些从默认的其他设置所以它会更容易在视频中看到 (看到箭头我的变化). 但我希望这传达你有选择现在来看看这种类型的轨道数据的有效.

Track settings for video因此,这里是与SOD1 5视频′ 在中心区域, 使用 4 叠加方法的不同选择, 示出在该组蛋白标记数据 7 细胞系. 我不打算到数据的细节在这里, 但我会点你就如何做这项工作更多相关的参考–请参阅下面的伯恩斯坦实验室纸. 我想只是证明这种新型的收视选择,将可在摆动轨迹. 有些曲目将有太多的数据,一种或另一种, 或会更清楚与一个或另一种风格. 但现在你要考虑它的另一种方式.


UCSC基因组浏览器: genome.ucsc.edu

加州大学圣克鲁兹分校介绍教程: http://openhelix.com/ucscintro

加州大学圣克鲁兹分校高级教程: http://openhelix.com/ucscadv



肯特WJ, 分公司A. S., 理发G。, Hinrichs先生A.Ş. & Karolchik Ð. (2010). 权贵和BigBed: 大型分布式数据集启用浏览。, 生物信息学 (牛津, 英格兰), PMID:

Karolchik D。, 理发G.P., 卡斯帕J。, 克劳森H。, 克莱因的M.S., Diekhans M。, Dreszer T.R., 藤田P.A., Guruvadoo L. & Haeussler M. & (2013). UCSC基因组浏览器数据库: 2014 更新。, 核酸研究, PMID:

拉姆O。, 戈伦A。, 阿米特一, N. Shoresh的, 优素福N., 恩斯特·J., 金匙,M。, Gymrek M。, ISSNERř. & 柯尼M. & 的. 染色质调节器的组合图案在人类细胞中发现了全基因组定位分析。, 细胞, PMID:

ENCODE项目联盟, 伯恩斯坦B.E., Birney E。, 邓纳姆一, 绿色E.D., 冈特Ç. & 斯奈德M. 等. (2012). 在人类基因组DNA分子的一个集成的百科全书。, 自然, 489 PMID:

另请参阅上编码数据的性质特殊问题, 特别是染色质可访问性和组蛋白修饰的子集 (节 02): http://www.nature.com/encode/

一周的视频提示, 年度回顾 2013 (部分 1)

正如你可能知道, 我们一直在做这些视频 提示-的-的周多年来. 我们已完成或收集周围 300 通过过去的一年中,的小珍闻介绍各种资源, 2013. 起初,我们不得不做所有我们自己的影片介绍, 但随着电影技术变得更加方便和更多的球队做出了自己的, 我们能够找到更多的资源提供者自己都做了. 所以我们就开始收集那些,以及. 截至今年年底,我们已经建立了一个传统节日排序: 我们正在做一个总结后,收集所有. 一.

你可以看到过去几年的秘诀在这里: 2008 在, 2008 二, 2009 在, 2009 二, 2010 在, 2010 二, 2011 在, 2011 二, 2012 在, 2012 二, 2013 二 (下周).


一月 2013:
一月 2: 年度回顾“V部分双人舞
一月 9: 新的和改进OMIM®
一月 16: InSilico DB
一月 23: ZooBank和物种命名
一月 30: ScienceGameCenter#edtech

二月 2013:
二月 6: MotifLab工作台TFBS分析
二月 13: UCSC基因组浏览器显示限制性内切酶
二月 20: 加州大学圣克鲁兹分校的数据进行编码 (提醒)
二月 27: NetGestalt

三月 2013:
三月 6: NCBI基因组学工作台
三月 13: FlyBase
三月 20: figshare + GenoCAD =外展
三月 27: 酶门户网站和以用户为中心的设计

四月 2013:
四月 3: Phytozome和桃基因组
四月 10: 介绍化学信息学
四月 17: 共享H7N9数据在GISAID.org与EpiFlu™
四月 24: 癌症阿特拉斯路线图

五月 2013:
五月 1: 我的癌症基因组
五月 8: TRANSFAC (和HGMD, 蛋白质组, 等)
五月 15: 流感研究数据库 (税务局)
五月 22: 加纳利数据库人类健康的哨兵
五月 29: 微生物生态学定量洞察QIIME

六月 2013:
六月 5: Prezi和其他非线性表示方法
六月 12: TrioVis家庭的基因组数据集
六月 19: ENCODE芯片SEQ意义工具
六月 26: InnateDB, 系统生物学的先天免疫反应

本周VideoTip: ENCODE @ Ensembl人类

我们有很多的教程 (2 事实上, ENCODE的基础 & 编码@ UCSC), 提示资料 关于 进行编码. 我们也有很多的教程 (再次 2, EnsemblEnsembl遗产- 上了年纪的版本 ), 提示资料 关于 Ensembl, EBI的数据库和浏览器.

现在,这里是一个尖端的一周Ensembl人类都和编码. 这是一个较近期添置 ENSEMBL的视频教程. 此视频看起来如何识别可能参与基因调控序列. Ensembl人类的大多数这样的数据的基础上进行编码数据. 这是使用 “矩阵,” 的方式来选择的调节数据,您需要根据细胞类型和TF. 结束时的 8 分钟的视频,他们商量了一下有关如何获得所有数据进行编码.

因此,, 现在你有一个丰富的信息,在这里通过我们的教程和我们的博客OpenHelix有关编码和ENSEMBL.


进行编码: http://encodeproject.org/ENCODE/
编码@ UCSC: http://genome.ucsc.edu/ENCODE/
Ensembl: http://www.ensembl.org
编码教程: http://openhelix.com/encode
ENSEMBL教程: http://openhelix.com/cgi/tutorialInfo.cgi?id=95

一周的视频提示: ENCODE芯片SEQ意义工具

我们一直在做培训和研讨会 UCSC基因组浏览器 为 10 多年来. 这是一个巨大的工具,在您的工具箱是一个基础性的项目,在基因组学. 但–时候,你有可能是要检查一些的数据在那里,你可以找到另一种方式, 有不同的侧重点或重点. 这也许可以制作一些聪明的 表浏览器 查询得到你想要的东西. 有时, 虽然, 别人已经创造了一个方式为您查询相关的数据可能是有用的一个话题,太. 当今尖端的一周正是这种工具. 一个Web界面查询编码数据驻留在UCSC基因组浏览器, 专注于寻找转录因子与丰富的绑定在一个区域,你可能有兴趣探索. 今天的视频提示 ENCODE芯片SEQ意义工具.

有一吨的大数据流入UCSC基因组浏览器的一部分, 进行编码 项目. 这将提供多年的开采生物学家. 将是巨大的,是为那些有兴趣在特定基因的生物医学研究–或套基因–看一看ENCODE数据看,如果他们能发掘出一些有用的见解调节这些基因或基因列表. 您可以使用芯片SEQ意义的工具,通过数据筛选.

布特实验室团队做的是非常好的视频. 非常具体的指导如何使用他们的工具–选择菜单选项, 选择是什么, 什么期望的结果. 这里是他们的视频:

当然,你应该阅读他们的论文,你需要为背景有关此工具 (下面链接), 和引用,也将帮助你了解这个工具提供. 你也应该阅读上的相关数据进行编码. 补充与纸张也清晰的语言写成,以帮助您了解功能.

我很好奇的事情之一是,这是否可能会延长鼠标数据. 一件事,人们松鸡我的是,编码细胞线数据, 和组织数据,真的是巨大的. 但是我看到 斯蒂芬·特纳的博客讨论 (阅读评论) 人类现在的焦点. 会议还讨论了 CSCAN工具, 虽然, 这确实涉及鼠标数据. 因此,如果这是一个工具,你有兴趣, 你可能想探索CSCAN.



ENCODE芯片SEQ意义工具: http://encodeqt.stanford.edu/

CSCAN: http://www.beaconlab.it/cscan


奥尔巴赫, 河, 陈, 二, & 巴特, 一. (2013). 相关基因功能: 识别丰富的转录因子编码芯片的的SEQ意义工具 生物信息学 分类号: 10.1093/bioinformatics/btt316