标记档案: 数据库

答案是什么? 数据库异常

映泰 网站是一个要求, 生物信息学的问题,回答和讨论. 我们的成员 社区和发现它非常有用. 经常出现的问题和答案在映泰是我们的读者有密切关系 (基因组学的最终用户资源). 每星期四,我们将其中的一个突出问题和答案在这里在这个线程. 您可以询问一下该线程问题, 或者你可以随时参加在映泰.

本周问题:

在主数据库中的不正确/不寻常的条目 (GenBank中, UniProt, PDB)? 皮埃尔Poulain问 ” 在… 建议我的学生在这些数据库中的数据,他们可以找到谨慎. 为了说明这一点, 我发现在GenBank中的相当不寻常的条目:..” 然后,他列出了一些好的.

有几个有趣的, 又好笑, 包括从我们自己的玛丽之一的答案,

我最喜欢的离奇的数据库项目是作者之一. 这是漫长的,在此之前,NCBI ROLF博客. 我正在寻找在过渡发现的基因,以头发花白. 这是没有用处….

http://www.ncbi.nlm.nih.gov/pubmed/12079806

这是 标题 (注意:, 不是抽象):

我是一名64岁男子, 我完美的健康记录,我一直感到自豪. 我也一直在我的头发全头感到自豪, 即使在灰色开始匍匐在. 四个月前,我陷入肺炎,在医院度过了八天 (三个在重症监护病房). 过了好一会儿, 但我终于恢复正常 – 除了我的头发掉下来. 它有团块,当我洗发水或即使梳, 它得到了明显瘦. 我记得阅读有关柔沛在您的简报,但我没有老问题. 我应该尝试的药物?

检查出很好的例子,其他的答案,为什么研究者应​​始终双重检查数据.

有一个适用于所有数据库, 甚至尤伯杯-操纵子

我玩弄 Google学术搜索的新的引文功能 让我收集在一个地方,我的论文容易 (工作非常出色, 增值税, 节省了一些小问题, 见下文) 当我注意到它错过了我的一个文件 2000: “比操纵子基因高阶的背景下保护.” 抽象:

操纵子, 共同的基因转录和共同调节的连续套, 过短时间的进化时间差保守. 基因序列, 基因的操纵子的内容和监管机制,可以有很大的不同, 即使在密切相关的物种. 这里, 我们目前的证据的几行,这表明,, 虽然操纵子和其个别的基因和监管结构比较不同物种的基因组时,重新排列, 这种重排是一个保守的过程. 基因重排总是保持在非常特殊的功能和监管环境的单个基因. 我们称这种保守的背景下一个超级的操纵子.

尤伯杯的操纵子. 这是我有价证券的建议长期. 当时在德国的生活和工作, 我认为这是一种滑稽的. 无论如何, 我从来没有真正扩大超过另一个失去了跟踪,研究和种类的纸张或该文件是否在多. 我输入了“超级操纵’ 今天在谷歌发现,它的被引用几次 (88) 和, 我发现这个有趣的: 已建成了几个数据库 “尤伯杯操纵子。”

一个中国研究组创建 尤伯杯操纵子数据库. 纸看起来很有趣, 但不幸的是,服务器已关闭 (这是否是临时或永久, 我不知道), 的 ODB (操纵子数据库) 使用超级-操纵子 (他们称之为参考操纵子) 在数据库中预测的操纵子 , Nebulon 是另一种, 雨果 是另一种. 阅读 çhapter上的计算方法 为预测尤伯杯操纵子 :)

只是去告诉你, 有一个适用于所有数据库.

哦, 回到谷歌学者引用. 它没有发现几乎每一个我发表的论文, 虽然错过了两个 (包括上面) 有两个误报. 此外, 许多引文失踪 (像 88 本文, 从其他文件和许多其他). 这并不是说这是没有用处的, 我觉得一个很好的工具,但它并不是完美的. 您可以fIND出更多关于Google学者引用, 约 微软类似的功能.

哦, 这篇文章在我 HumbleBrag厅名人堂? 如果是这样的保留的Twitter, 也许我应该叽叽喳喳,这样我就可以得到有 :). (虽然我不知道他指出相对较小的数据库为基础的一个相对较小的纸张构成吹牛, 虚心或不LOL).

“答案是什么”

映泰 网站是一个要求, 生物信息学问题的回答和讨论

与. 我们的社区成员和发现它非常有用. 经常出现的问题和答案在映泰是我们的读者有密切关系 (基因组学的最终用户资源). 每星期四,我们将其中的一个突出问题和答案在这里在这个线程. 您可以询问一下该线程问题, 或者你可以随时参加在映泰.

今天的问题和答案是:

推荐易于使用微阵列集群软件

其中最为人投票回答 (是作者谁张贴的建议线程):

我最喜欢的是 兆电子伏 微阵列数据分析工具. 它使用简单,它有一个非常大的数字特征.

非常适用于任何类型的数据. 你也可以加载到一个文件,它从一个简单的文本格式的数据:

GENE1, 值1, 值2 GENE2, 值1, 值2

随意张贴您最喜爱的集群工具.

其他几个优秀的工具,建议, 你可以在这里检查出来.

真正的生物信息学家编写代码, 真正的科学家…

仅仅在一周前, 尼尔桑德斯说后我同意: 真正的生物信息学家编写代码. 该职位是在回答一个开始鸣叫交谈:

#映泰许多问题开始:“我为资源寻找..”. 答案常常是你需要编写一个解决方案,使用数据,您有.

他的权, 这是非常真实的人,他的谈话bioinformaticists. 我关心的是其他的生物研究. 他指出,在后:

换言之: 知道数据源, 知道正确的工具,你可以随时为自己塑造一个解决方案的情况.

这是非常真实的,我全心全意同意. 因此,许多解决方案已经存在的数据库和分析工具数千. 这是我们在这里做OpenHelix, 帮助实验生物学家, 基因组学研究人员和bioinformaticists找到正确的数据源和工具,然后去 “造型为他们的情况的解决方案。”

在我的最后部分评论,

BioMart, UCSC基因组浏览器, 星系, 等, 等都是优秀的工具和资料来源,他能回答有关 80% 大多数提出的问题 :). 但我的警告将是知道的数据源和合适的工具可以是一项艰巨的任务位.

它是, 尽管有些不屑一顾的反应 :). 我们都看到了图, 随着时间的推移呈指数增长的数据量. 这是一个因为这个问题 高等教育纪事报文章的标题国:

由数据倾销: 科学家说,大洪水溺水研究

该杂志 也有一个完整的科学 10 一节 在这个问题上. 这不是一个问题将消失.

随着海量数据的, 已经走过了数据库和数据分析工具泛滥 (创造了大部分的bioinformaticists!), 其中许多是相当艰巨的_alone_找到正确的数据和工具内. 有成千上万这样的数据库和工具. 我已经记不清.

尼尔桑德斯是正确的. 该解决方案就在那里, 找到合适的工具和资料, 造型的解决方案. 他回应我的评论与 “学习你所需要知道的生物信息学是一定能够艰巨. 但随后, 科学是不轻易气馁的 :-).” 换言之, “如果你是气馁, 你不是科学家?”

我们给工作坊,世界各地的研究人员从新加坡到美国摩洛哥和机构多种多样,哈佛, 斯坦福大学, 密苏里大学, 公吨. 西乃山, 斯托尔斯和Hudson -阿尔法. 我们已经给了研讨会并回答了问题,研究人员也各不相同, 发育生物学家, 进化, 医学研究人员, bioinformaticists, 研究人员很精通基因组学和那些不.

压倒一切的主题是发现和了解的数据和工具,不仅是艰巨的, 但有时却可能. 不是因为它们不存在, 但是个人和实验室考虑剪的东西越来越多领域的发现和知道资源流失,因为他们发现和认识. 请您看看纪事文章… 溺水的数据。.

他们是真正的科学家不容易气馁, 但吓倒一样, 由什么在他们面前. 是的, 具体的研究需要对这些具体问题都可以通过现有的工具来回答. 大家加油映泰,一个精心设计的数据库检索和分析步骤将在许多问题回答精美, 无需进行重塑与车轮需要更多的代码 (而答案往往是代码).

我怀疑,这些科学家在那里谁自称为“生物信息学家” 应该有把握的工具和数据库提供给他们 (但我可以告诉你, 甚至他们有时不亮). 因此,, 的意见和链接的博客帖子上面最后一句话…

换言之: 知道数据源, 知道正确的工具,你可以随时为自己塑造一个解决方案的情况…. 真正bioinformaticists编写代码

是的, 真正bioinformaticists编写代码, 但这个建议是不够​​的其他 90% 谁不真正的科学家. 映泰也许是解决不了问题 (我怀疑很多的这些问题,他指出,被要求是由非bioinformaticists那些谁只能有一个基本的, 如有, 获取知识的编码,也没有对那些谁). 也许这, 或者类似的, 可.

提示的周: PhylomeDB

基因的系统发育 (而不是物种的系统发育) 可以是非常有用的基因功能确定, 历史, 直向和谬误推理预测. PhylomeDB (链接已添加!) 是一个数据库的基因谱系 (或打电话给他们,因为他们, Phylomes。. 有没有“omes? :). 目前有超过一打的,比如人类和酵母品种,如phylomes. 该数据库允许你获得的基因系统发育的基因身份证或急, 你也可以直向预测和路线,更. 今天的技巧是你介绍到数据库.

新NCBI的图像数据库

玛丽 文件提出了一个刚刚 我们缺少什么时,数据挖掘文件: 人物和传说人物.

输入 NCBI的影像资料库. 这很新的数据库包含了超过 3 万是在全文本资源找到的图片 (我. PubMed的环) 在NCBI的. 因此,, 我做了搜索 “果蝇系统发育” 并发现了一些伟大的图片和数字. 结果不但拉出图, 而且图例. 我得到了 200 结果. 在搜索结果中的数字图书的链接可直接进入数字. 下面的图例你可以看到链接到全文. 这是一个很好的开始寻找人物和传说人物.

随着这, PubMed的搜索结果现在得到增强 从这个数据库图像 (如果, 记得, 文章是在全文本资源。. 但 随着时间的推移出版了大量的研究

美国国立卫生研究院的经费将去那里会不会?). 例如, 去这个抽象的纸张 “文本挖掘和手动策展的化学基因疾病的网络数据库的比较毒理基因组学.” 向下滚动,只是有点, 你会看到这个文件的数字, 已存放在NCBI的图像数据库. 你可以直接到链接到所有的数字或报纸.

当然, 正如, 不是所有的文章将在数据库中的图像, 只有那些存放在PubMed中. 你会找到你的搜索不会有很多条,因为这种形象并不杂志存放在那儿 . 但随着 3 多万张图片和杂志文章,每天去给PMC, 这个数据库和PubMed的功能可能被证明是非常有用.

Hattip: APD的在 温深电导 :)

我们有部件

提到的其他’ 部件前. 他们可以在网站和博客很方便的工具添加内容和有益的互动搜索, 等.

嗯, 现在,我们有我们自己的. 由于许多人都知道我们的读者, 我们有一个 基因组学和生物信息学的搜索引擎,可以帮助研究人员找到数据库和分析工具,它最适合自己的需要. 键入一个词,你会得到一个基因组资源的列表中排队的相关性排名. 此外, 您可以看到我此外锅>(资源网站,或在我们的教程或博客是否有)在该条款被发现。 (资源网站, 或在我们的教程或博客是否有) 在该条款被发现. 此外, 你会发现我们已经创建了近教程 100 其中, 大约一打免费向用户 如临时区议会, SGKB, UCSC基因组浏览器, 和 另一 80 通过订阅左右.

无论如何, 你现在可以把搜索 (这当然是公开的) 在您的博客或网站上使用一个我们刚刚创建的小部件有 (由 同样的人 谁帮助我们创建数据库搜索). 我们有三种规格,你可以找到为他们在这个页面上的代码.

你还会看到我已经把在右边的小部件在这里的博客. 你可以把一个长期在那里测试一下. 它会打开我们的另一页搜索结果. 试试吧!

提示的周: 波, 网络分析Variome

今天星期的提示是一个简短的介绍 波, 或者是Variome网络分析. 该工具是最近向我们介绍, 而且我发现这是一个欢迎介绍的工具提供给研究人员分析人体变异. 这是中肯的,我们考虑到最近的报告中一直在一个个人基因组的临床评估讨论 (这里, 这里这里) 而报纸的影响个性化的医药和网上资源的利用变化. 波也有向我介绍了一些我没有意识到或者其他工具, 或没有使用, 这可能是使用如: LOVD (莱顿打开变异数据库), QuExT (查询扩展工具, 也可以从同一个开发商波), 和其他人. 当然也有数据库中的信息被从Ensembl, Reactome, KEGG的, InterPro, 临时区议会վ, UniProt, NCBI和许多其他. 花一些时间来检查出来.

客户后: CHOP方案的新工具, CNV的研讨会 – 盖小武

这是我们持续半常客邮编下一个职位是从小武盖, 的 生物信息学在Chop核心主任 . 如果你是一个自由提供商, 公开的基因组学工具, 资料库或资源,并希望转达对我们的客户后的东西给用户的功能, 请随时联系wlathe的AT openhelix我们点com.

办学感谢玛丽 在本周的 - “印章CNV的数据库” 几个月后. CHOP方案CNV的数据库是一个高解析度的全基因组拷贝数变异的大量调查 (2,026) 显然是健康人. 这是公开访问,并已广泛的研究组大量采用世界各地. 我现在高兴地宣布,我们背后的软件系统公开发行: CNV的研讨会. CNV的车间是一个软件工具,我们在过去几年发展. 它提供了一个全面的工作流程分析, 管理, 和可视化基因组拷贝数变异 (CNVݿ) 数据.

它可用于几乎任何CNV的研究或临床项目由为个人提供样品和下列功能队列研究:

CNV的识别
实现了一个二元分割算法的改进循环,降低误报
的敏感性/特异性管理层完全可配置参数
注解
个别位点的具体说明,如位置, 变异型, 呼叫指标, 并与其他数据的CNVs重叠集, 包括基因组变异数据库.
如受影响的基因的功能基因注释和已知疾病协会
接受用户提供的注释
介绍
GBrowse功能用于查询的视觉效果, 浏览, 解释, 和报告的CNVs
结果导出到Excel中, XML的, CSV格式, 文件和床
直接链接到公共资源,如UCSC基因组浏览器, NCBI的请进, Entrez基因, 与寓言
项目和帐户管理
身份验证和权限计划,尤其是有用的临床诊断设置
分析结果之内和项目之间共享
基于Web的简单管理界面
启用远程访问和管理

CNV的基因分型,从目前接受车间Illumina的550k数组数据, 610- 和660的四, 和Omni阵列, 随着Affymetrix公司的 5.0 和 6.0 阵列, 并且可以很容易地配置为接受来自其他平台的数据. 该软件包预装公开引用数据来自超过 2,000 健康对照组 (ChoP的CNV的数据库). CNV的研讨会还允许用户上传已处理新生血管的批注和演示要求.

该软件包是免费提供的 銈://sourceforge.net /项目/ CNV的/. 它也进行了更详细的 我们最近的文件的BMC生物信息学.

-盖小武

即将到来, 客户篇

问候! OpenHelix博客是实行新的半周的特点. 我们有我们的每星期三 “提示的周,” 上周四我们有我们的 “什么是你的问题,” 现在偶尔上周二,我们将有我们 “提供客户后。” 这将是从基因组学工具和数据库提供职位,并将于意见, 更新和资源即将发布的功能, 无论是资源提供者想传达给使用者. 我们已经为即将到来的排队几个星期,, 所以要重新检查.

此外, 如果你是一个开发人员或免费提供的一, 公开的基因组学和生物资源, 数据库和分析工具,并希望在我们的客人后功能, 无论是引进到您的工具, 更新或即将发布的功能,甚至是对基因组学研究和数据的当前状态的意见, 请写上wlathe的AT openhelix我们点com. 我们会喜欢把队列中的下一个客户后,你.

我们的第一个客户后将会从下周二 英娜Dubchak , 在劳伦斯伯克利国家实验室的首席研究员/珍古道尔研究小组, 开发商的 Vista资源比较基因组学 (谁 赞助商的教程, 免费提供给用户). 她将讨论Vista中的某些新的工具和给你一些新的快速预览即将到来的特点.