相关动态
【生物信息学学习】第一天:生物数据库使用
2024-11-10 17:30

【生物信息学学习】第一天:生物数据库使用

本文内容均来自山东大学生物信息学课程

这一篇文章主要介绍生物信息学需要用到的各个数据库

由于数据库的数量众多,本文将对数据库进行一个分类,并选取其中几个重要数据库进行分析。

核酸数据库蛋白质数据库专用数据库NCBI-GenBankPubMedEEMBL-ENADDBJ

你的导师给你扔来了一大段基因序列让你去研究,该如何进行呢? 你头大,你去问你师兄。你的师兄告诉你,这一段序列十分的像dUTPase。 但什么是dUTPase呢?你的师兄不告诉你

这时候我们就需要借助自己的力量,使用PubMed来解决

PubMed是拥有超过两百四十万的生物医学文献。它们来源于MEDLINE(生物医学文献数据库)、生命科学领域数据杂志以及在线的专业书籍。 PubMed链接: http://www.ncbi.nlm.nih.gov/pubmed

在PubMed中进行搜索 关于PubMed搜索的相关内容,通过WoS的知识进行理解。(后续会更新WoS搜索相关文章

(1)搜索1995年前文献中排名是为以后的作者 (2)搜索1976年以前的文献是没有摘要的 (3)1965年前的文献较难搜索

通过PubMed我们了解到dUTPase到底是什么: dUTP焦磷酸酶(dUTPase)是DNA合成中的一种关键酶,广泛分布于真核、原核细胞以及病毒等生命有机体内。该酶能够水解细胞质中的dUTP,从而最大限度地减少尿嘧啶在DNA合成中的错误插入,降低细胞中dUTP/dTTP的比例,维持基因组复制的保真度和顺利进行。

当你对导师的任务有了一个初步的了解,之后就该去干活惹。那我们在哪里获取核酸的数据呢

GenBank是由美国国家生物技术信息中心(NCBI)开发并负责维护,隶属于美国国立卫生研究院(NIH)。 GenBank数据库: http://www.ncbi.nlm.nih.gov/

 

解读GenBank

恭喜!到了这一阶段,说明你已经开始渐渐习惯打工人的生活了。我们现在开始学习你该学会的第一个技能解读一级核酸数据库

在这一章,我们用真核生物和原核生物作为例子,来了解两者的基因在数据库中不同的存储以及注释方式

首先,我们得明白,为什么他们之间为何存在不同

ProkaryotesEukaryotes基因组大小0.5-91 million bp10-670,000 million bp基因密度one gene / 1,000 bpone gene / 100,000 bp编码区含量70%5%基因是否线性分布是否mRNA有无内含子无有

原核生物核酸数据库解读

当你了解到了真核生物和原核生物的区别之后。你的导师又跑来找你,让你搜索一下大肠杆菌(原核生物)dUTPase的DNA序列:X01714

那这时候我们就可以通过上面的几个数据库,轻松地得到对应的信息,X01714的DNA序列如下:

 

观察数据的第一行,是不是一时有些懵?这一段代表的是什么意思呢?用中文标记一下,或许更有利于理解

LOCUSX017141609bpDNAlinearBCT 23-0CT-2000基因座名核酸序列长度分子的类别拓扑类型更新时间

以下是剩余的几行相关术语的注解

ACCESSION:检索号在数据库中是唯一旦不变的,即使数据提交者改变数据内容。ACCESSION不一定和IOCUS相同。(原因:LOCUS是真实姓名,ACCESSION是编号。同一个基因只有一个名字,但可以在不同的数据库中有不同的编号。

VERSION:版本号的格式是“检索号.版本编号”。版本号于1999年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变。 (例如:由U12345.1变为U12345.2。

GI (Genlnfo Identifier)号:与前面的版本号系统是平行运行的。当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号將增加。

KEYWORDS:能够大致描述该条目的几个关键词。

SOURCE:基因序列所属物种的俗名。

ORGANISM:对所属物种的更详细定义,包括他的科学分类。

REFERENCE:基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。文献具体分为作者、题目和刊物。刊物还包括PubMedID作为其子条目。

COMMENT:自由撰写内容,比如致谢或者无法归入前几类的内容。

FEATURES(重要信息: 描迷核酸序列中各个已确定的片段区域,包含很多子条目,比如来源(source),启动子 (ptomotet)等。 source:说明了核酸序列的来源,据此可以容易地分辦出该序列是来源于克隆載体还是基因组。当前序列(全长)来源于大肠杆茵的基因组DNA。 promotet:列出了启动子的位置。复习:细菌有两个启 动子区,一个-35区(5’-TTGACA-3〞)位置在第286 个碱基到第291个碱基,一个-10区(5’-TATAAT-3〞) 位置在第310个碱基到第316个碱基。 misc_ featute:混合内容。比如,这条说明了从第322个 碱基到第324个碱基是一个推测的(putative,推定,但无实验证实) 转录起始位置。 RBS (Ribosome Binding Site):核糖体结合位点。 CDs(CodingSegment):记录了一个ORF(open reading frame,从第343个碱基开始的ATG(起始密码子)到第798个碱基结束的TAA(结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。

 
 
 

终于,我们把X01714的信息给解读完了,但此时还不能休息

我们还需要学会如何下载其信息,我们直接采用ctrlcv大法是不行的。我们把界面翻到最上面,可以看到两个选项:FASTA和Graphics。

点击FASTA我们可以获取FASTA格式的核酸序列信息,点击Graphics可以获取序列的图形概览。

在这里插入图片描述

真核生物核酸数据库解读

你的导师又派给了你一个任务,去研究一下人(真核生物)dUTPase的成熟mRNA(U90223)序列信息。

根据上文所述的技巧,我们可以得到真核生物的序列信息

 

观察这一大串符号我们可以发现,真核生物和原核生物在数据库中的数据排列方式很类似,但是却出现了两个不一样的条目

 

mat_peptide 270…818的编码位置与 CDS 343…798相差了三个碱基,为什么 回答:在这一段序列最后的三个氨基酸为编码区的终止密码子(不翻译

新任务:研究一下人(真核生物)dUTPase的基因组DNA序列信息(AH005568

 

我们观察FEATURES段

 

第五行的 /map=“15q15-q21.1”,指出了该序列属于第15号染色体,更精确地说是该染色体的长臂q上的q21.1条带内。

 

gen指出了完整基因的具体位置。

 

mRNA指出了所有外显子的具体位置,mRNA中的基因串起来相当于完成了剪切的过程,就是成熟的mRNA。

值得注意的是,剪切后的mRNA有两种

 

上方的mRNA在前端多一个外显子,这一块将被翻译为定位线粒体的信号肽,从而翻译出线粒体型的蛋白质。下一种没有信号肽的,将形成细胞核型蛋白质。

 

exon段表示的含义是:当前序列所包含的282-561号碱基是“DUT”基因的第一个外显子。

欧洲核苷酸序列数据集(ENA)是由欧洲分子生物学研究室(EMBL)开发并维护。 ENA数据库: http://www.ebi.ac.uk/ena/

日本DNA数据库(DDBJ,由位于日本国立遗传学研究所(NIG)开发并负责维护。 DDBJ数据库: http://www.ddbj.nig.ac.jp/

INSDC是三家数据库共同组成的国际核酸序列数据库合作联盟,通过每日的数据共通,使得他们几乎在任何时候都享有相同的数据。 INSDC数据库: http://www.insdc.org/

这部分我们来学习使用Ensemble基因组数据库

Ensemble链接: http://www.ensembl.org

Ensembl是由欧洲生物信息学研究所(EBI)和英国桑格研究院合作开发。Esemble收入了各种动物的基因组,特别是那些离我们人类相近的动物。这些基因组的注释都是通过配套开发的软件自动添加的。

通过点击上方的连接我们可以前往Ensemble的官网。 在这里插入图片描述 从中我们可以获取到染色体一览图等信息在这里插入图片描述 点击DNA条段,可以进入查看条段的详细信息。从上文的学习可以得知,DUT基因位于15号染色体的长臂条段21.1附近,我们进入这条条段查看一下。

点击条段进入

在这里插入图片描述

进入之后可以看到该条段的详细信息

在这里插入图片描述

我们在基因图谱中找到DUT基因,并以其为中心放大

在这里插入图片描述

点击DUT基因在Ensemble数据库中的检索号,便可以得到该基因在数据库中的详细记录。

在这里插入图片描述

JCVI链接: http://www.jcvi.org

美国基因组研究所(TIGR)致力于为生物基因组的研究,也有部分植物基因组项目。它是克莱格·凡特研究所(JCVI)的一部分,自1995年成立之初的两个基因组,至今已有超过700个基因组。TIGR是NCBI基因组资源的有力补充,因为它不仅拥有已经完成测序的基因组,还有哪些测序中的基因组信息。

二级核酸数据库包含的内容很多,经常会用到的几个数据库有:NCBI下属的RefSeq数据库,dbEST数据库以及Gene数据库。

RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。

dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签(EST

Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录

ncRNAdb:非编码RNA数据库,提供非编码RNA的序列和功能信息。包含来源于99种细菌,古细菌和真核生物的3万多条序列。

ncRNA链接: http://biobases.ibch.poznan.pl/ncRNA/

miRbase:主要存放已发表的microRNA序列和注释。可以分析microRNA在基因组中的定位和挖掘miRNA序列间的关系。

miRbase链接: http://www.mirbase.org/

    以上就是本篇文章【【生物信息学学习】第一天:生物数据库使用】的全部内容了,欢迎阅览 ! 文章地址:http://mip.xhstdz.com/news/2686.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://mip.xhstdz.com/mobile/ , 查看更多   
最新文章
国际站:SEO Checker诊断工具助力商家诊断详情页,提升seo效果
国际站商家看过来:众所周知,一个优质的商品描述,可以提升买家转化的同时,还可以带来更多免费流量,从而让商家获得更多询盘和
【富蕴网站优化】在网站优化中有哪些常用的网站推广方式?
1、,百度,google的优化,针对,音乐,mp3下载,电影、游戏等一级,二级,甚至关键字优化。Seo介绍的网站很多,就不在这里重复
公众号简单爬虫--把公众号文章全部转载到网站(二)
根据上一篇的方法,我们得到了一个获取列表信息的地址,而且是用get方法就可以的地址.那么事情就变得很简单了,就是常规的爬取信息
1.【typecho】个人博客安装—使用群晖演示
哈喽,大家好今天给大家带来的是最近在群晖上安装一个博客的演示。先给大家看一下安装好之后的效果。虽然说现在使用博客和看博客
SEO优化攻略,揭秘网站排名提升与流量最大化技巧
本文深入解析SEO优化策略,通过关键词研究、高质量内容创作、链接建设等技术手段,帮助提升网站在搜索引擎中的排名,从而实现流
【HMNOTE搜狗手机输入法下载】小米HMNOTE搜狗手机输入法12.1.1免费下载
搜狗输入法,拥有超大中文词库,输入更加精准,智能。搜狗智能旺仔带你用表达,斗图,妙语,输入更加有趣。******特色功能******
vivo S19 Pro:全焦段人像拍照的5G游戏续航新宠
在智能手机市场日益同质化的今天,vivo S19 Pro以其独特的全焦段人像拍照功能、强大的5G性能以及出色的游戏续航能力,成为了众多
12月12日,星期四, 每天60秒读懂全世界!
新闻来源:百度热搜榜1. 25年老员工被开除 法院判赔98万近日,工作25年的李某被安排学习员工手册,全程玩手机遭公司开除,引发热
刚子扯谈:网站运营在左 技术在右 真TM扯
2013年8月5日,雨未下,天猴焖开片语:今天的扯谈内容是我转载我Java学习交流群里面一个哥们,当然我推荐他加入了朋友的网络分析
做seo营销网站/百度惠生活商家入驻
假定我们定义了一个Persion的message type,我们的用法可能如下定义 和 package tutorial;message Person {required int
相关文章