【生物信息学学习】第一天：生物数据库使用

【生物信息学学习】第一天：生物数据库使用

2024-11-10 17:30

本文内容均来自山东大学生物信息学课程

这一篇文章主要介绍生物信息学需要用到的各个数据库

由于数据库的数量众多，本文将对数据库进行一个分类，并选取其中几个重要数据库进行分析。

核酸数据库蛋白质数据库专用数据库NCBI-GenBankPubMedEEMBL-ENADDBJ

你的导师给你扔来了一大段基因序列让你去研究，该如何进行呢？你头大，你去问你师兄。你的师兄告诉你，这一段序列十分的像dUTPase。但什么是dUTPase呢？你的师兄不告诉你

这时候我们就需要借助自己的力量，使用PubMed来解决！

PubMed是拥有超过两百四十万的生物医学文献。它们来源于MEDLINE（生物医学文献数据库）、生命科学领域数据杂志以及在线的专业书籍。 PubMed链接: http://www.ncbi.nlm.nih.gov/pubmed

在PubMed中进行搜索：关于PubMed搜索的相关内容，通过WoS的知识进行理解。（后续会更新WoS搜索相关文章）

（1）搜索1995年前文献中排名是为以后的作者（2）搜索1976年以前的文献是没有摘要的（3）1965年前的文献较难搜索

通过PubMed我们了解到dUTPase到底是什么： dUTP焦磷酸酶（dUTPase）是DNA合成中的一种关键酶，广泛分布于真核、原核细胞以及病毒等生命有机体内。该酶能够水解细胞质中的dUTP，从而最大限度地减少尿嘧啶在DNA合成中的错误插入，降低细胞中dUTP/dTTP的比例，维持基因组复制的保真度和顺利进行。

当你对导师的任务有了一个初步的了解，之后就该去干活惹。那我们在哪里获取核酸的数据呢？

GenBank是由美国国家生物技术信息中心（NCBI）开发并负责维护，隶属于美国国立卫生研究院（NIH）。 GenBank数据库: http://www.ncbi.nlm.nih.gov/

解读GenBank

恭喜！到了这一阶段，说明你已经开始渐渐习惯打工人的生活了。我们现在开始学习你该学会的第一个技能：解读一级核酸数据库

在这一章，我们用真核生物和原核生物作为例子，来了解两者的基因在数据库中不同的存储以及注释方式

首先，我们得明白，为什么他们之间为何存在不同？

ProkaryotesEukaryotes基因组大小0.5-91 million bp10-670,000 million bp基因密度one gene / 1,000 bpone gene / 100,000 bp编码区含量70%5%基因是否线性分布是否mRNA有无内含子无有

原核生物核酸数据库解读

当你了解到了真核生物和原核生物的区别之后。你的导师又跑来找你，让你搜索一下大肠杆菌（原核生物）dUTPase的DNA序列：X01714

那这时候我们就可以通过上面的几个数据库，轻松地得到对应的信息，X01714的DNA序列如下:

观察数据的第一行，是不是一时有些懵？这一段代表的是什么意思呢？用中文标记一下，或许更有利于理解：

LOCUSX017141609bpDNAlinearBCT 23-0CT-2000基因座名核酸序列长度分子的类别拓扑类型更新时间

以下是剩余的几行相关术语的注解：

ACCESSION：检索号在数据库中是唯一旦不变的，即使数据提交者改变数据内容。ACCESSION不一定和IOCUS相同。（原因：LOCUS是真实姓名，ACCESSION是编号。同一个基因只有一个名字，但可以在不同的数据库中有不同的编号。）

VERSION：版本号的格式是“检索号.版本编号”。版本号于1999年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中，如果某条序列数据发生了变化，即使是单碱基的改变，它的版本号都将增加，而它的检索号保持不变。（例如：由U12345.1变为U12345.2。）

GI (Genlnfo Identifier）号：与前面的版本号系统是平行运行的。当一条序列改变后，它将被赋予一个新的GI号，同时它的版本号將增加。

KEYWORDS:能够大致描述该条目的几个关键词。

SOURCE：基因序列所属物种的俗名。

ORGANISM：对所属物种的更详细定义，包括他的科学分类。

REFERENCE：基因序列来源的科学文献（一条基因序列的不同片段可能来源于不同的文献）。文献具体分为作者、题目和刊物。刊物还包括PubMedID作为其子条目。

COMMENT：自由撰写内容，比如致谢或者无法归入前几类的内容。

FEATURES（重要信息）：描迷核酸序列中各个已确定的片段区域，包含很多子条目，比如来源(source)，启动子（ptomotet）等。 source：说明了核酸序列的来源，据此可以容易地分辦出该序列是来源于克隆載体还是基因组。当前序列（全长）来源于大肠杆茵的基因组DNA。 promotet：列出了启动子的位置。复习：细菌有两个启动子区，一个-35区（5’-TTGACA-3〞）位置在第286 个碱基到第291个碱基，一个-10区（5’-TATAAT-3〞）位置在第310个碱基到第316个碱基。 misc_ featute：混合内容。比如，这条说明了从第322个碱基到第324个碱基是一个推测的(putative，推定，但无实验证实）转录起始位置。 RBS (Ribosome Binding Site)：核糖体结合位点。 CDs(CodingSegment)：记录了一个ORF(open reading frame），从第343个碱基开始的ATG（起始密码子）到第798个碱基结束的TAA（结束密码子）。除了第一行的位置信息，还包括翻译产物（蛋白质）的诸多信息。

终于，我们把X01714的信息给解读完了，但此时还不能休息

我们还需要学会如何下载其信息，我们直接采用ctrlcv大法是不行的。我们把界面翻到最上面，可以看到两个选项：FASTA和Graphics。

点击FASTA我们可以获取FASTA格式的核酸序列信息，点击Graphics可以获取序列的图形概览。

在这里插入图片描述

真核生物核酸数据库解读

你的导师又派给了你一个任务，去研究一下人（真核生物）dUTPase的成熟mRNA（U90223）序列信息。

根据上文所述的技巧，我们可以得到真核生物的序列信息：

观察这一大串符号我们可以发现，真核生物和原核生物在数据库中的数据排列方式很类似，但是却出现了两个不一样的条目：

mat_peptide 270…818的编码位置与 CDS 343…798相差了三个碱基，为什么？ 回答：在这一段序列最后的三个氨基酸为编码区的终止密码子（不翻译）

新任务！：研究一下人（真核生物）dUTPase的基因组DNA序列信息（AH005568）

我们观察FEATURES段：

第五行的 /map=“15q15-q21.1”，指出了该序列属于第15号染色体，更精确地说是该染色体的长臂q上的q21.1条带内。

gen指出了完整基因的具体位置。

mRNA指出了所有外显子的具体位置，mRNA中的基因串起来相当于完成了剪切的过程，就是成熟的mRNA。

值得注意的是，剪切后的mRNA有两种：

上方的mRNA在前端多一个外显子，这一块将被翻译为定位线粒体的信号肽，从而翻译出线粒体型的蛋白质。下一种没有信号肽的，将形成细胞核型蛋白质。

exon段表示的含义是：当前序列所包含的282-561号碱基是“DUT”基因的第一个外显子。

欧洲核苷酸序列数据集（ENA）是由欧洲分子生物学研究室（EMBL）开发并维护。 ENA数据库: http://www.ebi.ac.uk/ena/

日本DNA数据库（DDBJ），由位于日本国立遗传学研究所（NIG）开发并负责维护。 DDBJ数据库： http://www.ddbj.nig.ac.jp/

INSDC是三家数据库共同组成的国际核酸序列数据库合作联盟，通过每日的数据共通，使得他们几乎在任何时候都享有相同的数据。 INSDC数据库： http://www.insdc.org/

这部分我们来学习使用Ensemble基因组数据库

Ensemble链接: http://www.ensembl.org

Ensembl是由欧洲生物信息学研究所（EBI）和英国桑格研究院合作开发。Esemble收入了各种动物的基因组，特别是那些离我们人类相近的动物。这些基因组的注释都是通过配套开发的软件自动添加的。

通过点击上方的连接我们可以前往Ensemble的官网。在这里插入图片描述从中我们可以获取到染色体一览图等信息：点击DNA条段，可以进入查看条段的详细信息。从上文的学习可以得知，DUT基因位于15号染色体的长臂条段21.1附近，我们进入这条条段查看一下。

点击条段进入

在这里插入图片描述

进入之后可以看到该条段的详细信息

在这里插入图片描述

我们在基因图谱中找到DUT基因，并以其为中心放大

在这里插入图片描述

点击DUT基因在Ensemble数据库中的检索号，便可以得到该基因在数据库中的详细记录。

在这里插入图片描述

JCVI链接: http://www.jcvi.org

美国基因组研究所（TIGR）致力于为生物基因组的研究，也有部分植物基因组项目。它是克莱格·凡特研究所（JCVI）的一部分，自1995年成立之初的两个基因组，至今已有超过700个基因组。TIGR是NCBI基因组资源的有力补充，因为它不仅拥有已经完成测序的基因组，还有哪些测序中的基因组信息。

二级核酸数据库包含的内容很多，经常会用到的几个数据库有：NCBI下属的RefSeq数据库，dbEST数据库以及Gene数据库。

RefSeq数据库：参考序列数据库，是通过自动及人工精选出的非冗余数据库，包括基因组序列、转录序列和蛋白质序列。

dbEST数据库：表达序列标签数据库，包含来源于不同物种的表达序列标签（EST）

Gene数据库：为用户提供基因序列注释和检索服务，收录了来自5300多个物种的430万条基因记录

ncRNAdb：非编码RNA数据库，提供非编码RNA的序列和功能信息。包含来源于99种细菌，古细菌和真核生物的3万多条序列。

ncRNA链接: http://biobases.ibch.poznan.pl/ncRNA/

miRbase：主要存放已发表的microRNA序列和注释。可以分析microRNA在基因组中的定位和挖掘miRNA序列间的关系。

miRbase链接: http://www.mirbase.org/

以上就是本篇文章【【生物信息学学习】第一天：生物数据库使用】的全部内容了，欢迎阅览！文章地址：http://mip.xhstdz.com/news/2686.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://mip.xhstdz.com/mobile/ , 查看更多