搜档网
当前位置:搜档网 › 怎么用NCBI

怎么用NCBI

怎么用NCBI
怎么用NCBI

一步一步教你使用NCBI 查找DNA、mRNA、cDNA、Protein、promoter、引物设计、BLAST

序列比对等

最近看到很多战友在论坛上询问如何查询基因序列、如何进行引物设计、如何使用

BLAST 进行序列比对……,这些问题在NCBI 上都可以方便的找到答案。现在我就结合我自

己使用NCBI的一些经历(经验)跟大家交流一下BCBI 的使用。希望大家都能发表自己的使

用心得,让我们共同进步!

我分以下几个部分说一下NCBI 的使用:

Part one 如何查找基因序列、mRNA、Promoter

Part two 如何查找连续的mRNA、cDNA、蛋白序列

Part three 运用STS 查找已经公布的引物序列

Part four 如何运用BLAST 进行序列比对、检验引物特异性

特别感谢本版版主,将这个帖子置顶!

从发帖到现在,很多战友对该帖给与了积极的关注,在此向给我投票的(以及想给我

投票却暂时不能投票的)各位战友表示真诚的感谢,谢谢各位战友!

请大家对以下我发表的内容提出自己的意见。关于NCBI 其他方面的使用也请水平较高

的战友给予补充

First of all,还是让我们从查找基因序列开始。

第一部分利用Map viewer 查找基因序列、mRNA 序列、

启动子(Promoter)

下面以人的IL6(白细胞介素6)为例讲述一下具体的操作步骤

1.打开Map viewer 页面,网址为:https://www.sodocs.net/doc/1c2668522.html,/mapview/index.html 在search 的下拉菜单里选择物种,for 后面填写你的目的基因。操作完毕如图所示:

2.点击“GO”出现如下页面:

3.在步骤二图示的右下角有一个Quick Filter,下面是让你选择的几个复选框,在Gene 前面的小方框里打勾,然后点击Filter. 出现下图:

说明一下:1、染色体的红色区域即为你的目的基因所处位置。2、下面参考序列给出了

三个,是不同的部门做出来的,经我验证,序列有微小的差异,但总体来说基本相同。尽管你分别点击后,序列代码、序列代码等有所差异,但碱基基本一致,不影响大家研究分析序列。现在普遍采用的是最上面的那个序列,这一条是世界范围的生物科学家用计算机合成的一个序列。我也推荐大家使用这个序列。

4.点击上述三条序列第一条序列(即reference)对应的"Genes seq",出现新的页面,页面下方为:

5.点击上图出现的“Download/View Sequence/Evidence ”,即下载查看序列等功能,

结果如图所示:

先对上面这张图做点简要的说明,在Sequence Format(序列输出格式)后面是一个下

拉式选择菜单,默认的为FASTA 格式,还有一个是GenBank 格式。我推荐大家选择GenBnak

格式,因为这个格式提供了很多该基因的信息,而FASTA格式只有基因序列。

6.在Sequence Format 后选择GenBank,然后点击下面的Display,目的基因的相关信息和序列就出现在眼前了。点击后如图所示(网页较大,只抓取一小部分以作示范):

在上述打开的网页中,你可以看到基因长度,基因序列,以及这个基因是如何被报道出

来的等各种信息。

你会看到: mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394)

这代表了从基因的3598位开始就是转录区了,即我们常说的mRNA 片断,由于内含子的存在,

所以mRNA 在DNA 序列上分成了几段。

CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970)

CDS 代表编码序列,即蛋白编码区是从3660 开始的(ATG),由于剪接作用所以CDS 区也是不连续的。

说到这里,可能很多朋友都已经明白了promoter 即启动子区域在哪里了。但我还是再

唠叨几句:转录起始位点前面是基因的调控区,启动子区没有明显的位置定义,大家也只是猜测它的大体位置,如果你要研究promoter 区的话,建议你选择转录起始位点前的2000 个碱基进行研究,一般默认的是这样。当然你如果觉得长度太长不好研究的话,也可以只研究-1000 到0这一千个碱基,因为一般情况下,启动子区的变异都在这个区域内。

这样大家就可以找到自己的目的基因序列和启动子了,这种方法可能使用的人不是很

多,但我个人比较喜欢,因为它最大的优点是可以找到启动子区域和其他调控区域。希望大家可以发帖交流,让我们把NCBI 用的更好!

6

第二部分如何查找连续的mRNA、cDNA、蛋白序列(依

然以人类的IL6 为例)

1.进入NCBI 主页:https://www.sodocs.net/doc/1c2668522.html,/

在search 后面选择Gene,在for 后面填写需要查找的基因的名字。如图所示:

出现了很多基因序列,在每个序列的右边还有“Order cDNA clone” 的链接,这些序

列中有些序列是跟你的目的基因同名的,有些是别名(Other Aliases)与你的目的基因一致,根据每个序列的介绍认真选择你的目的基因。上图中我需要的IL6 是标号为2的序列。

2.1 查找cDNA 序列

2.1.1 点击Order cDNA clone, 出现目的页面如图所示:

2.1.2 点击Clone Sequence 后面的链接即可得到cDNA 序列。点击后如图所示(只抓

取其中一部分)

2.2 查找mRNA、蛋白序列

回到步骤1 点击“Go”之后出现的页面,点击目的基因的名字,出现以下页面 (只抓取相关部分):

页面的下半部分,即可以获取mRNA和蛋白序列的部分:

找到“NCBI Reference Sequences (RefSeq)”,它分为几个板块,第一个“mRNA and Protein ”区可以让我们找到连续的编码mRNA 序列和蛋白序列。在mRNA and Protein下面有两个序列代码(中间划有一个箭头),这代表了mRNA序列和蛋白序列。分别点击就可

以得到相应的序列页面。点击后如图所示,mRNA 序列:

NCBI Reference Sequences (RefSeq)的第二个板块是Reference assembly,它下面显示的是Genomic ,点击Genomic 下面Reference assembly 对应的Genbank 或FASTA 即可出现编码的DNA 序列(注意:只是编码序列,其中包括内含子,但一般没有5…非编码区)。一步就不做贴图演示了吧,

呵呵。这样我们就可以找到基因的cDNA 序列、连续的编码mRNA 序列、蛋白序列以及含有内

含子的编码DNA 序列了。相信这些操作对很多战友还是有用的。

如果大家有更好的方法,欢迎发帖交流!

友情提示:在NCBI 里打开的每一个页面都会给我们提供大量的信息,大家不妨好好看看,可能会有令我们惊喜的收获!

最后唠叨一句:最近我实验比较忙,只能在深夜发帖,可能要过几天再发第三部分[Part three 运用STS 查找已经公布的引物序列],希望“期待下集”的朋友可以理解。

第三部分运用STS 查找已经公布的引物序列

STS,序列标签位点(Sequence Tagged Site):一段短的DNA 序列(200-500 个碱基

对),这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR 反应中可以

检测处STS 来,STS 适宜于作为人类基因组的一种地标,据此可以判定DNA 的方向和特定序

列的相对位置。

以上内容基本是STS 的定义,我主张活学活用,下面就介绍一下我个人用STS 数据库查找引物的一点经验。

还是使用人的IL6 基因为例,呵呵

1.打开NCBI 主页,在Search 后面的下拉菜单选择UniSTS,在FOR 后面填写目的基

因。

操作完毕如图所示

这是你会发现NCBI 又提供了很多序列,下面我们还是要初步筛选我们需要的序列。2.根据物种、目的引物所在染色体的位置等选择相应序列(可能不只一个),点击。下面以点击第一个进入的画面为例。

你会发现这个页面直接就给出了引物序列,PCR之后的片段长度也是给了的(247bp)。下面还有很多相关的信息……

3.点击GeneBank Accession 后面的代码,进入下一个页面。

啊!前后引物都呈现在眼前了,还有反应体系和反应条件!其中Primer A 是前引物序列,Primer B 则是后引物序列,并且给出了他们在DNA 序列中的位置。有兴趣的朋友可以

在序列中找一下,是可以找到的,不过要注意,PCR 是双链扩增,在序列中可以直接找到

的是Primer A 的原序列和Primer B的互补序列。

在步骤二里面我只点开了一个序列,继续打开其他的可能还会有对自己有用的引物,不

过这要你自己慢慢发掘了。

这种寻找引物的方法有点投机取巧的味道,实用程度不是很高,但如果这里面恰好有你

想P 的片段的话,恭喜你,这些引物都是很成熟的引物,可以直接拿过来使用了。

如果想寻找引物,大家可以查阅相关论文,已经报道的引物我们为什么不用呢?!既省

时间,可靠性又强。

如果这两种方法都不能找到你需要的引物的话,那就自己设计吧,建议使用Primer 5 和

Oligo。引物设计的详细内容我在这里就不多说了,推荐两个帖子给大家看一下,第一个是本版版主liuzeyi2002 发起的,内容很丰富,很值得学习,另一个则是我发的。

https://www.sodocs.net/doc/1c2668522.html,/bbs/post/view?bid=64&id=9517792&sty=1&tpg=1&age

=0

https://www.sodocs.net/doc/1c2668522.html,/bbs/post/view?bid=67&id=9523263&sty=1&tpg=1&age =0

第四部分如何运用BLAST 进行序列比对、检验引物特异性

提到序列比对,绝大多数战友都会想到BLAST,但BLAST 的使用确实又是一个很大的难

题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指

标)又很多。如果把BLAST 的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况

我自己也不是完全懂得BLAST 的使用。所以我在这里也就“画龙点睛”——以比对核酸序列

为例来给大家介绍一下BLAST 的使用,也算是BLAST 的入门课程吧。请看帖的战友好好体会,

如果你用心看,在看帖完毕之后BLAST 的基本使用(包括其他序列的比对)应该没有问题

了。

1.打开BLAST 页面,

https://www.sodocs.net/doc/1c2668522.html,/BLAST/打开后如图所示:

对上面这个页面进行一下必要的介绍:

BLAST 的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic

BLAST、Specialized BLAST。相信大家可以看懂这三个短语的意思,我就不多说了;我要说

的是,可以认为这是三种序列比对的方法,或者说是

BLAST 的三条途径。

第一部分BLAST Assembled Genomes 就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。

第二部分Basic BLAST 包含了5 个常用的BLAST,每一个都附有简短的介绍。

第三部分Specialized BLAST 是一些特殊目的的BLAST,如IgBLAST、SNP 等等,这个

时候你就需要在Specialized BLAST部分做出适当的选择了。

总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST 途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其

他序列比对的方法。

2.点击Basic BLAST部分的nucleotide blast 链接到一个新的页面。打开后如图所

示:

介绍一下上述页面:

Enter Query Sequence 部分是让我们输入序列的,你可以直接把序列粘贴进去,也可

以上传序列,还可以选择你要比对的序列的范围(留

空就代表要比对你要输入的整个序列)。

Job Title 部分还可以为本次工作命一个名字。

Choose Search Set 部分是让我们选择要与目的序列比对的物种或序列种类(genome

DNA、mRNA 等等)。如果是人或老鼠的话,就可以直接选择了如果是其他物种就要选择“others”了,这时候网页会主动跳出一个下拉对话框和一个输入式对话框,你可以分别选择和输入要跟你的序列比对的序列种类和物种。下面的Entrez Query 可以对比对结果进行

适当的限制。

Program Selection 部分其实是让我们选择本次比对的精确度,种内种间等等。

在BLAST 按钮下面有一个“Algorithm parameters” ,这是参数设置选项,一般用户

使用不到此项,所以它比较隐蔽,点击,原网页下方即可增加了Algorithm parameters 的

内容。大部分战友都用不到更改这里面的选项,我也

NCBI在线BLAST使用方法与结果详解

N C B I在线B L A S T使用方法与结果详解 IMB standardization office【IMB 5AB- IMBK 08- IMB 2C】

N C B I在线B L A S T使用方法与结果详解 BLAST(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 NCBI的在线BLAST: 下面是具体操作方法 1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。 2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。 3,blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。最后会说明一下。 4,注意一下你输入的序列长度。注意一下比对的数据库的说明。 5,blast结果的图形显示。没啥好说的。 6,blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。7,blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一

ncbi中文说明书

NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心 [url]https://www.sodocs.net/doc/1c2668522.html,/[/url] NCBI是NIH的国立医学图书馆(NLM)的一个分支。 NCBI提供检索的服务包括: 1.GenBank(NIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释过的收集。GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为它已经有来自47000个物种的30亿个碱基。 2.Molecular Databases(分子数据库): Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整理核酸序列,提供直接的检索。 Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源中编译整理的,方便研究者的直接查询。 Structure(结构)-——关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。 Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。 3.Literature Databases(文献数据库) (1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。 (2)PMC/PubMed Center:也是NLM的生命科学期刊文献的数字化存储数据库,用户可以免费获取PMC的文章全文,除了部分期刊要求对近期的文章付费。 (3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由Victor A.McKusick和他的同事共同创造和编辑的,由NCBI网站负责开发,其中也包括对MEDINE众多资源和Entrez系统的序列记录,以及NCBI中其他有关资源的链接。

ncbi中查找基因序列的方法和三个登录号

ncbi中查找基因序列的方法和三个号码 一.例子:查找酿酒酵母(Saccharomyces cerevisiae)里的海藻糖合成酶基因(tps1) 即可出现很多条目,找到Saccharomyces cerevisiae的就是NC_001134了,点击后就进入该基因所在染色体的界面了,再在“编辑”中“查找”tps1就可以看该基因所在的位置,再点击CDS或者GeneID:852423都可以出现相关链接! 当然,如果你在文献查到目的蛋白的序列号如NP_009684.1或者GeneID:852423,那分别在Search后选择Protein或者Gene也可以出现相关链接! 二.基因CDS区界面的3个号码 https://www.sodocs.net/doc/1c2668522.html,/entrez/viewer.fcgi?val=50593115&from=488899&to=490386& view=gbwithparts 找到后,我发现该界面有3个标记,一个是NC_001134 ,其次是gi:50593115,最后是FEATURES中的gene中的/db_xref= “GeneID:852423”,他们分别是什么号码,用在什么地方呢?尝试中,终于发现, 在Search“Nucleotide”或者“Core Nucleotide”时,for后面是NC_001134,最终go 到该基因所在染色体全长序列的信息,所以NC_001134应该是该染色体的登录号吧? 在Search“Nucleotide”或者“Core Nucleotide”时,for后面是50593115,最终go到该基因所在染色体全长序列的信息,所以50593115应该是该染色体的号吧? 在Search“Gene”时,for后面是852423,最终go到该基因的信息,所以852423应该是该基因的登录号吧?所以我们如果要记住目的基因在ncbi中的位置就记住这个GeneID! 其他像NP_009684当然是基因编码的蛋白质的登录号啦,不说了。 我们在文献中查到的基因往往给的是Gene ID 三.引物设计第一步--找编码序列的方法 在Search“Gene”时,for后面是852423,最终go到目的基因的信息

ncbi的使用方法

NCBI(美国国立生物技术信息中心)资源介绍及使用手册 作者:未知来源:中科院上海生命科学研究院生物信息中心时间:2006-12-27 NCBI 资源介绍 本文目录: NCBI(美国国立生物技术信息中心) 简介 NCBI 站点地图 NCBI癌症基因组研究 NCBI-Coffee Break NCBI-基因和疾病 NCBI-UniGene Cluster of Orthologous Groups of proteins (COG)介绍 Gene Expression Omnibus (GEO)介绍 LocusLink介绍 关于RefSeq:NCBI参考序列 NCBI(美国国立生物技术信息中心)简介 介绍 理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。 国立中心的建立 后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立

法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务: 建立关于分子生物学,生物化学,和遗传学知识的存储和分 析的自动系统 实行关于用于分析生物学重要分子和复合物的结构和功能 的基于计算机的信息处理的,先进方法的研究 加速生物技术研究者和医药治疗人员对数据库和软件的使用。 全世界范围内的生物技术信息收集的合作努力。 NCBI通过下面的计划来实现它的四项目的: 基本研究 NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain 和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。 数据库和软件

PUBMED使用说明

第一章进入PubMed魔法学校——PubMed 概述 无论何时何地,你只要在浏览器地址栏中输入:https://www.sodocs.net/doc/1c2668522.html,/pubmed/就可以立刻进入PubMed的界面并开始享受PubMed所给你带来的无穷便利。 进入PubMed的主界面后,首先映入我们眼帘的就是页面上方的检索框和“Advanced search”功能键。这是PubMed的核心部分。在主界面的下方有: ● Journals Database:收录的学术期刊数据库。 ● MeSH Database:检索MeSH数据库。 ● Single Citation Matcher:单引文匹配,输入期刊的信息可以找到某单篇的文献或整个期刊的内容。 ● Batch Citation Matcher:用一种特定的形式输入期刊的信息一次搜索多篇文献。 ● Clinical Queries:这一部分为临床医生设置,通过过滤的方式将搜索的文献固定在4 个范围:治疗、诊断、病原学与预后。 ● Topic-Specific Queries:特定主题的查询。 Related Resources ● Order Documents可以使用户在当地得到文献的全文,但这是要收费的,至于如何免费获得文献全文,我将在后面的有关章节中详述。 ● Grateful Med是对另一个NLM基于网络的查询系统的链接。Grateful Med也提供MEDLI NE的接入,并且还有一些其他的数据库如AIDSLINE、HISTLINE等等。 ● Consumer Health提供与MEDLINE plus的链接,MEDLINE plus是与消费者健康信息相关的国家医学图书馆的网络节点。 ● Clinical Alerts此部分的目的是加快NIH资助的临床研究成果的发布。利用左侧框的这些服务,我们不仅能够进行功能更加强大的检索,而且还能得到不少非常有用的服务。这些都将在后续章节中介绍。 在以后的章节中,我们将逐步深入地了解PubMed,相信通过这些章节的学习,我们可以真正熟练掌握PubMed,从而使自己的工作事半功倍。 第二章 PUBMED简单检索技巧

NCBI资源介绍及使用手册

NCBI资源介绍及使用手册 NCBI资源介绍 本文目录: NCBI(美国国立生物技术信息中心) 简介 NCBI站点地图 NCBI癌症基因组研究 NCBI-Coffee Break NCBI-基因和疾病 NCBI-UniGene Cluster of Orthologous Groups of proteins(COG)介绍 Gene Expression Omnibus (GEO)介绍 LocusLink介绍 关于RefSeq:NCBI参考序列 NCBI(美国国立生物技术信息中心)简介 介绍 理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。 国立中心的建立 后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了

在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务: 建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统 实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究 加速生物技术研究者和医药治疗人员对数据库和软件的使用。 全世界范围内的生物技术信息收集的合作努力。 NCBI通过下面的计划来实现它的四项目的: 基本研究 NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。 数据库和软件 在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。 GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。 GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。最近,GenBank拥有来自47,000个物种的30亿个碱基。 孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合

NCBI_功能详细介绍

GenBank Overview 基本信息 ?什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。 ?纪录样本- 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。 ?访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query 和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。 ?增长统计- 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank 增长)小节。 ?公布通知,最新- 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。 ?公布通知,旧- 同上相同,是过去公布的统计。 ?遗传密码- 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。(向)GenBank提交(数据) ?关于提交序列数据,收到accession number,和对纪录作更新的一般信息。 ?BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除载体) ?Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)?ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE 实验的cDNA序列。 ?GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。 ?HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。) ?STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。 ?注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。 国际核苷酸序列数据库合作组织 ?GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。 ?DDBJ/EMBJ/GenBank特性表—特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。

一步一步教你使用NCBI

一步一步教你使用NCBI 查找DNA、mRNA、cDNA、Protein、promoter、引物设计、BLAST序列比对等 作者:urbest 2007-8-1 苏州大学生命科学学院

最近看到很多战友在论坛上询问如何查询基因序列、如何进行引物设计、如何使用BLAST进行序列比对……,这些问题在NCBI上都可以方便的找到答案。现在我就结合我自己使用NCBI的一些经历(经验)跟大家交流一下BCBI的使用。希望大家都能发表自己的使用心得,让我们共同进步! 我分以下几个部分说一下NCBI的使用: Part one 如何查找基因序列、mRNA、Promoter Part two 如何查找连续的mRNA、cDNA、蛋白序列 Part three 运用STS查找已经公布的引物序列 Part four 如何运用BLAST进行序列比对、检验引物特异性 特别感谢本版版主,将这个帖子置顶! 从发帖到现在,很多战友对该帖给与了积极的关注,在此向给我投票的(以及想给我投票却暂时不能投票的)各位战友表示真诚的感谢,谢谢各位战友! 请大家对以下我发表的内容提出自己的意见。关于NCBI其他方面的使用也请水平较高的战友给予补充 First of all,还是让我们从查找基因序列开始。 第一部分 利用Map viewer查找基因序列、mRNA序列、 启动子(Promoter) 下面以人的IL6(白细胞介素6)为例讲述一下具体的操作步骤 1.打开Map viewer页面,网址为:https://www.sodocs.net/doc/1c2668522.html,/mapview/index.html 在search的下拉菜单里选择物种,for后面填写你的目的基因。操作完毕如图所示: 2.点击“GO”出现如下页面:

Cn3D 4.1中文使用手册

Cn3D 4.1中文使用手册 这是Cn3D 4.1 的使用手册。希望能够向初次使用或是曾经使用过Cn3D 的用户提供一个关于本软件的基本特点的指导。新用户可能希望通过阅读这篇文档来学习如何使用Cn3D,而有经验的用户则可以通过上面的目录和超连接直接跳转到自己感兴趣的章节。 本手册并不是对程序功能的详尽的介绍。在Cn3D 的安装程序里包含有关于 Cn3D 的用户界面和详细功能介绍的帮助文档。—见Cn3D_Commands.chm。 Cn3D 的基本功能 Cn3D 是一个生物分子的三维结构、序列以及序列比对结果的可视化工具。Cn3D 可以将结构与序列的信息紧密的联系起来,这是它与其它软件的一个重要的区别:例如,一名科学家可以很快的从晶体结构中找出与导致已知疾病的突变相关的残基,或是保留同源序列家族的活性位点的残基。Cn3D 可以通过基于结构的序列比较来显示生物分子结构之间的比较,从而了解相关蛋白的那一个结构域在结构与序列上表现得更为保守。同时,可以自定义标签的特性,高品质的OpenGL 的画质,还有多样的文件输出格式,都使得Cn3D 成为文献注释的强大工具。Cn3D 的特色就是通过网络浏览器来作为NCBI 的Entrez 系统的一个辅助工具,但是它也可以作为一个独立的程序来使用。 在版本 4 当中,Cn3D 已经是一个完整的多序列比较编辑器了,除此之外,还包括一条已知序列和其他序列或是其他结构进行比较的算法。你可以新建一个比对结果或是评价一个已有的结果。Cn3D 可以被用来作为比较CDD project内容的基本的辅助工具。(保守结构域数据库) 下载和安装Cn3D Cn3D 可以应用于Windows,Macintosh,和各种UNIX 平台。这几页将说明如何下载和安装Cn3D,并且如何配置网络浏览器来使用Cn3D。 文档约定 Cn3D 的屏幕界面和序列窗体提供各种形式的示例;他们以极小的图片链接到大图。注意最大的图像是以PNG 格式存储的—这依靠所使用的浏览器,浏览这种格式的文件需要一个支持PNG 的辅助程序。Cn3D 的Windows 版可以用来创建这类图像,但是除了平台的用户界面和窗体变框外,图像基本上在任何平台上都是一样的。

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解 BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA 数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 NCBI的在线BLAST:下面是具体操作方法 1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。 3,blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。最后会说明一下。

DNAStar中文说明书

DNAStar中文使用说明书 编者:宋晨 一、EditSeq......................................................................................................................................2 三、 MapDraw................................................................................................................................23 四、MegAlign................................................................................................................................32 五、 PrimerSelect............................................................................................................................42 六、Protean....................................................................................................................................54 七、 SeqMan II 开始 (64) https://www.sodocs.net/doc/1c2668522.html, 生物秀-专心做生物!生 物 秀

PubMed中文使用手册

PubMed中文使用手册 (一)PubMed简介: PubMed是美医学图书馆(NLM)下属的生物技术信息中心(NCBI)开发的、基于WWW的查询系统。 PubMed是NCBI Entrez数个数据库查询系统下中的一个。 PubMed是提供免费的MEDLINE、PREMEDLINE与其他相关数据库接入服务,MEDLINE是一个拥有1亿字条的巨大数据库。 PubMed也包含着与提供期刊全文的出版商网址的,来自第三方的生物学数据,序列中心的数据等等。 PubMed提供与综合分子生物学数据库的与接入服务,这个数据库归NCBI 所有,其容包括:DNA与蛋白质序列,基因图数据、3D蛋白构象,人类孟德尔遗传在线。

(二)页面介绍:(更新很快,但其容变化一般不大) 在你的浏览器中的URL地址框中健 入https://www.sodocs.net/doc/1c2668522.html,/pubmed/ 并单击回车键后,你将进入Pubmed的主页面。如图: 1. 主页面左侧框的介绍(注:Cubby和tutorial为最新加 入的) MeSh Browser你可以用它来分层浏览MesH表 Single Citation Matcher通过填表的形式输入期刊的信息可以找到某单篇的文献或整个期刊的容。

Batch Citation Matcher用一种特定的形式输入期刊的信息一次搜索多篇文献。 Clinical Queries这一部分为临床医生设置,通过过滤的方式将搜索的文献固定在4个围:治疗、诊断、病原学与预后。 Old PubMed(使用以前的PubMed查询方式) 关于每一项的具体使用方法,后面将会有详细介绍。 Related Resources Order Documents提供一种收费性质服务,可以使用户在当地得到文献的全文拷贝(费用与发送方式各不相同)。 Grateful Med是对另一个NLM基于网络的查询系统的。Grateful Med也提供MEDLINE的接入,并且还有一些其他的数据库如AIDSLINE、HISTLINE等等。 Consumer Health提供与MEDLINE plus的,MEDLINE plus是与消费者健康信息相关的医学图书馆的网络节点。 Clinical Alerts此部分的目的是加快NIH资助的临床研究成果的发布。 2.主页面底部的介绍 Disclaimer 在这里可以得到的相关信息,不承诺责任与担保的声明,与NLM下载的相关政策。 Write to the Help Desk发e-mail给NLM消费者服务部。 NCBI|NLM|NIH这里是对创建和维护PubMed的机构网页。 下面将举例说明查询的主体部分,也就是页面上部的使用方法。

mega使用手册

MEGA软件的使用 引言 现代分子生物学所积累的数据库(如美国国家生物信息中心建立的GeneBank等)隐含着大量的生物系统学和生物进化的有用信息。计算机软件是挖掘这些知识宝藏的最有效的工具,而且这些数据库不断快速扩展,信息量十分庞大。因此,如果没有计算机软件的帮助,我们简直无法开战分子系统学和分子进化方面的研究工作。同样,这些数据分析方法和软件在古DNA研究中是必不可少的。 因为有着坚实的分子进化和人类遗传学基础,序列比对分析已经成为重构物种和基因家族进化历史,估算分子进化速率、推断基因和基因组进化过程中自然选择力量的强度等的必不可少的方法和手段。计算机的应用和统计学的介入大大简化这些工作。在这些背景下,Sudhir Kumar、Koichiro Tamura和Masatonshi Nei 和在上世纪九十年代初就发展了Mega遗传分析软件,并不断改进。现在公布了3.0版,增添很多新功能,并使软件使用者能在线取得帮助。 Mega(Molecular Evolutionary Genetics Analysis)是一个界面友好、操作简便、功能强大的分子进化遗传分析软件,也是文献中经常用到的分析软件。尤其是,Mega的新版本对使用界面做了优化,并有改进了许多统计学和遗传学算法,其支持的文件格式很多,而且可以直接从测序图谱中读取序列。另外,Mega 软件还内嵌了一个Web浏览器,能直接登录NCBI网站。 Mega软件操作起来很方便,其界面与传统的Windows程序界面很像,即使初学者也很易上手。 Mega软件功能十分强大,尤其在计算遗传距离、构建分子系统树方面。Mega 软件提供多种计算距离的模型,包括Jukes-Cantor距离模型、Kimura距离模型、Equal-input距离模型、Tamura距离模型、HEY距离模型、Tamura-Nei距离模型、General reversible距离模型、无限制距离模型等。Mega软件可以计算个体之间的遗传距离,还可估算群体间的遗传差异,及群体间的净遗传距离;而其还可以估算一个群体或整个样本的基因分歧度的大小。另外Mega还提供了多种构建分子系统树的方法,包括算术平均的不加权对群法(UPGMA,unweighted pair group method with arithmetic mean),邻接法(NJ,Neighbor-Joining),最大简约法(MP,Maximum Parsimony)、最小进化法(ME,Minimum Evolution)等。在此基础上,Mega软件还提供了对已构建系统树的检验,包括自展法(Bootstrap Method)检验和内部分支检验等。在对于自然选择方面,Mega软件提供了Codon-Based Z 检验、Codon-Based Fisher`s 原样检验t和Tajima中性检验三种方法。总之,Mega 软件提供了构建分子系统树,进行系统发育分析各个方面的计算和分析。 本章将以古DNA数据分析为例,介绍Mega软件的基本原理和方法、使用和操作、以及相关结果的分析。 Mega软件包的下载网址为:https://www.sodocs.net/doc/1c2668522.html,

Primer_Primer_6说明书

Introduction to Primer Premier 1/2 Introduction to Primer Premier Primer Premier is the most comprehensive tool for designing and analyzing PCR primers. Primer Premier 6 designs primers for standard PCR. It automatically interprets the BLAST search results and utilizes a proprietary algorithm to check for possible secondary structures. Homologies and structures are avoided for designing highly specific and efficient primers. Search algorithm finds optimal PCR, multiplex and SNP genotyping primers with the most accurate melting temperature using the nearest neighbor algorithm. Primers are screened for secondary structures, dimers, hairpins, homologies and physical properties before reporting the best ones for your sequence, in a ranked order Primer Premier provides the following major functionalities: Primer design Optimal primers - designs primers free of dimers, repeats and runs. Multiplexing - Pools of primers are checked for cross homologies to reduce primer dimer. Allele Discrimination - designs primers for detection of both wild and mutant alleles. SNP amplification - designs SNP flanking primers to amplify SNPs. Multiplex primers - checks primers for cross reactivity preventing competition in multip lex reactions. Evaluate pre-designed primers - allows the use of previously designed or published primers of standard PCR assays. Designs a compatible primer given an antisense or sense primer. Avoid cross homology - ensures specificity by automatically avoiding homologies found using BLAST. Primer and amplicon BLAST search - BLAST searches primers and amplicons to verify specificity of the design. BLAST search - BLAST searches the entire sequence, designed primers and amplicon to visualize specificity. BIAS T database - searches local custom databases using StandAlone or Desktop BLAST or connects directly to the NCBI server for public databases. Repeat and low complexity regions - optimizes BLAST search parameters to detect repeats and low complexity regions while searching the genomic databases available at NCBI. BLAST result view - provides result view for BLAST searched on the sequence, primer-

怎么使用NCBI[1]

怎么使用NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心 [url][/url] NCBI是NIH的国立医学图书馆(NLM)的一个分支。 NCBI提供检索的服务包括: 1.GenBank(NIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释过的收集。GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为它已经有来自47000个物种的30亿个碱基。 2.Molecular Databases(分子数据库): Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整理核酸序列,提供直接的检索。 Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源中编译整理的,方便研究者的直接查询。 Structure(结构)-——关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。 Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。 3.Literature Databases(文献数据库) (1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。 (2)PMC/PubMed Center:也是NLM的生命科学期刊文献的数字化存储数据库,用户可以免费获取PMC的文章全文,除了部分期刊要求对近期的文章付费。 (3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由Victor A.McKusick 和他的同事共同创造和编辑的,由NCBI网站负责开发,其中也包括对MEDINE众多资源和Entrez系统的序列记录,以及NCBI中其他有关资源的链接。

DNASTAR中文使用说明书

从EditSeq开始 EditSeq是能够迅速、正确地输入,并且修改DNA或蛋白质序列工具。每个EditSeq文件都可以分为三个可编辑的部分,上边的一部分为序列文件,中间的一部分里是评论,底部是序列的注释。 EditSeq能读取大部分的序列格式——包括FASTA,GenBank,ABI、GCG和ASCII格式。你可以使用菜单命令或拖拽方式输入序列文件。另外,序列也许通过使用键盘输入,或者从其他地方复制 、粘贴得到。经Entrez或BLAST检索得到的序列可以直接从因特网或企业内部互联网服务器下载。 序列被打开后,EditSeq能使用标准或者指定的遗传密码进行翻译,或者反翻译,寻找开放读框,还可以进行阅读校对。另外,EditSeq能以GenBank,FASTA和GCG格式输出序列。 如果在使用这软件中需要帮助,可以和DNASTAR联络。电话:(608)258-7420,传真:(608)258-7439,电子信件:support@https://www.sodocs.net/doc/1c2668522.html,,或者经https://www.sodocs.net/doc/1c2668522.html,. 内容 打开已有序列23 寻找开放读框24 DNA序列翻译24 遗传密码选择使用25 遗传密码修改25 序列的反向互补及反向转换26 BLAST检索27 序列信息查看28 序列校读29 序列的保存与输出29 打开已有序列 我们从用苹果计算机打开“TETHIS21MA”和用Windows打开“tethis21.seq”开始。 假设序列的末尾有载体序列污染。我们在用EditSeq打开序列的同时,用Set Ends命令去除5’和3’污染序列。l 从文件菜单(FILE MENU),选择Open。 l 打开文件夹“Demo Sequences”单击选定序列“TETHIS21”。

相关主题