作者:刘吉平 来源:liujiping@scau.edu.cn
生物信息学的概念: 生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。
生物信息学软件主要功能 1.分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 Ø核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF),蛋白编码区(CDS)及外显子预测、RNA二级结构预测、DNA片段的拼接; Ø蛋白:序列同源性比较,结构信息分析(包括Motif,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; Ø本地序列与公共序列的联接,成果扩大。 Antheprot 5.0 Dot Plot 点阵图:
Peptool Lite--- Dot Plot 点阵图
DNASIS 2.5 RNA 二级结构预测 DNASIS 2.5 tRNA 二级结构预测 RNAStructure 3.5 RNA 二结构预测
Omiga 2.0 ORF Map DNAStar 之 Protean 对氨基酸的亲疏水性 分析:helical wheel 图
2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验
⑴用软件设计PCR引物,测序引物或杂交探针;
⑵设计克隆策略,构建载体;
⑶做模拟电泳实验,即模拟核酸内切酶或内肽酶对相应的底物分子切割后的电泳行为;
⑷蛋白跨膜区域分析,信号肽潜在断裂点预测。
Winplas 2.6 质粒构建
Atheprot 5.0 预测蛋白跨膜区域 Antheprot 5.0 预测信号肽断裂点 3.实验数据的自动化管理
⑴实验室结果的储存、管理和申报工作;
⑵从网络数据库获得的序列文件 (由ENTREZ集成检索系统所得的数据文件可以进入EndNote 或者Reference Manager 储存管理)或资料文献的管理;
⑶软件: EndNote,Reference Manager 。
Reference Manager 9 界面
4.寻找、预测新基因及其结构、功能
•对CDS(Coding Sequence)蛋白编码区的预测准确率已达到90%以上
•对整个基因结构的预测存在一定难度
v PWM(位置权重矩阵)算法
由物化原理技术开发,侧重于找基因表达系统和核酸相互作用的位点。给信号序列各个位置每种可能出现的核苷酸分配一个分数,将各位置分数相加后得出该序列作为潜在作用位点的分数。
DNASIS 2.5 对蛋白编码区的预测 A. (Codon Bias) DNASIS2.5 对蛋白编码区的预测 B. (Rare Codon)
DNASIS 2.5 对蛋白编码区的预测 C. (ORF List) DNASTAR 之 GeneQuest 预测CDS 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点)
•该项技术算法十分复杂,尚未成熟。PDB及MMDB数据库目前仍然禁止收录软件预测出来的蛋白高级结构模型。
•X射线晶体学技术和多维核磁共振技术是当前人们认识蛋白高级结构的主要手段,但两种技术都有不足之处。前者要求必需得到高标准的蛋白晶体,后者对分子量大于3万的大蛋白不能测定。因此理论模拟和结构预测显得十分重要。
•序列与结构关系的根源在于“蛋白质折叠的问题”,这是近期研究关注的焦点。
DNASIS 2.5 蛋白二级结构预测
目前应用的蛋白质结构预测的算法 ⑴同源预测(一级结构决定高级结构) ⑵结构与结构相对比(DALI算法) ⑶当前最先进的结构预测方法: 结构类识别(fold recognition) 先建立一个已知的结构类数据库(fold library),将待测序列“穿过”该数据库构成的坐标,并根据事先确定的物理限制,逐个位置移动(threading, sequence-structure alignment) ,由一个函数(sequence-structure fitness alignment) 判断序列与结构类的符合程度,找出未知序列在目标结构上的能量最优和构象最稳固的比对位置。对计算机要求很高。
Cn3D 2.5 显示 1EQF A链三维结构 RasMol 2.7 显示1EQF A链三维结构
|