生物信息学提纲
生物信息学·
声明:
- 本文档部分内容使用LLM辅助创作
- 本文档基于山东大学生物信息学课程
- 本文档链接均为GithubCopilot自动填充,未经校对
生物信息学研究什么·
生物信息学研究生物信息学
生物数据库及文献库·
- pubmed 由NCBI维护的文献数据库,包含了生物学领域的大量文献,可以通过关键词搜索文献,也可以通过文献的PMID搜索文献。
- 二级核酸数据库
- 一级蛋白质序列数据库
- 一级蛋白质结构(氨基酸序列)数据库
- pdb 由结构生物信息学合作研究协会维护的蛋白质结构数据库,包含了蛋白质结构的信息。
- 二级蛋白质结构(周期性结构)数据库
- 四级蛋白质结构(相互作用)数据库
序列·
替换记分矩阵·
替换记分矩阵描述了序列中字符的替换概率,常用于比较序列相似性,是序列比对的关键部分。
DNA记分矩阵·
- 等价矩阵 一致记1分,不一致记0分。
- 转换-颠倒矩阵 转换记-1分,颠倒记-5分。
- BLAST矩阵 一致记5分,不一致记-4分。由大量比对得出的经验结果。
蛋白质记分矩阵·
- 等价矩阵
一致记1分,不一致记0分。
- PAM矩阵
表示在蛋白质进化中的氨基酸替换频率。PAM-1反应了进化产生的每100个平均发生1个突变的量值。PAM-n由PAM-1自乘得出。
- BLOSUM矩阵
BLOSUM矩阵基于比对蛋白质序列的实际数据,反映了相对保守和变异的氨基酸替换频率。BLOSUM-n,n代表该矩阵是由一致度大于等于n%的序列计算得出。
- 遗传密码矩阵
分值大小由不同氨基酸间密码子变化的多少来决定。
- 疏水矩阵
分值大小由氨基酸替换后疏水性变化的多少来决定。
相似度计算:
-
打点法
-
序列比对(alignment)法 gap分为gap open和gap extend
- needleman-wunsch算法
s(0,0) = 0;
s(0,j) = gap * j;
s(i,0) = gap * i;
s(i,j) = max( (s(i-1,j-1) + w(i,j)),(s(i-1,j) + gap),(s(i,j-1) + gap) );
- 局部比对算法
s(0,0) = 0;
s(0,j) = gap * j;
s(i,0) = gap * i;
s(i,j) = max(0,(s(i-1,j-1) + w(i,j)),(s(i-1,j) + gap),(s(i,j-1) + gap) );
- needleman-wunsch算法
搜索与比对·
对比工具:
结果格式及转换工具:
-
fasta
-
clustalw
-
score
-
phylip
比对编辑工具:
Blast搜索
- BLASTn
用核酸序列在核酸数据库中搜索
- BLASTp
用蛋白序列在蛋白数据库中搜索
- BLASTx
用核酸序列对应的蛋白在蛋白数据库中搜索
- tBLASTn
通过将蛋白质序列翻译成所有可能的核酸序列(包括六种读框和反向互补链),然后在核酸数据库中进行比对,以找到与该蛋白质序列相似的核酸序列。
- tBLASTx
核酸序列对核酸序列数据库的搜索方法。将被检索的核酸序列和核酸序列数据库中的序列按不同的阅读方法全部翻译成蛋白质序列,然后对两者的蛋白质序列进行比对。与BLASTx不同的是,tBLASTx比对的是三种核酸序列翻译成的六种可能的蛋白质序列与另一组核酸序列的六种可能的翻译后的蛋白质序列之间的相似性。
- PSI-BLAST
每次用Position-specific scoring matrix搜索数据库后将结果重构PSSM再次搜索,反复直至穷尽。
- PHI-BLAST
找出于序列相似并符合某种模式的序列
多序列比对:
- 序列标识图以序列的位点为横坐标,以序列的相似性为纵坐标,将序列的相似性用颜色绘制。
- 用途
- 确认一个序列是否属于某家族
- 建立系统发生树
- 识别保守片段
- 推断未知序列
- 预测蛋白质/RNA二级结构
- 保守片段
保守片段是指在多个序列中都存在的片段,这些序列可能是同源的,也可能是同源的同源物。保守片段的长度一般比较短,一般在10-100个氨基酸之间。保守片段的长度与序列的相似性成正比,即相似性越高,保守片段的长度越长。
进化·
基本假设·
- DNA,RNA,蛋白质序列包含了物种所有的进化史信息
- 一个特定的蛋白质的进化变异速度是相对稳定的
- 同源
- 直系同源(ortholog)
来自不同物种的,由垂直家系进化的基因。保留原始功能。
- 旁系同源(paralog)
来自相同物种的,由基因复制产生的基因。可能发生变异。
- 异同源(xenolog)
通过水平基因转移(基因没有转移给子代,而是传递给其他)所获基因,源自病毒侵染等所产生的相似基因。
- 直系同源(ortholog)
系统发生树·
具有共同祖先的各物种间演化关系的树
建树原则:
DNA or Protein?
- DNA序列两两一致度大于70%,选择DNA序列建树
- DNA序列两两一致度小于70%,选择任意序列建树
意义:
- 确定未知基因及蛋白质的亲缘关系
- 预测未知基因及蛋白质的功能
- 预测一个分子功能的走势
- 追溯基因的起源
结构:
- 根(根节点)代表最早的共同祖先
- 节(内节点)曾经出现过的物种
- 叶(外节点)当前存在的物种
无根树(只反映单元之间的距离,不反应祖先问题)区分出外类群(研究对象之外的对象群)后变为有根树(反应进化关系及进化速率)
构建工具:
构建方法:
- 基于距离的方法(Neighbour_Joining,Unweighted_Pair_Group_Method_with_Arithmetic_Mean)
UPGMA通过计算每两个序列的平均距离,然后将距离最近的两个序列合并,直至所有序列合并为一棵树。
- 最大简约法(Maximum_Parsimony)
选择最简单的树,即最少的分支变化,最少的分支数。
- 最大似然法(Maximum_Likelihood)
选择最可能的树,即最大化树的似然值。
- 贝叶斯推断法(Bayesian_Inference)
蛋白质·
- 一级结构氨基酸序列。
- 二级结构
dssp是根据已经测定的蛋白质三维结构,对蛋白质二级结构进行指认的数据库。
周期性结构构象。- 螺旋(helix)
- 【H】α折叠
- 【G】3-10_helix
- 【I】π-helix
- β折叠(β-sheet)
- 【E】β折片(β-strand)平行排列而成
- 【B】reside_in_isolated_β-bridge
- β转角肽链大于90°的转角
- 【S】hydrogen_bonded_turn
- 【T】bend
- 无规卷曲(coil)
- 螺旋(helix)
- 四级结构亚基团的结构。
分子对接(docking):
基因组学·
- 测序
- sanger_sequencing
- high_throughput_sequencing
听得有点懵,学了分子生物学再说。
统计方法/算法·
贝叶斯公式
- P(A|B) = P(B|A)P(A)/P(B)
一般情况下
- P(Ai|B) = P(B|Ai)P(Ai)/ΣP(B|Aj)P(Aj)
二元预测
- sensitivity = TP/(TP+FN)
- specificity = TN/(TN+FP)
简单算法
- 后缀树
- 最高分子序列
机器学习
- 分类(classification)有背景知识,根据背景知识,预测未知的类别。
- 聚类(clustering)没有背景知识,对一组新物体,判断属性并分组。
- 回归(regression)有背景知识,根据背景知识,推导出Xn与Y的关系,计算新物体的Y。
- k次交叉验证(k-fold cross validation)将数据集分为k份,每次用k-1份训练,1份测试,重复k次,取平均值。
机器学习算法
- 决策树(decision tree)
- 支持向量机(support vector machine)
- 数据挖掘