生物信息学提纲

生物信息学·

声明:

  • 本文档部分内容使用LLM辅助创作
  • 本文档基于山东大学生物信息学课程
  • 本文档链接均为GithubCopilot自动填充,未经校对

生物信息学研究什么·

生物信息学研究生物信息学

生物数据库及文献库·

  • pubmed 由NCBI维护的文献数据库,包含了生物学领域的大量文献,可以通过关键词搜索文献,也可以通过文献的PMID搜索文献。

  • 一级核酸数据库
    • INSDC 国际核酸序列数据库联盟,包括以下三个数据库:
    • ensemble 由EMBL-EBI维护基因组数据库。

  • 二级核酸数据库
    • refseq NCBI维护的核酸数据库。
    • dbEST NCBI维护的EST数据库,包含了EST序列。
    • gene数据库 NCBI维护的基因数据库,包含了基因的信息。
    • ncRNA数据库 NCBI维护的非编码RNA数据库,包含了非编码RNA的信息。
    • miRNA数据库 NCBI维护的mRNA数据库,包含了mRNA的信息。

  • 一级蛋白质序列数据库
    • uniprot 由欧洲生物信息学联盟维护的蛋白质数据库,包含了蛋白质序列、蛋白质功能、蛋白质结构、蛋白质相互作用等信息。由swissprot和trembl以及pir组成。

      • swissprot 注释可信度高,冗余低的蛋白质序列数据库。
      • trembl 注释可信度低,冗余高的蛋白质序列数据库。
      • pir
    • uniprot

      • uniprotkb uniprot有详细注释并与其他数据库相互链接的数据库。
      • uniparc uniprot的核心数据库,包含了uniprot的所有信息。
      • uniref uniprot归纳并将重复序列去除后的数据库。

  • 一级蛋白质结构(氨基酸序列)数据库
    • pdb 由结构生物信息学合作研究协会维护的蛋白质结构数据库,包含了蛋白质结构的信息。

  • 二级蛋白质结构(周期性结构)数据库
    • pfam 由欧洲生物信息研究所维护的结构数据库,包含了蛋白质结构域的信息。
    • cath 由伦敦大学维护的周期性结构数据库。
    • scop 由英国医学研究委员会维护的周期性结构数据库。

  • 四级蛋白质结构(相互作用)数据库
    • dip 实验方法测定的蛋白质相互作用数据库。
    • bioGRID 收集模式生物物种中涉及的蛋白质相互作用数据,作数据集。
    • STRING 实验及计算方法测定的蛋白质相互作用数据库。

  • 专用数据库
    • KEGG 由日本生物信息学研究所维护的生物学数据库,包含了生物学相关的信息。
    • omim 由美国国家遗传学中心维护的遗传病数据库,包含了遗传病的信息。


序列·

替换记分矩阵·

替换记分矩阵描述了序列中字符的替换概率,常用于比较序列相似性,是序列比对的关键部分。


DNA记分矩阵·

  • 等价矩阵 一致记1分,不一致记0分。
  • 转换-颠倒矩阵 转换记-1分,颠倒记-5分。
  • BLAST矩阵 一致记5分,不一致记-4分。由大量比对得出的经验结果。

蛋白质记分矩阵·

  • 等价矩阵

    一致记1分,不一致记0分。

  • PAM矩阵

    表示在蛋白质进化中的氨基酸替换频率。PAM-1反应了进化产生的每100个平均发生1个突变的量值。PAM-n由PAM-1自乘得出。

  • BLOSUM矩阵

    BLOSUM矩阵基于比对蛋白质序列的实际数据,反映了相对保守和变异的氨基酸替换频率。BLOSUM-n,n代表该矩阵是由一致度大于等于n%的序列计算得出。

  • 遗传密码矩阵

    分值大小由不同氨基酸间密码子变化的多少来决定。

  • 疏水矩阵

    分值大小由氨基酸替换后疏水性变化的多少来决定。


相似度计算:

  • 打点法

  • 序列比对(alignment)法 gap分为gap open和gap extend

    • needleman-wunsch算法 s(0,0) = 0;
      s(0,j) = gap * j;
      s(i,0) = gap * i;
      s(i,j) = max( (s(i-1,j-1) + w(i,j)),(s(i-1,j) + gap),(s(i,j-1) + gap) );
    • 局部比对算法 s(0,0) = 0;
      s(0,j) = gap * j;
      s(i,0) = gap * i;
      s(i,j) = max(0,(s(i-1,j-1) + w(i,j)),(s(i-1,j) + gap),(s(i,j-1) + gap) );

搜索与比对·

对比工具:

  • Tcoffee tcoffee是一个多序列比对工具,特点是可以结合结构信息进行比对。
  • Clustal 常用的多序列比对工具。
  • Muscle 快速的多序列比对工具。

结果格式及转换工具:

  • fasta

  • clustalw

  • score

  • phylip

  • fmtseq

比对编辑工具:


Blast搜索

  • BLASTn

    用核酸序列在核酸数据库中搜索

  • BLASTp

    用蛋白序列在蛋白数据库中搜索

  • BLASTx

    用核酸序列对应的蛋白在蛋白数据库中搜索

  • tBLASTn

    通过将蛋白质序列翻译成所有可能的核酸序列(包括六种读框和反向互补链),然后在核酸数据库中进行比对,以找到与该蛋白质序列相似的核酸序列。

  • tBLASTx

    核酸序列对核酸序列数据库的搜索方法。将被检索的核酸序列核酸序列数据库中的序列按不同的阅读方法全部翻译蛋白质序列,然后对两者的蛋白质序列进行比对与BLASTx不同的是,tBLASTx比对的是三种核酸序列翻译成的六种可能的蛋白质序列与另一组核酸序列的六种可能的翻译后的蛋白质序列之间的相似性。

  • PSI-BLAST

    每次用Position-specific scoring matrix搜索数据库后将结果重构PSSM再次搜索,反复直至穷尽。

  • PHI-BLAST

    找出于序列相似并符合某种模式的序列


多序列比对:

  • 序列标识图以序列的位点为横坐标,以序列的相似性为纵坐标,将序列的相似性用颜色绘制。

  • 用途
    • 确认一个序列是否属于某家族
    • 建立系统发生树
    • 识别保守片段
    • 推断未知序列
    • 预测蛋白质/RNA二级结构

  • 保守片段

    保守片段是指在多个序列都存在的片段,这些序列可能是同源的,也可能是同源的同源物。保守片段的长度一般比较,一般在10-100个氨基酸之间。保守片段的长度与序列的相似性成正比,即相似性越高,保守片段的长度越长


  • 保守片段的识别
    • 基序 具有特定模式的序列片段,使用meme识别基序。
    • 指纹 保守的序列基序,刻画蛋白质家族的特征,prints数据库是指纹数据库。


进化·

基本假设·

  • DNA,RNA,蛋白质序列包含了物种所有的进化史信息
  • 一个特定的蛋白质的进化变异速度是相对稳定的

  • 同源
    • 直系同源(ortholog)

      来自不同物种的,由垂直家系进化的基因。保留原始功能。

    • 旁系同源(paralog)

      来自相同物种的,由基因复制产生的基因。可能发生变异。

    • 异同源(xenolog)

      通过水平基因转移(基因没有转移给子代,而是传递给其他)所获基因,源自病毒侵染等所产生的相似基因。


系统发生树·

具有共同祖先的各物种间演化关系的树

建树原则:
DNA or Protein?

  • DNA序列两两一致度大于70%,选择DNA序列建树
  • DNA序列两两一致度小于70%,选择任意序列建树

意义:

  • 确定未知基因及蛋白质的亲缘关系
  • 预测未知基因及蛋白质的功能
  • 预测一个分子功能的走势
  • 追溯基因的起源

结构:

  • 根(根节点)代表最早的共同祖先
  • 节(内节点)曾经出现过的物种
  • 叶(外节点)当前存在的物种

无根树(只反映单元之间的距离不反应祖先问题)区分出外类群(研究对象之外的对象群)后变为有根树(反应进化关系及进化速率)


构建工具:


构建方法:

  • 基于距离的方法(Neighbour_Joining,Unweighted_Pair_Group_Method_with_Arithmetic_Mean)

    UPGMA通过计算每两个序列的平均距离,然后将距离最近的两个序列合并,直至所有序列合并为一棵树。


  • 最大简约法(Maximum_Parsimony)

    选择最简单的树,即最少的分支变化,最少的分支数。


  • 最大似然法(Maximum_Likelihood)

    选择最可能的树,即最大化树的似然值。


  • 贝叶斯推断法(Bayesian_Inference)


蛋白质·

  • 一级结构氨基酸序列。

  • 二级结构 dssp是根据已经测定的蛋白质三维结构,对蛋白质二级结构进行指认的数据库。
    周期性结构构象。
    • 螺旋(helix)
      • 【H】α折叠
      • 【G】3-10_helix
      • 【I】π-helix
    • β折叠(β-sheet)
      • 【E】β折片(β-strand)平行排列而成
      • 【B】reside_in_isolated_β-bridge
    • β转角肽链大于90°的转角
      • 【S】hydrogen_bonded_turn
      • 【T】bend
    • 无规卷曲(coil)

  • 三级结构多肽链的三维结构。
    alphafold数据库,三级结构可视化软件vmd
    • 计算方法预测三级结构
      • SWISS-MODEL 同源建模法,通过已知的同源蛋白质三级结构,预测未知蛋白质的三级结构。
      • I-TASSER 穿线法,将要预测的序列与现有的拓扑结构进行匹配,找出能量最低的结构作为结果。
      • QUARK 从头计算法,能量最低原理。
      • Robetta 预测的序列,其中找得到模板的片段,使用同源建模法。找不到的,从头计算。
    • 质量评估
      • ramachandran图
      • proQ
      • modfold
    • 比对
      • superpose 三维结构比对,计算两个蛋白质的RMSD。
      • spdbv

  • 四级结构亚基团的结构。
    分子对接(docking):
    • 蛋白质-蛋白质 分子对接

      考虑形状互补亲疏水性表面电荷分布。有rigid_dockingflexible_docking

    • 蛋白质-小分子 分子对接

      rigid_dockingflexible_docking,小分子总是flexible。

    • 虚拟筛选即计算机筛选可以与蛋白质对接的小分子,以提高效率。

    • 反向对接计算机筛选可以与小分子对接的蛋白质

      • scPDB 蛋白质靶标数据库

  • 蛋白质分子的表面性质
    • 表面形状(surface)
    • 表面电荷分布 apbs
    • 表面残基可溶性 apbs



基因组学·

  • 测序
    • sanger_sequencing
    • high_throughput_sequencing

听得有点懵,学了分子生物学再说。



统计方法/算法·

贝叶斯公式

  • P(A|B) = P(B|A)P(A)/P(B) 一般情况下
    • P(Ai|B) = P(B|Ai)P(Ai)/ΣP(B|Aj)P(Aj)

二元预测

  • sensitivity = TP/(TP+FN)
  • specificity = TN/(TN+FP)

简单算法

  • 后缀树
  • 最高分子序列

机器学习

  • 分类(classification)有背景知识,根据背景知识,预测未知的类别。
  • 聚类(clustering)没有背景知识,对一组新物体,判断属性并分组。
  • 回归(regression)有背景知识,根据背景知识,推导出Xn与Y的关系,计算新物体的Y。
  • k次交叉验证(k-fold cross validation)将数据集分为k份,每次用k-1份训练,1份测试,重复k次,取平均值。

机器学习算法

  • 决策树(decision tree)
  • 支持向量机(support vector machine)

Weka

  • 数据挖掘