培训大纲
一.测序原理
1. Illumina 测序原理;2. PacBio 测序原理;3. Nanopore 测序原理;4.二代三代技术与基因组组装策略。
二.Linux基础
1.Linux简介;2.远程登陆;3.数据传输;4.Linux常用命令
三.基因组软件安装和流程部署
1.使用conda自动安装和管理软件;2.手动编译和安装软件(samtools、augustus等);3.安装重复序列注释软件RepeatMasker、Repeatmodeler;4.部署基因组注释流程Braker和Maker;5.安装共线性分析软件MCScanX和jcvi
四.任务练习
1.任务一:使用fastp进行测序数据的过滤和质控;2.任务二:油脂合成相关基因家族分析案例实操;3.高级命令:awk、sed、grep、uniq、sort、wc、xargs等;4.任务的后台运行;5.任务的监控和管理;
五.基因组survey
1.基因组survey原理;2.使用jellyfish进行kmer分析及曲线绘制;3.使用gce及genomescope进行基因组大小估计、杂合度估计、重复序列含量估计;4.基因组测序及拼接策略制定
六.基因组拼接
1.二代和三代数据拼接原理;2.二代拼接实操:使用soapdenovo、spades进行基因组拼接;3.三代拼接实操:使用canu、wtdbg2进行基因组拼接;4.使用pilon对三代拼接结果进行矫正;5.基于hiC数据进行染色体挂载
七.基因结构注释
1.重复序列注释方法原理;2.基因结构注释方法原理;3.基因结构注释实操:Augustus参数模型训练;4.基因结构注释实操:使用Maker进行基因结构注释;5.细节处理:ID转换、格式标准化等
八.基因功能注释
1.Blast与基于序列相似性的功能注释;2.Hmmer与基于保守结构的功能注释;3.Gene Ontoloty功能分类数据库介绍;4.KEGG Pathway数据库介绍;5.功能注释实操及分析结果统计;
九.基因组评价
1.N50等指标统计;2.BUSCO软件安装;3.使用BUSCO对组装和注释结果进行评价;
十.基因家族鉴定
1.同源基因于基因家族概念介绍;2,近缘物种的选择和蛋白序列下载;3,提取最长转录本代表该基因序列;4,使用Orthofinder进行基因家族鉴定;5,维恩图绘制;6,单拷贝基因家族提取;
十一.进化树构建与物种分化时间估计
1.进化树构建及分化时间估计原理;2.基因树构建实操:使用raxml进行进化树构建;3.物种树构建实操:使用连接法基于surpergene构建物种树;4.使用ASTRAL-II基于进化树构建物种树;5.使用mcmctree基于DNA序列进行分化时间估计;6.使用mcmctree基于蛋白序列进行分化时间估计;
十二.基因家族收缩和扩张
1.基因家族收缩扩张原理及解读;2.实操:使用CAFé软件进行基因家族收缩扩张分析;3.提取显著收缩和扩张的基因家族;
十三.共线性分析
1.使用MCScanX(python);2.物种间共线性分析;3.物种内共线性分析;4.共线性画图;
十四.正选择分析
1.正选择分析原理;2.两物种间直系同源基因鉴定;3.使用kaks-Caculator进行正选择分析;
十五.全基因组复制事件(WGD)研究
1.全基因组复制分析原理;2.基于ks进行全基因组复制分析;3.WGD分析结果绘图
十六.Circos绘图
1.circos软件基本介绍;2.绘图数据准备;3.circos配置文件讲解,4.使用circos软件进行绘图;