生物数据分析与实践·简介

重点

高通量生物信息数据 & 实践(工具+编程)

内容模块

  • 语言:R、Python + Linux
  • 生物数据分析:DNA-Seq & RNA-Seq、基因组、变异、转录、表观基因组、动态(差异)、富集分析
  • 实践

生物学背景

生物数据源自基因组,DNA复制、转录、RNA加工与转运、翻译等生物学活动产生了这些数据。

高通量生物信息及获取

基因组数据

定义

细胞内所有DNA序列信息

分析重点

未知序列

从头测序、片段拼接

已知序列

比对:DNA Sequence Variation
回贴(map):DNA序列层面变化

  • SNP:大于5%变异
  • VNTR:小卫星、微卫星
  • 单突变:插入,缺失
  • 结构变异:片段翻转、缺失

转录组数据

定义

转录产生RNA数据(胞内mRNA信息)

分析重点

转录本丰度、类型

  • 表达差异(基因表达量由mRNA丰度表征)
  • 基因融合
  • 可变剪接
  • RNA编辑

方法:二代测序(RNA-Seq)、cDNA微阵列古代科技

表观基因组数据

定义

非DNA序列造成的基因表达水平改变,且可在个体间或胞间遗传

分析重点

观察重点区域(启动子、增强子等)分布模式

  • DNA甲基化信息
  • 组蛋白修饰(甲基化、乙酰化等)
  • 染色质高级结构
  • TFBS:“基因”开关信息

方法:ChIP-Seq、Hi-C(结构)

其它

蛋白质组、代谢组

工具&语言介绍

R语言

  • 编程语言+环境 (统计学、数据分析)
  • 免费+open source (VS Matlab)
  • 很多包(Packages)
  • 下载安装:www.r-project.org

Bioconductor

Bioconductor provides tools for the analysis and comprehension of high–‐throughput genomic data. Bioconductor uses the R statistical programming language, and is open source and open development. It has two releases each year, 1024 packages, and an active user community.

# 安装(适用于R 3.5以后)
install.packages("BiocManager")
BiocManager::install()

Python

Python提供了非常完善的基础代码库,覆盖了网络、文件、GUI、数据库、文本等大量内容,被形象地称作“内置电池(batteries included)”。用Python开发,许多功能不必从零编写,直接使用现成的即可。
Python还有大量的第三方库,也就是别人开发的,供你直接使用的东西。
许多大型网站就是用Python开发的,例如YouTube、豆瓣。很多大公司,包括Google、Yahoo等,甚至NASA(美国航空航天局)都大量地使用Python。

Linux

Linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布。
Linux发行版是构成LAMP(Linux操作系统,Apache,MySQL,Perl / PHP / Python)的重要部分,LAMP是一个常见的网站托管平台,在开发者中已经得到普及。
本课程要求掌握以下操作技能:

  • 程序安装管理
  • 目录文件管理
  • 文件上传下载
  • 程序运行管理
  • 网络架构及应用
  • bash编程

附录 FASTQ格式说明

Here is an example of a single entry in a R1 FASTQ file:

1. A sequence identifier with information about the sequencing run and the cluster. The exact contents of this line vary by based on the BCL to FASTQ conversion software used.
2. The sequence (the base calls; A, C, T, G and N).
3. A separator, which is simply a plus (+) sign.
4. The base call quality scores. These are Phred +33 encoded, using ASCII characters to represent the numerical quality scores.