WenHan Wu

a general surgeon


  • Home

  • Archives

转录组测序

Posted on 2019-09-15
Symbols count in article: 2.4k | Reading time≈ 6 mins.

1. 什么是Reads?

高通量测序平台产生的序列就称为read。

2. 什么是Contig?

拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

3. 什么是Scaffold?

基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

4. Contig N50:

Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3…………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.

5.Scaffold N50:

Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds
按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3…………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.

trinity

基于RNA-seq组装的工具,

inchworm:

将RNA-seq数据组装成单个转录本,通常是主要转录亚型的全长转录本.

Chrysalis:

这一步将上一步得到contig进行聚类,对于每个聚类构建完整的德布罗意图(de Bruijin graph)。每个转录本表示的是给定基因或者一组有着共同序列的基因的全部转录组成。 之后会根据图中不相交的点对全部短读数据进行拆分.

Butterfly:

并行处理各个图(graph), 追踪每个图中的短读和配对短读的路径,最后报告可变剪切亚型的全长转录本,并且区分出旁系同源基因的转录本.

conda create -n Trinity trinity -y
source activate Trinity
Trinity --seqType fq --max_memory 50G  \
     --left condA_1.fq.gz,condB_1.fq.gz,condC_1.fq.gz \
     --right condA_2.fq.gz,condB_2.fq.gz,condC_2.fq.gz \
     --CPU 6  
# 有基因组引导组装
Trinity --genome_guided_bam rnaseq_alignments.csorted.bam --max_memory 50G \
            --genome_guided_max_intron 10000 --CPU 6

数据的预处理

Posted on 2019-09-08
Symbols count in article: 3.6k | Reading time≈ 9 mins.
The article has been encrypted, please enter your password to view.
Read more »

markdown 语法

Posted on 2019-09-04
Symbols count in article: 3.4k | Reading time≈ 9 mins.

作者 wenhan wu

1. 字体

1.1 标题

在markdown中,标题我们往往采用(# + 空格 + 标题内容),建议在#后加上一个空格,标题最多只支持前六级标题,标题都位于每一行的行首,不要使用多余的空格。

1.2 粗体和斜体

粗体使用两个*进行包裹

斜体使用一个*进行包裹

我是粗体

我是斜体

2. 段落与换行

如果行与行之间没有空行,则会被视为同一段落,

如果行与行之间有空行,则会被视为不同的段落。

通常每行不应该超过80个字符,为了提高可读性,在引入url时换行。

3. 列表

3.1 有序列表的语法是

数字序号+英文句号+空格+列表内容

  1. 有序列表
  2. 有序列表
  3. 有序列表

3.2 无序列表的语法是

*/+/- +空格+列表内容

  • 无序列表
  • 无序列表
  • 无序列表

3.3 嵌套列表

  • 第一层列表
    • 第二层列表
      • 第三层列表

语法是+ 第一层列表

TAB + 第二层列表

TAB + TAB + 第三层列表

列表之间可以相互嵌套,有序和无序之间也可以相互嵌套

4. 分隔线

分隔线至少使用3个以上的*/-/_来标记

行内不能有其他的字符

可以在标记符中间加上空格

星号




减号




下划线




5. 链接

链接文字

Github

2. 行内代码与代码块

行内代码使用`进行包裹

R/python

代码块以Tab键和4个空格开头

R
python

3. 表格

表格的语法如下:

|biaotou 1 |biaotou 2 |biaotou 3 |
|----------|----------|----------|
|content 1 |content 2 |content 3 |
|     a    |     b    |     c    |

实际的效果如下

biaotou 1 biaotou 2 biaotou 3
content 1 content 2 content 3
a b c

对于表格的问题,我们在markdown中尽量使用较小的表格,复杂的表格将变得难以维护。

4.测试各种各样常用的颜色

<font color = red>我是红色
<font color = coral>我是珊瑚色
<font color = Firebrick>我是深红色
<font color = deepskyblue>我是天空蓝
<font color = deeppink>我是深粉色

我是红色
我是红色
* 我是红色*
我是红色我是黄色
我是珊瑚色
我是砖红色
我是天空蓝色
我是深粉色

数据的导入

Posted on 2019-09-04
Symbols count in article: 14k | Reading time≈ 34 mins.
The article has been encrypted, please enter your password to view.
Read more »

我是用来测试的

Posted on 2019-09-03
Symbols count in article: 178 | Reading time≈ 1 mins.

我是用来测试的

我是用来测试的

Hello World

Posted on 2019-09-03
Symbols count in article: 2.4k | Reading time≈ 6 mins.

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1
$ hexo new "My New Post"

More info: Writing

Run server

1
$ hexo server

More info: Server

Generate static files

1
$ hexo generate

More info: Generating

Deploy to remote sites

1
$ hexo deploy

More info: Deployment

12

wenhan wu

16 posts
© 2020 wenhan wu | 9k | 22 mins.
Powered by Hexo
|
Theme — NexT.Gemini v6.1.0