MobiVision V(D)J算法介绍

算法概览

1681882471600

Barcode和UMI矫正

MobiNova平台产生的VDJ文库示意图如下:

 

1681053257754

 

从上面的VDJ结构可知,其Read1的5’端均为细胞标签序列(20bp)和UMI序列(10bp)。为了确定Read1所携带的细胞标签序列是否正确,MobiVision会将测序片段中的细胞标签序列和已知白名单中的细胞标签序列进行比对。目前MobiCube 高通量单细胞 V(D)J v1.0试剂盒提供近3,000,000种细胞标签序列。符合以下条件的测序片段将被保留:

  • Read1的细胞标签存在于白名单中;
  • Read1的细胞标签不存在于白名单中,但与白名单中的细胞标签最小汉明距离<=2,并根据白名单中的细胞标签,对Read1中的细胞标签进行纠正。

通过的测序片段,Read1仅保留纠正后的细胞标签序列和UMI序列,Read2在该步骤暂不做处理。

 

测序数据质控和去除接头

1681882575664

对于纠正细胞标签序列后的fastq数据中

  • Read1片段5‘端可能存在13bp的TSO序列,3’端可能存在polyA序列。
  • Read2片段5'端可能存在polyT序列,3’端可能存在13bp的TSO反向互补序列。
  • TSO、polyA、polyT等序列的存在,会有效降低文库的比对率,因此在比对前,需要将插入片段两端可能存在的TSO序列和poly A序列去除。
  • 去除接头序列及poly A和poly T可能导致保留下来的插入DNA片段过短,而过短的DNA片段会增加错配的概率,因此,在完成接头序列去除后,还需要过滤除去插入DNA片段小于30bp的Read。

检查VDJ基因链类型

将inner primers比对到fastq插入片段中,然后计算来自于TCR的inner primers比对reads数占所有inner primers比对reads数的比例,如果该比例大于80%,则认为该文库是TCR类型的文库;该比例小于20%,则认为该文库是BCR类型的文库,否则是ALL类型(BCR+TCR类型)的文库。

VDJ基因序列过滤

为了保证拼接的有效性和速度,我们将所有reads比对到VDJ 的reference序列中,剔除未必对上的reads。仅对比对上的reads用于后续的拼接分析。

组装contig

收集来自同一个Barcode的reads,组成一套fastq文件,利用De Brujin算法对短片段进行转录本拼接,最终获得全长信息(contig)。contig的每个碱基都被赋予碱基质量值,UMI和reads个数也被记录。针对所有的barcodes,执行同样的操作,就可以获取每个barcode中的contig信息。

注释V(D)J

VDJ注释的目的是找到一个具有生物学功能,有效的蛋白受体/产物,需要满足以下条件:1.结构完整,即是全长序列; 2.起始于密码子,VJ区域没有终止密码子; 3. J基因的最后一个密码子-V基因的起始密码子/3是整数; 4.序列中包含CDR3区域,并且V-J跨越的区域长度合理,避免结构异常; 5.VJ(reference的片段总长)-len(最后一个密码子-V的第一个密码子)在-25-25个氨基酸之间,IGH在-55-25氨基酸之间。

CDR3的确定方法:寻找CDR3左右侧保守的motif序列,起始于C氨基酸,5-27个氨基酸长度,不含终止密码子。若找到不止一个CDR3序列,得分最高的被当作是CDR3区域,如果得分一样,则选择较长的CDR3序列。

Barcode的判断

Barcode的过滤要基于该Barcode中是否存在有效的contig,存在有效的contig才会认为该细胞为真的细胞而不是空胞或者双胞。一般需满足以下条件筛选表达V(D)J基因的细胞。只有T或B细胞才会有vdj重排,产生全长转录本,过滤的Barcode要有足够的UMI count支持,避免背景mRNA干扰。此外,UMIs要有足够的reads支持,避免文库污染和Sample index跳跃。

确定克隆型

细胞Barcode分组形成不同的克隆型,即找到有相同或相似的配对受体序列,将细胞barcode分组成不同的克隆型。

克隆型的结果包含以下内容,可用于后续下游分析。

1.clonotype_id

2.clonetype id frequency 对应的细胞Barcode的数量

3.proportion 对应的细胞Barcode占比

4.CDR3_aa CDR3的氨基酸序列

5.CDR3_nt CDR3的核苷酸序列

质控报告

mobivision vdj在运行时,会对整个文库的原始数据及分析结果进行统计,最终生成质控报告。该报告是对整个文库的如实反馈,旨在帮助用户从宏观角度了解文库原始数据质量及分析结果质量,并未作任何数据上的筛选或过滤。如有需要,用户可根据质控报告结果,对文库结果进行调整后,再开始下游分析。