MobiVision V(D)J结果释义

输出结果文件

mobivision vdj 默认输出结果文件如下,总计17个文件,其中SAMPLEID_outs目录为软件自动生成,无需用户指定。除此之外,还会产生我们最关注的输出结果文件SAMPLEID_outs文件,前缀SAMPLEID代表的是自身样本的ID命名。SAMPLEID_outs的结果文件中包含15个文件,具体文件解释如下:

  1. _flagdone 是任务运行成功的flag文件,会在mobivision vdj任务完成后自动输出;
  2. _log 是任务运行过程中生成的日志文件;
  3. SAMPLEID_airr_arrangement.csv代表airr格式的重叠群重排结果;
  4. SAMPLEID_all_contig_annotations.bed代表bed格式的所有重叠群的注释结果
  5. SAMPLEID_all_contig_annotations.csv代表csv格式的所有重叠群的注释结果
  6. SAMPLEID_all_contig_annotations.json代表json格式的所有重叠群的注释结果
  7. SAMPLEID_all_contig.fasta是所有重叠群的fasta序列文件
  8. SAMPLEID_all_contig.fasta.fai是所有重叠群fasta序列的index文件
  9. SAMPLEID_all_contig.fastq代表重叠群序列中包含序列质量信息的fastq文件
  10. SAMPLEID_clonotypes.csv代表克隆型的结果文件
  11. SAMPLEID_filtered_contig_annotations.csv代表过滤后的重叠群的注释结果文件
  12. SAMPLEID_filtered_contig.fasta代表fasta格式的过滤重叠群的序列文件
  13. SAMPLEID_filtered_contig.fasta.fai代表过滤重叠群fasta序列的索引文件
  14. SAMPLEID_filtered_contig.fastq代表过滤重叠群的fastq序列文件
  15. SAMPLEID_metrics_summary.csv代表csv格式的分析总结文件
  16. SAMPLEID_Report.html是html格式的质控报告,可以对数据质量结果进行可视化展示,便于用户直观判断文库质量
  17. SAMPLEID_Report.json代表json格式的质控报告

质控报告释义

mobivision vdj分析完成后,会生成html质控报告。 BCR测序、TCR测序以及混合建库测序均会生成相应的html质控报告,它们的内容大致相同。此处我们将分别介绍BCR的html报告与TCR的html报告。内容组成上,两份报告均由Overview、Sample、Cells、Sequencing & Enrichment、VDJ Annotation与Clonetypes六部分组成。

1. TCR的html 报告

01 Overview

在TCR的html报告中,报告首行为以上3个指标。这3个指标分别代表该样本基于TCR数据预计的T细胞数目、每个细胞的平均读段数目以及含有有效V-J对的细胞数目,用户可以通过这3个指标判断测序文库的复杂度与测序深度,从而评估构建的文库是否达到预期。

02 Sample

Sample栏中包含信息如下:

  • 样本名称
  • 参考基因组名称
  • 建库试剂盒名称
  • 分析软件的流程版本名称

03 Cells

在TCR的html报告中, Cells栏左图为 Barcode Rank Plot ,右侧为细胞相关指标。左图描述了Barcodes与UMI Counts的数量关系,横轴代表UMI Counts数由高到低的标签序号,纵轴代表每个细胞标签对应的UMI数目。相较于报告开头Overview的个指标,此处还描述了每个细胞的TRA UMI与TRB UMI 平均表达情况以及每个细胞的有效reads等指标。关于这些指标的具体释义,用户可以点击右上角的问号,获得更为详细的help信息(其他栏目也可以相同形式获取help信息) 。如下,为点击问号之后,详细的help信息:

04 Sequencing & Enrichment

1681049032241

Sequencing & Enrichment栏左侧为读段比对的三个指标,分别表示比对到V(D)J基因的、比对到TRA与比对到TRB的读段占所有读段的百分比。右侧为测序质量指标,从上到下分别为测序的Reads数量、条形码中Q30碱基的百分比、有效的Barcodes百分比、RNA测序片段Read1中Q30碱基的百分比 、RNA测序片段Read2中Q30碱基的百分比以及UMI中Q30碱基的百分比。

05 VDJ注释

1681049329248

VDJ 注释栏中含有11个注释指标,分别对应配对克隆型数量、含有TRA重叠群的细胞、含有TRB重叠群的细胞、含有跨越V-J区的TRA重叠群的细胞、含有跨越V-J区的TRA重叠群的细胞、含有有活力的跨越V-J对的细胞、含有有活力的跨越(TRA,TRB)V-J对的细胞、含有TRA重叠群且能注释出CDR3的细胞、含有TRB重叠群且能注释出CDR3的细胞、含有有活力的TRA重叠群的细胞与含有有活力的TRB重叠群的细胞百分比。关于这些指标,用户若有疑问,再次温馨提示一下,可以点击右上角的问号,获得更为详细的help信息。如下,为VDJ注释部分的具体help信息:

1681049771308

06 Clonetype

1681049828120

1681050059196

Clonetype主要分为两部分,第一部分是丰度最高的前10种克隆型的细胞占比柱形图,第二部分是丰度最高的前10种克隆型的ID、CDR3s的氨基酸序列、频率以及所占整体比率的表格。

2. BCR的html报告

相较于TCR的html报告,BCR报告的内容框架与其大致相同。但是由于BCR针对的是IgH、IgK与IgL等指标,TCR针对的是TRA与TRB等指标,两者在具体评估指标上还是存在区别。这些区别主要分布于Cells、Sequencing & Enrichment、 VDJ Annotaition与Clonetypes部分。具体展示如下:

03 Cells

1681050825549

相较于TCR的Cells栏中右侧的指标,BCRs的Cells栏中右侧指标主要是将每个细胞的TRA UMIs与TRB UMIs中位数替换为每个细胞的IGH UMIs 、IGK UMIs与IGL UMIs中位数。

04 Sequencing & Enrichment

1681051110821

相较于TCR的Sequencing & Enrichment栏中左侧的指标,BCRs的Sequencing & Enrichment栏中的左侧指标同样是将比对到TRA的片段与比对到TRB的片段替换为比对到IGH的片段、比对到IGK的片段与比对到IGL的片段。

05 VDJ Annotation

1681051498703

相较于TCR的VDJ Annotation, BCR的Annotation指标主要是将TRA与TRB的注释评估指标替换为IGH、IGK与IGL的注释评估指标。

06 Clonetype

1681051675532

相较于TCR的VDJ 克隆型中丰度最高的前10种克隆型的ID、CDR3s的氨基酸序列、频数与所占整体比率的表格,BCR的VDJ克隆型表格与其最大的区别是CDR3s氨基酸中的链存在区别,BCR由IGH、IGK与IGL组成,TCR仍由TRA与TRB组成。