MobiVision转录组结果释义

输出结果文件

mobivision quantify默认输出结果文件如下,总计16个文件,其中SAMPLEID_outs文件为软件自动生成,无需用户指定:
_flagdone 是任务运行成功的flag文件,会在mobivision quantify任务完成后自动输出;
_log 是任务运行过程中生成的日志文件;
run_analysis_cmds.txt 记录了mobivision quantify的完整命令行信息;
SAMPLEID_Aligned.sort.bam 记录了reads的比对情况,并根据坐标信息排序后输出为bam比对文件;
SAMPLEID_Aligned.sort.bam.baiSAMPLEID_Aligned.sort.bam比对文件的index文件;
raw_cell_gene_matrix 是未作过滤的原始的matrix的根目录,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz 三个子文件,通过统计bam比对文件中的比对情况获得;
filtered_cell_gene_matrix 是经过细胞筛选后的matrix的根目录,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三个子文件;
SAMPLEID_filtered.h5ad 是转换为h5ad形式的filtered_cell_gene_matrix,可通过第三方软件读取,从而对细胞基因表达矩阵作深入分析;
SAMPLEID_Report.json 是json形式的质控报告,可通过第三方软件读取并提取有效信息;
SAMPLEID_Report.html 是html形式的质控报告,将数据进行可视化处理,便于用户直观判断文库质量;
SAMPLEID_summary.csv 含有文库信息内容; result_mito_percentage.csv 是线粒体百分比信息文件,将细胞线粒体分布情况进行统计。 outputs

BAM文件释义

mobivision quantify会在分析完成后,输出bam比对文件。该bam文件记录了文库的详细比对信息,用户可以根据需求对分析结果进行溯源纠错,或进行下游分析,例如velocity等。

Tags

GX 表示唯一比对的read所比对到的基因ID;
GN 表示唯一比对的Read所比对到的基因名;
CB 表示纠错后的细胞标签;
UB 表示纠错后的UMI分子;
NH 表示同一read比对到基因组不同位置的数目,=1表示该read可以比对到基因组唯一区域,>1表示该read比对到基因组不同点的数目。 NH是SAM文件的标准tag。

MAPQ

比对质量MAPQ是bam文件中的第五列信息,对于可以比对到基因组唯一区域的read而言,MAPQ=255,即MAPQ=255代表read可以比对至基因组唯一区域。当Read比对到基因组的区域>1时,MAPQ = -10*log10(1-1/Nmap)。

matrix释义

mobivision quantify最后输出的matrix文件有两组,分别为raw_cell_gene_matrixfiltered_cell_gene_matrix 。两组文件均包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三个子文件,具体文件内容如下:

barcodes.tsv.gz

$ cat barcodes.tsv.gz
AACAACACGAAAGTGGCTTA
AACAACACGAAGATTGTAAC
AACAACACGAATTACCAGAA
AACAACACGACGCTGAATGA
AACAACACGACGGACCAACA
AACAACACGACTACGTGAGG
AACAACACGAGGCCACACGC
AACAACACGAGGTTAGTACT
AACAAGTGATCAGCGATGTC
AACAAGTGATCGGTGTGAGT

barcodes.tsv.gz文件中的每一行均代表一个细胞标签序列。

features.tsv.gz

$ cat features.tsv.gz
ENSMUSG00000102693.2    4933401J01Rik   Gene Expression
ENSMUSG00000064842.3    Gm26206 Gene Expression
ENSMUSG00000051951.6    Xkr4    Gene Expression
ENSMUSG00000102851.2    Gm18956 Gene Expression
ENSMUSG00000103377.2    Gm37180 Gene Expression
ENSMUSG00000104017.2    Gm37363 Gene Expression
ENSMUSG00000103025.2    Gm37686 Gene Expression
ENSMUSG00000089699.2    Gm1992  Gene Expression
ENSMUSG00000103201.2    Gm37329 Gene Expression
ENSMUSG00000103147.2    Gm7341  Gene Expression

features.tsv.gz文件从左至右的第一列表示基因ID,第二列为基因名,第三列是固定字符串“Gene Expression”。

matrix.mtx.gz

$ cat matrix.mtx.gz
%%MatrixMarket matrix coordinate integer general
%
55416 6167 20865276
54 1 4
68 1 2
114 1 2
122 1 3
123 1 2
125 1 1
137 1 8

matrix.mtx.gz文件为稀疏矩阵文件。该文件从第四行开始,从左至右,依次为基因ID序号、细胞标签序号、对应细胞对应基因所捕获到的转录本数目。第三行从左至右依次为该文库的基因数目、细胞总数、该文库所捕获到的转录本总数。该文库的基因数目应与features.tsv.gz文件中的基因数目一致,该文库的细胞数目应与barcodes.tsv.gz文件中的细胞数目一致。

质控报告释义

mobivision quantify分析完成后,会生成一html质控报告,分为单双物种两种形式,两种形式可分为overview、 Sample、 Cells、 Sequencing & Mapping、 Data Distribution、 UMAP Projection六部分,具体报告内容如下:

单物种报告

Overview

Single Overview
在单物种报告中,报告首行即以上4个指标。用户可以通过这4个指标判断文库复杂程度及测序深度,从而判断文库是否符合预期。

Sample

Sample Info
Sample栏包含信息如下:

  • 样本名称
  • 参考基因组名称
  • 建库试剂盒名称
  • 分析软件名称

Cells

Cells Info
在单物种报告中,Cells栏左图为Barcode Rank Plot,右侧为细胞相关指标,内容与overview栏目一致。该报告通过统计每个细胞标签对应的UMI数目,并将细胞标签按照UMI数目由高到低排序,获得细胞标签序号。例如UMI数目最多的细胞标签,序号为1,以此类推。以细胞标签序号作为x轴横坐标,用对应细胞标签的UMI数作为y轴纵坐标,作图,得到Barcode Rank Plot。用户也可通过点击对应栏目的右上角问号,获得更为详细的help信息(其他栏目也相同),如下:
help info

Sequencing & Mapping

Sequencing & Saturation栏左侧为Sequencing Saturation Plot,右侧为文库测序信息及比对信息。用户可通过Sequencing Saturation Plot判断该文库是否还有加测的必要。若当测序饱和曲线达到平台期或接近灰色短虚线,则暗示难以通过文库加测来捕获更多的基因或UMI分子。

Data Distribution


Data Distribution以小提琴图的形式展示了三块数据的分布情况,分别为细胞线粒体含量、细胞UMI数、细胞基因数。以细胞线粒体含量分布情况为例,我们观察到小提琴图中短虚线的位置位于3%左右,即表示该文库细胞线粒体的含量中值在3%。同样的,根据小提琴图的分布,我们也可以判断该文库中,绝大多数的细胞线粒体含量不超过5%。

UMAP Projection


UMAP Projection含有两张可视化图片,每个点代表一个细胞。左图为通过UMAP降维后,利用细胞对应的UMI数进行染色,由此可判断每个细胞RNA含量的分布;右图为通过UMAP降维后,用Leiden算法进行聚类分析,并用聚类的结果进行染色。

双物种报告

Overview

双物种报告与单物种报告在内容上存在略微差异。双物种报告首行的4个指标如上图,同样可根据这4个指标判断文库的复杂程度和测序程度,从而判断文库质量是否符合用户预期。

Sample

同单物种报告。

Cells


双物种报告中,Cells栏在原来单物种的基础上,分别计算了来自不同物种的细胞数、基因中位数和UMI中位数。其中,Estimated Number of Cells = Estimated Number of Cells (GRCh38) + Estimated Number of Cells (GRCm39) + Number of Barcodes with >1 Cell。 Median Genes per Cell (GRCh38)统计了所有GRCh38来源的细胞, Median Genes per Cell (GRCm39)统计了算有来源于GRCm39的细胞。Median UMI Counts统计方式同Median Genes统计方式。

Sequencing & Mapping


Sequencing & Mapping栏在原来单物种的基础上,统计了比对至不同基因组的情况。如上,我们可以发现有95.88%的reads比对到了基因组上,其中,53.38%的reads比对到GRCh38基因组,42.5%比对到了GRCm39基因组(95.88% = 53.38% + 42.5%)。其他比对结果同理,在原来统计结果的基础上,分别统计了来自不同基因组的比例。

Data Distribution


Data Distribution栏分别统计了来自不同物种(不包含multiplet)的细胞线粒体含量、细胞UMI含量及细胞基因含量。 Cell UMI Counts图反映了不同细胞中不同物种来源的UMI的分布。只有细胞标签中有超过90%的UMI来源于同一物种时,该报告才会认为该barcode是来源于该物种的细胞。若细胞标签中有20%的UMI比对到了物种A,80%的UMI比对到了物种B,则判定该细胞既不属于物种A,也不属于物种B,需归为Multiplet,即上图中的灰点。一般而言,我们认为Multiplet占比越低,该文库存在双胞或多胞的情况越少。

UMAP Projection

同单物种报告。