批量fastqc

分别介绍使用循环和MultiQC软件两种方式批量进行fastqc

方法一:循环与命令并行

问:

我当前文件夹下面有100个fastq测序文件,我要批量对他们运行fastqc软件(软件安装目录:~/biosoft/fastqc )来处理,所以写了脚本
ls *fastq | while read id ; do ~/biosoft/fastqc $id;done

但是这样有一个弊端,就是这100个fastq测序文件是一个个被运行,这样耗时太长!
所以我稍作修改:

ls *fastq | while read id ; do nohup ~/biosoft/fastqc $id & ;done

这样又一下子把100个fastqc任务提交了,我的服务器根本受不了。

所以需要修改修改脚本,让它一下子并行提交10个任务,因为我服务器限制。

该如何最简单的完成呢?

答:加个参数-p

ls *fastq | xargs -n 1 -p 10 -i FQ ~/biosoft/fastqc FQ

每次最多提交10个文件,加-p就可以并行计算啦

方法二:MultiQC

homepage: http://multiqc.info

功能:把多个测序结果的qc结果整合成一个报告。支持fastqc、trimmomatic、bowtie、STAR等多种软件结果的整合。

Installation 安装

conda install -c bioconda multiqc

Run MultiQC 运行

安装好后,进入你要分析的测序文件所在的文件夹,直接输入multiqc加要扫描的目录即可运行,如果要扫描当前文件夹,直接输入”multiqc .”即可

multiqc .
multiqc /data/mydir/
multiqc /data/*fastqc.zip
multiqc /data/sanple_1*

相关参数

使用“–ignore”参数忽略某些文件

multiqc . --ingore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*.zip

使用文本指定要分析的文件的路径

multiqc --file-list_my_file_list.txt

重命名输出结果

分析结果默认命名为“multiqc_report.html”,相关的以tab风格的data file保存在“multiqc_data”文件夹下。可以用“-n”参数改变结果文件的名字,用“-o”改变输出文件的位置。

覆盖已存在的结果

添加参数“-f”,输出结果时会自动覆盖同名文件。

更换报告模板

添加参数“-t”或者“–template”可以选择不同风格的报告模板,具体内容请查看帮助文档“multiqc –help”。同时,MultiQC也支持自行创作结果文件的模板。

输出图片Exporting plot

除了直接输出html文件外,Multiqc还可以直接保存图片文件。用以下参数进行保存:

multiqc -p/--export

默认设置下,图片会保存在“multiqc_plots”文件夹中,以.png/.svg或者pdf格式保存。

同时,也可以直接在html文件中使用“toolbox”中的Export 保存图片。

报告正文

报告页面分为三部分,左边是导航页面,中间是报告正文,右边是toolbox

  1. General Statistics

(Configure Conlumns)可选择需要展示的列名

点击列名可进行排序

(plot)可选择任意两列进行plot

Toolbox

工具栏主要有Hightlight Samples、Rename Samples、Show/Hide Samples、Export Plots、Saving Setting以及帮助等功能。

参考

(1)https://mp.weixin.qq.com/s/tuGWPqCAG4TvIxpGsYWIDA
(2)http://www.cnblogs.com/leezx/p/7360668.html

-------------本文结束感谢您的阅读-------------