分别介绍使用循环和MultiQC软件两种方式批量进行fastqc
方法一:循环与命令并行
问:
我当前文件夹下面有100个fastq测序文件,我要批量对他们运行fastqc软件(软件安装目录:~/biosoft/fastqc )来处理,所以写了脚本
ls *fastq | while read id ; do ~/biosoft/fastqc $id;done
但是这样有一个弊端,就是这100个fastq测序文件是一个个被运行,这样耗时太长!
所以我稍作修改:
ls *fastq | while read id ; do nohup ~/biosoft/fastqc $id & ;done
这样又一下子把100个fastqc任务提交了,我的服务器根本受不了。
所以需要修改修改脚本,让它一下子并行提交10个任务,因为我服务器限制。
该如何最简单的完成呢?
答:加个参数-p
ls *fastq | xargs -n 1 -p 10 -i FQ ~/biosoft/fastqc FQ
每次最多提交10个文件,加-p就可以并行计算啦
方法二:MultiQC
homepage: http://multiqc.info
功能:把多个测序结果的qc结果整合成一个报告。支持fastqc、trimmomatic、bowtie、STAR等多种软件结果的整合。
Installation 安装
conda install -c bioconda multiqc
Run MultiQC 运行
安装好后,进入你要分析的测序文件所在的文件夹,直接输入multiqc加要扫描的目录即可运行,如果要扫描当前文件夹,直接输入”multiqc .”即可
multiqc .
multiqc /data/mydir/
multiqc /data/*fastqc.zip
multiqc /data/sanple_1*
相关参数
使用“–ignore”参数忽略某些文件
multiqc . --ingore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*.zip
使用文本指定要分析的文件的路径
multiqc --file-list_my_file_list.txt
重命名输出结果
分析结果默认命名为“multiqc_report.html”,相关的以tab风格的data file保存在“multiqc_data”文件夹下。可以用“-n”参数改变结果文件的名字,用“-o”改变输出文件的位置。
覆盖已存在的结果
添加参数“-f”,输出结果时会自动覆盖同名文件。
更换报告模板
添加参数“-t”或者“–template”可以选择不同风格的报告模板,具体内容请查看帮助文档“multiqc –help”。同时,MultiQC也支持自行创作结果文件的模板。
输出图片Exporting plot
除了直接输出html文件外,Multiqc还可以直接保存图片文件。用以下参数进行保存:
multiqc -p/--export
默认设置下,图片会保存在“multiqc_plots”文件夹中,以.png/.svg或者pdf格式保存。
同时,也可以直接在html文件中使用“toolbox”中的Export 保存图片。
报告正文
报告页面分为三部分,左边是导航页面,中间是报告正文,右边是toolbox
- General Statistics
(Configure Conlumns)可选择需要展示的列名
点击列名可进行排序
(plot)可选择任意两列进行plot
Toolbox
工具栏主要有Hightlight Samples、Rename Samples、Show/Hide Samples、Export Plots、Saving Setting以及帮助等功能。
参考
(1)https://mp.weixin.qq.com/s/tuGWPqCAG4TvIxpGsYWIDA
(2)http://www.cnblogs.com/leezx/p/7360668.html