開篇:2017/10/7正式開始生信技能樹論壇里的轉(zhuǎn)錄組入門從Linux下軟件的安裝 到 差異表達(dá)基因的功能注釋及功能分析相關(guān)。
本地Windows電腦及服務(wù)器Linux系統(tǒng)下安裝此次入門學(xué)習(xí)的各類軟件及簡單了解軟件的基本用法:包括:sratoolkit, fastqc,Trimmomatic, hisat2, samtools, bcftools, htseq-count, R, Rstudio
windws下的一些基礎(chǔ)編程工具如:git, notepad++, ...
軟件安裝,首先最重要的問題就是Linux操作系統(tǒng)的環(huán)境變量。這問題真的是有些有些小坑,記得當(dāng)時(shí)反復(fù)看了幾篇文章+實(shí)際操作安裝幾次軟件下才清楚了環(huán)境變量的概念。后來再在Windows的dos操作時(shí)就瞬間明白這種東西都是通用的概念。主要參考文章Linux學(xué)習(xí)-環(huán)境變量和可執(zhí)行屬性,群體基因組(二)
環(huán)境變量:首先要明白,Linux操作系統(tǒng)執(zhí)行如ls/cd/mkdir這類的命令實(shí)際是系統(tǒng)從內(nèi)置的文件目錄下調(diào)用這些ls/cd/mkdir的程序文件然后執(zhí)行。而這系統(tǒng)內(nèi)置的文件目錄就是環(huán)境變量。環(huán)境變量就是告訴電腦操作系統(tǒng)幾個(gè)目錄,這幾個(gè)目錄下存儲著可執(zhí)行的文件。
PATH: ~~~~~~~~; 而加入永久變量可以通過將上述export命令加入到~/.bashrc文件里。如 echo 'PATH=$PATH:~/biosoft/samtools/bin' >> ~/.bashrc ,然后再source ~/.bashrc即可
系統(tǒng)中環(huán)境變量的名字是PATH, 可通過echo
功能:sratookit主要功能現(xiàn)階段主要還是把 NCBI的SRA數(shù)據(jù)庫中的NGS原始測序數(shù)據(jù) 從sra格式轉(zhuǎn)換到fastq格式,從而進(jìn)行下一步的操作。 其他的還有prefetch 功能直接根據(jù)編號下載SRA數(shù)據(jù)
官方主頁:NCBI SRA Toolkit
其他文檔說明:SRA_TOOLKIT documents
具體安裝:
mkdir bio_soft && cd bio_softwget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-centos_linux64.tar.gz ### 選擇不同系統(tǒng)下的版本,一般服務(wù)器的Linux版本為centos。tar -zxvf sratoolkit.2.8.2-1-centos_linux64.tar.gzecho ' PATH=$PATH:~/bio_soft/sratoolkit.2.8.2-1-centos_linux64.tar.gz/bin' >> ~/.bashrc ###添加到環(huán)境變量source ~/.bashrc ##是環(huán)境變量生效###以下為測試一下,和preftch -cprefetch -v ##測試版本號preftch -c SRR390728 ##速度有點(diǎn)慢,會默認(rèn)下載到家目錄的ncbi/public/sra文件夾下。
功能:處理SAM,BAM文件的工具軟件合集。其中BAM是二進(jìn)制的文件格式占用空間小,在高通量測序的數(shù)據(jù)處理中極為重要。
官方主頁:主頁
其他文檔說明:OA_maque博客介紹 | 寂寞先生_SAMTOOLS常用命令詳解 | SAMtools和BCFtools工具詳解
具體安裝:
cd bio_softwget https://github.com/samtools/samtools/releases/download/1.6/samtools-1.6.tar.bz2tar -jxvf samtools-1.6.tar.bz2cd samtools-1.6./configure ### 軟件的編譯過程。make ###編譯結(jié)束會發(fā)現(xiàn)samtools程序,把這個(gè)軟件程序移到環(huán)境變量文件夾下及可以使用。
ps. 自己裝軟件,真的是會遇到各種麻煩。軟件編譯啊,版本不對啊,軟件安裝得依賴于各種奇奇怪怪的前置包,有的軟件就是死活裝不上。裝的時(shí)候就在想,如果Linux下有類似Windows的360軟件管家這種東西該多好,直接一鍵安裝,然后就能直接使用。也不必浪費(fèi)時(shí)間在裝軟件這種事情上面了。結(jié)果后來看文章:還真的是有!這神器就是conda。
參考文章,博客:青山屋主_知乎,生信軟件的好幫手-bioconda,Linux學(xué)習(xí) - 又雙叒叕一個(gè)軟件安裝方法
CONDA介紹:Conda是一種通用包管理系統(tǒng),旨在構(gòu)建和管理任何語言的任何類型的軟件。通常與Anaconda和Miniconda一起分發(fā)。Anaconda囊括了100多個(gè)常用的Python包,一鍵式安裝,解決Python包安裝的痛苦。但后來發(fā)現(xiàn),其還有更多的功能,尤其是其增加了bionconda頻道后,生物信息分析的1500多個(gè)軟件都可以一鍵安裝了,免去了編譯時(shí)間浪費(fèi)和解決庫文件安裝的問題。簡單來說,就是一鍵安裝生物信息軟件,還能日后更新,另外,還有一個(gè)重要的工作環(huán)境概念,可以簡單的配置不同Python版本的環(huán)境、不同Python包的環(huán)境、不同R環(huán)境和R包的環(huán)境。
下載:下載Anaconda或者miniconda。miniconda是一個(gè)簡化版本,保留了一些核心的功能,對于生信安裝軟件來說,miniconda已經(jīng)足夠,如果日后再出現(xiàn)什么問題,那就再重新裝Anaconda再說吧
wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh ## 下載
安裝:輸入命令
bash Miniconda3-latest-Linux-x86_64.sh
然后就是一路回車加輸入yes,最后有一個(gè)將miniconda目錄輸入到環(huán)境變量~/.bashrc中,輸入yes,還未完成,最后輸入命令 source ~/.bashrc 使環(huán)境變量文件生效,大功告成。
添加channels頻道:重要的就是bioconda環(huán)境還有清華的鏡像,里面包含幾乎所有常用的生信軟件。
conda config --add channels rconda config --add channels defaultsconda config --add channels conda-forgeconda config --add channels bioconda conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/freeconda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/biocondaconda install -c bioconda multiqc
軟件搜索:看你要的生信軟件是否有,以samtools為例
conda search samtools
軟件安裝:
conda install samtoolsconda install samtools=(版本號)
其他目前常用的一些conda命令:
conda config --get channels ## 查看已添加的channelsconda config --remove channels ~~~ ##刪除頻道conda update conda ## 更新conda軟件conda remove 軟件名 ## 刪除指定軟件conda update 軟件名 ## 更新指定軟件conda list ## 查看已經(jīng)安裝軟件conda config --remove channels ~~~source activate python=2.7source deactivate
還有重要的創(chuàng)建不同軟件的運(yùn)行環(huán)境,可以運(yùn)行不同軟件的多個(gè)版本。具體操作參考Linux學(xué)習(xí) - 又雙叒叕一個(gè)軟件安裝方法
功能:對測序結(jié)果進(jìn)行可視化展示,二代測序數(shù)據(jù)質(zhì)量分析軟件
官方主頁: 主頁
其他的重要參考博客文章測序分析——使用 FastQC 做質(zhì)控
安裝:有了conda就很簡單了
conda install fastqc
功能:對測序數(shù)據(jù)的raw reads進(jìn)行剪切和過濾
官網(wǎng) :Trimmomatic
conda install trimmomatic
功能:將測序結(jié)果比對到基因組上,通常是對有參轉(zhuǎn)錄組進(jìn)行的比對。HISAT2是TopHat2/Bowti2的繼任者,使用改進(jìn)的BWT算法,實(shí)現(xiàn)了更快的速度和更少的資源占用,作者推薦TopHat2/Bowti2和HISAT的用戶轉(zhuǎn)換到HISAT2。
官網(wǎng):官網(wǎng)地址
其他相關(guān)網(wǎng)站:PloB 博客
conda install hisat2### 基本命令trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
功能: 一款用于reads計(jì)數(shù)的軟件,他能對位于基因組上的一些單位的reads數(shù)進(jìn)行統(tǒng)計(jì),這里所說的單位主要是指染色體上的一組位置區(qū)間(我們常見的就是gene exon
相關(guān)介紹中文相關(guān)介紹:Bluesky's blog
OA_maque
conda install htseq ##會有一些其他依賴的軟件,默認(rèn)安裝就好
對于目前還不是很懂的R語言來說,日后得熟悉基本語法,主攻R語言的畫圖功能。
R和R studio直接在Windows電腦上安裝就好。其中基于R軟件的一些轉(zhuǎn)錄組差異表達(dá)矩陣分析的包:如 ballgown, sleuth, ggplot2等等,需要安裝Bioconductor,也是類似的一鍵安裝生物信息軟件的程序。
聯(lián)系客服