SRA データのダウンロード

 
2018 年 10 月 30 日 改訂

ここでは,NCBI が提供している SRA (Sequence Read Archive) という次世代シーケンサーの生データ集から SRA ファイルをダウンロードして,fastq ファイルに変換する処理を説明します.

例として,Symsagittifera roscoffensis (無腸類) の TSA が出ているエントリを例としています.ここでは,公開されている SRA データ解析に便利な,SRA Toolkit を使います.slurm の job script はこちらを参照してください.


データ確認
まず,NCBI で TSA のページを開き,データの内容を調べます.
https://www.ncbi.nlm.nih.gov/nuccore/1219878365
上の画面で Sequence Read Archive の右にある SRR5760179 を押すと,下の画面が現れます.
https://www.ncbi.nlm.nih.gov/sra/SRR5760179

上の画面,Run にある SRR 5760179 > Download タブを押すと,"You need SRA Toolkit to operate on SRA runs." と言われます.


ダウンロード
prefetch で,SRA データ (.sra ファイル) をダウンロードします.

prefetch --option-file list.txt --max-size 100GB

--option-file
list.txt に SRR5760179 などの ID をリストアップ.Sequence Read Archive に ID が複数ある場合は,改行で分けて ID を複数記述しても良い.

--max-size
prefetch は 20G 以上の場合は,--max-size でデータサイズの指定が必要.

ダウンロードしたファイルは,~/ncbi/public/sra/ に保存される.

[cluster:Symsagittifera-roscoffensis]$ ls ~/ncbi/public/sra/
SRR5760179.sra




ペアエンドデータのダウンロード & fastq 変換
ダウンロード & fastq 変換: fastq-dump で,SRA データをダウンロードし,その後自動的に得られた .sra 形式を fastq フォーマットに変換します.

fastq-dump SRR390728 --split-files

--split-files
SRA ファイルに入っているペアードデンド・リードを,左と右に分けます.つまり二つの fastq ファイルができることになる.シングルエンドに適用すると誤りなので注意. また,--split-file s をつけないと,ペアードエンドデータの解析にならないので,注意してください.

fastq 変換:以下のコマンドで,.sra ファイルの fastq 変換のみを行うこともできます.

fastq-dump ~/ncbi/public/sra/SRR390728.sra --split-files




インストールFastq ファイル name line の確認

一応,fastq ファイルの name line がどのようになっているかチェックします.

[cluster:Symsagittifera-roscoffensis]$ head -n1 SRR5760179_1.fastq
@SRR5760179.1 HWI-D00692:23:C6KTNANXX:8:1101:1171:2160 length=126


リンク

Plamsonntagmorgen

SRA tool kit の使い方.fastq-dump と prefetch の違いなど.

バイオインフォ道場

bioinformatics

 

トランスクリプトームデータ解析シリーズ

次回は「2. fastq データの検証: fastqc」 のページです.作成した fastq ファイルの品質チェックを行います.
1. SRA データのダウンロード
2. fastq データの検証: fastqc
3.アダプター配列の除去: Trimmomatic
4. アッセンブル: Trinity
5. 転写配列の推定: TransDecoder
6. 類似配列の除去:CD-HIT
7. オーソログ推定: ORTHOSCOPE

このページは主に OIST の同僚 AA さんから教えていただいた情報をもとに作成しています.ご協力に感謝します.