2019 年 10 月 27 日 改訂
井上 潤

RefSeq は,Reference Sequenceの略で、配列解析に "reference"(リファレンス)となるべき配列データベースのことです.NCBI のスタッフが,最も代表としてふさわしい (参照の基準となる) 遺伝子配列をGenBank などのデータベースから目で見て選んで,RefSeq データベースを作成しています (統合テレビより).

RefSeq と GenBank の違い
RefSeq と GenBank の違いについては,こちらをご覧ください.重要な部分を抜粋します.


NCBI が既存のデータから作成
あらゆる生物 (250,000 種)
モデル生物 (4000 種)

  • In some cases, creation of a RefSeq record involves no more than selecting a single good example from GenBank and making a copy in RefSeq, which credits the GenBank record. In other cases, NCBI in-house staff generates and annotates the records based on the existing primary data, sometimes by combining parts of several GenBank records.

  • RefSeq records appear in a similar format as the GenBank records from which they are derived. However, they can be distinguished from GenBank records by their accession prefix, which includes an underscore, and a notation in the “comment” field that indicates the RefSeq status.


以下のようにブラウザを用いてダウンロードする方が速度は早いですが,ターミナルから ftp コマンドを用いてダウンロードもできます.ターミナルから ftp で入ると,60秒の間に何も操作がないと,自動的に接続が切れてしまいます.

$ ftp
ftp> open
Connected to
This warning banner provides privacy and security notices consistent with
220 FTP Server ready.
Name ( anonymous
331 Anonymous login ok, send your complete email address as your password
Password: [入力せずにリターン]
230 Anonymous access granted, restrictions apply
Remote system type is UNIX.
Using binary mode to transfer files.
ftp> ls
229 Entering Extended Passive Mode (|||50471|)
150 Opening BINARY mode data connection for file list
dr-xr-xr-x 4 ftp anonymous 4096 Oct 28 02:48 1000genomes
-r--r--r-- 1 ftp anonymous 10738466816 Mar 7 2018 10GB
dr-xr-xr-x 13 ftp anonymous 253952 Oct 28 02:48 genbank
dr-xr-xr-x 6 ftp anonymous 4096 Feb 28 2018 gene
dr-xr-xr-x 506 ftp anonymous 40960 Oct 28 02:48 genomes
dr-xr-xr-x 19 ftp anonymous 4096 Sep 17 19:31 refseq
ftp> pwd
Remote directory: /genomes/all/GCF/000/003/605/GCF_000003605.2_Skow_1.1
ftp> history
0 open
0 cd genomes
0 cd refseq
0 cd invertebrate
0 cd Saccoglossus_kowalevskii
0 cd representative
0 cd GCF_000003605.2_Skow_1.1
0 get GCF_000003605.2_Skow_1.1_rna.gbff.gz

こちら「コマンドラインを用いたダウンロード」も参照してください (2018 年 9 月).

以下に示すように,genome ディレクトリから集めます.Safari だと「上位のディレクトリへ移動」がでないので,Firefox で操作しました.

NCBI 形式の fasta を Ensembl 形式にする

ゲノムデータのファスタファイルの name line を NCBI 形式 (_genomic.fna ファイル) から Ensembl 形式 (.dna.primary_assembly.fa あるいは .dna.toplevel.fa ファイル) に変更します。

繰り返し配列の mask 方は、 以下の記述 (README.txt) を参照。

Example commands to convert lower-case masking to masking with Ns (hard-masked):
perl -pe '/^[^>]/ and $_=~ s/[a-z]/N/g' genomic.fna > genomic.N-masked.fna
awk '{if(/^[^>]/)gsub(/[a-z]/,"N");print $0}' genomic.fna > genomic.N-masked.fna

(2019 年 10 月)

gff ファイルから TSS など座標を抽出する

(2020 年 2 月)


NCBI のサイト.

FTP site.

BioPerl の駄文

とても便利そうな Perl script

遺伝子の RefSeqID を調べる


ヒトゲノム計画と RefSeq

RefSeq の存在意義について.

RefSeq を Local Blast で解析する
They have automated calculation of homologs in HomoloGene:

If you want to run local blast, I would suggest the refseq_rna database here:

These are pre-formatted for blast. That database contains more than mammals. You can limit your local search of that database to mammals by supplying a text file containing gi list along with the "-l " command line option. Make that gi list in the Entrez Nucleotide database by searching with this query:

mammals[orgn] AND refseq[filter] AND mrna[filter]

Once retrieved on the web page, change Display to "GI List" and send to file.
Get blast here:

More documentation on setting up and using blast (among other things) is here: