找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
yeec近年来原创帖合集 本站基础知识下载汇总 yeec网站学习币充值链接 学习中心正式上线

[转发]Phrap快速入门

[复制链接]
郑振寰 发表于 2007-6-5 16:59 | 显示全部楼层 |阅读模式

本手册主要介绍phred\phrap-基因组的序列装配软件包。Phred是phred\phrap软件包的一部分,主要是用来分析和装配基因组中大片段序列。phred\phrap软件包由华盛顿大学分子生物技术学院的Phil Green和Brent Ewing开发,主要用于学术科研活动。Phred能处理测序仪直接生成的色谱图,并且产生相关的信息。该手册只对Phred 作简要的介绍, 并不能替代Phred 的官方说明文档(http:\\www.phred.org),给实际应用提供一个快速参考.

数据来源(source data)
最主要的数据来源是测序仪生成的峰图(trace files)。峰图在计算机上可以用色谱图(chromatograms)表示:

(图1 测序仪生成的色谱图,chromatograms)

不同的测序仪会给出不同的色谱文件,Phred能够识别三种格式的色谱文件,SCF, ABI和预先处理的ESD格式。

Phred参数文件(Phred Parameter File)
使用phred首先就得配置化学物质参数文件(Phred Parameter File)。phred\phrap软件包中phredpar.dat文件,就是有关测序仪每个色谱峰所代表的化学物质的参数配置文件。用户可以直接编辑它,需要时也可以加入新的化学物质的描述信息。文件格式如下:

(图2 Phred参数文件(Phred Parameter File)的格式)

其中:
1. primer ID 代表:染色物质的ID 号(编号),此ID 号应该和色谱中染料的ID 号一致(如果您不知道如何确定Primer ID号,不必担心,Phred程序会给出提示的)。
2. chemistry 代表发生的化学反应,可供选择的选项有“primer,terminator,unknown”。
3. dye 代表染料的类型,有rhodamine, d-rhodamine, big-dye, energy-transfer, bodipy,unknown等选项供选择。
4. machine 代表测序仪型号。phred(版本 0.020425.c)现在可识别的仪器有:
ABI_373_377, ABI_3100, ABI_3700, Beckman_CEQ_2000, LI-COR_4000, and MolDyn_MegaBACE。
phredpar.dat 文件必须放在所有用户均可访问的目录, 并且可以通过 PHRED_PARAMETER_FILE环境变量来自定义其存放位置。
例如,在Unix系统中:
export PHRED_PARAMETER_FILE=\usr\local\etc\phredpar.dat
在Windows系统中:
set PHRED_PARAMETER_FILE=\usr\local\etc\phredpar.dat

Phred输入参数(Phred input parameters)
输入参数表示色谱图文件在计算机里面的路径,有以下两种设置方式:
-id <directory>
## -id选项表示所有色谱文件的所在目录。
-if <text file>
## -if 选项表示每个色谱文件的绝对路径。

Phred输出参数(Phred output parameters)
输出参数用来设置输出文件的格式。输出参数分为base calling, quality, SCF, PHD和poly六大类(每类对应一个选项族),其不同组合能够产生几种完全不同的输出格式。
Base calling 选项族主要是关于输出的DNA序列,可供选择的选项有如下几种:
-st <fasta/xbap >
## -st设定输出文件格式,能被识别的格式有fasta和xbap,默认设置为fasta格式。
-s
## -s 在当前目录下创建序列文件,并且沿用色谱图(chromatogram)文件名,贯于.sep的后缀。
-sd <directory>
## -sd 在指定目录下创建序列文件,并且沿用色谱图(chromatogram)文件名,贯于.seq的后缀。
-sa <file>
## -sa 创建单个序列文件,包括所有处理过的色谱图(chromatograms)的结果。

Quality 选项族主要是DNA序列的测序质量信息输出的相关选项,有如下几种:
-qt <fasta/xbap/mix>
## -qt 各种输出文件格式的测序质量,fasta 选项对应修整过后的FASTA(trimmed
FASTA,在“phred processing options”中设定)格式,xbap 选项对应XBAP 格式,mix选
项对应未修整过后的FASTA(untrimmed FASTA,这也是默认的FASTA格式);在设定选
项时请参照“phred processing options”中的对应选项。
-q
## -q 在当前目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加“ .qual ”后缀。
-qd <directory>
## -qd在指定目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加“. qual”后缀。
-qa <file>
## -qa 创建单个测序质量文件,包括所有的处理过的色谱图(chromatogram)的结果。
-qr <file>
## -qr 创建一个柱状图文件,统计每一个色谱图(chromatogram)中高质量碱基(high quality bases)的数目。
SCF选项族设置Phred产生基于色谱图(chromatogram)SCF格式的文件,这些文件可以用于那些不能识别ABI和ESD格式的程序。有如下几种:
-c
## -c 在当前目录下创建SCF文件,并且沿用色谱图(chromatogram)文件名。
-cd <directory>
## -cd在指定目录下创建SCF文件,并且沿用色谱图(chromatogram)文件名。
-cp <1/2>
## -cp编码色谱图(chromatogram)中每个色谱峰值的比特数
-cv <1/2/3>
## -cv 用SCF1,SCF2或者SCF3格式输出SCF文件。
-cs
## -cs 确保色谱图(chromatogram)中最大的峰度值代表SCF文件中最高值。PHD选项族设置Phred程序基于色谱图(chromatogram)产生PHD格式的文件,这些文件可供人直接阅读,并且含有base calling和quality(测序质量)的信息。有如下几种:
-p
## -p 在当前目录下创建PHD文件,并且沿用色谱图(chromatogram)文件名,附加.phd..l 的后缀。

-pd <directory>
## -pd在指定目录下创建PHD文件,并且沿用色谱图(chromatogram)文件名,附加 .phd..l 的后缀。
poly 选项族设置Phred 程序产生poly 文件(poly files)。这些文件包含了色谱图(chromatogram)中的每个峰值,可用于检测多态性碱基(polymorphic bases)。有如下几种:
-d
## -d 在当前目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加 .poly 的后缀。
-dd <directory>
## -dd在指定目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加 . poly 的后缀。
其他不能归为上述几类但与输出相关的选项有:
-raw <name>
## -raw 当处理单个文件时,以name为标题。
-log
## -log在当前目录下生成“phred.log”日志文件。
-v <n>
## -v 设置增加输出的冗余(increase verbosity of output by n)。
-tag
## -tag 做一些公共的标记(tag)以便于程序解析文档。
-h
## -h 显示一个简要的帮助。
-doc
## -doc 显示phred的全部文档(documentation)。
-V
## -V 显示phred的版本信息。

Phred处理选项(Phred processing options)
Phred处理选项是为经验丰富的用户提供的,可以改变phred的处理流程。可供配置的选项如下:
-nocall
## -nocall 不用base calling算法对色谱图(chromatogram)的峰值进行检测,输出的序列是由色谱图(chromatogram)中的峰值直接转换而来,这会影响到一些碱基修整和输出选项(This affects the base trimming and output options)。

-nonorm
## -nonorm 设置phred 不对色谱图(chromatogram)中的峰值进行标准化处理(normalization)。如果进行标准化处理,就会用每个核苷酸信号的中值(medium value)来代替峰值(peak)。这个选项不推荐使用,除非base calling算法由于有很多的峰值噪声而失效。
-nosplit
## -nosplit 设置phred不对色谱图(chromatogram)中已压缩的峰值进行分割处理。默认情况下,phred对相连的G , C峰(merged CC and GG peaks)进行识别并分割开来。
-nocmpqv
## -nocmpqv 设置phred不对色谱图(chromatogram)中的峰值进行压缩处理。默认情况下,phred会降低相连的G , C峰(merged CC and GG peaks)的测序质量分值,因此如果这个打开该选项会影响输出文件中的测序质量。
-ceilqv <value>
## -ceilqv 为每个碱基设定最高的测序质量值,当碱基的测序质量值超过该值时用该值替代。
-beg_pred <position>
## -beg_pred 设定开始进行峰值预测的位置。该位置应该落在一个非常好的区域(region)中,在此区域(region)中每个峰值间的间隔都很均一(even)。
-exit_nomatch
## 如果在Phred参数文件(Phred Parameter File)中没发现相对应的primer ID则停止执行。
-process _nomatch
## 如果在Phred参数文件(Phred Parameter File)中没发现相对应的primer ID则搜索Phred参数文件(Phred Parameter File)中的“_no_matching_string_”条目并用该条目来识别色谱图中的峰,如果还是没有定义则停止执行。
以下的选项是针对phred 修整(trimming)碱基的设定。这些选项在定位高测序质量区(high quality regions)非常有用,并且能裁减掉一些低质量的区域。可供选择的选项如下:
-trim <enzyme sequence>
## -trim 查找并定位色谱图(chromatogram)中的高测序质量区(high quality regions)。如果提供了限制性酶的序列,phred会从该酶切位点的开始位置开始进行修整,推荐将酶切序列置为空(enzyme sequence 即用空的双引号"")。
-trim_alt <enzyme sequence>
## -trim_alt 同-trim 一样定位高测序质量区(high quality regions),不过使用的是“最大分值区域”(“Maximum Score Subsequence”)的算法。推荐使用。“Maximum Score Subsequence”大体思路是将每个碱基的错误概率(由机器提供)减去一个cutoff(默认的为0.05),所得的结果再相加直到分值最大为止,可见不一定序列越长就分值越高,关键是看每个碱基的测序质量。
-trim_cutoff <value>
## 在用最大分值区域”(“Maximum Score Subsequence”)的算法时设定一个错误阈值。默认的为0.05。
-trim_fasta
## 修整后的序列和质量分值写入FASTA格式的文件中。
-trim_scf
## 修整后的序列和质量分值写入SCF格式的文件中。
-trim_phd
## 修整后的序列和质量分值写入PHD格式的文件中。
-trim_out
## 修整后的序列和质量分值写入FASTA SCF PHD三种格式的文件中。

phred的质量分值(Phred quality determination)
为了确定最后的质量分值,phred分析四种碱基的在色谱图(chromatogram)中的峰轨迹(trace),利用各种识别方法尽量识别每个峰轨迹(trace),同时兼顾全局的峰轨迹(trace)的识别;言下之意就是说可能某个峰轨迹(trace)用某种方法可以很好的识别但如果这造成全局其他的峰轨迹(trace)不能得到很好的识别,这样的方法不可取。选定了某种方法后,这样在保证全局的识别情况下必然会有单个的峰轨迹(trace)被认为是错误
的需要校正,这样就可以统计出碱基测序错误的频度,比如说每100 个碱基就有一个错误。然后就可以用这个错误频度来度量测序的质量了。公式如下:
Q = -10 log10 (P)

公式中的Q代表了碱基的测序质量值,P代表了每个碱基出错的概率。例如,如果每100个碱基就有一个错误,那么P=0.01,这样Q就为20;如果P=0.001, Q为30。注意当P为错误阈值(cutoff,默认为0.05)时,Q近似为13,所以13就可用作背景来估计总体的质量值。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
看贴要回是本分,有问必答是人才,解决问题回贴是公德.
医疗设备维修.维修咨询(请尽可能在论坛提问),协助维修,上门服务.
电话:13991827712

yeec维修网视频培训资料购买链接
BeckmanCoulter DXA系列培训资料
Ortho VITROS 系列培训资料
Ortho enGen_ThermoFisher TCA 实验室自动化系统培训资料
Roche Cobas 实验室自动化系统培训资料
Roche Cobas modular系列分析仪培训资料
Horiba-ABX Yumizen系列培训资料
DiaSorin Liaison系列培训资料
Advia2120培训资料
Inpeco-Aptio系列培训资料
Atellica Solution系列培训资料
Siemens Immunoassay系列培训资料 西门子化学发光系列
SIEMENS Advia系列培训资料 西门子生化系列
Toshiba/Abbott系列培训资料 东芝雅培生化系列
Abbott Architect 系列培训资料 雅培生化化学发光系列
ACL TOP 系列培训资料 沃芬TOP血凝系列
BeckmanCoulter Immunoassay系列培训资料 贝克曼化学发光系列
BeckmanCoulter DXH 系列培训资料 贝克曼DXH血球系列
BeckmanCoulter自动样品处理系统介绍性培训资料 贝克曼前后处理流水线系列
BeckmanCoulter AU系列培训资料 贝克曼AU生化系列
BeckmanCoulter DXC系列培训资料 贝克曼DXC生化系列
LaboSpect003/008/AS 7100/7180分析仪培训资料
Horiba-ABX系列培训资料 Horiba-ABX血球系列
Sysmex 血凝系列培训(CA/CS)
Sysmex 尿液分析系列培训(UF1000/5000/UC3500)
Sysmex 血球系列培训(KX21/POCH/XS/XT/XE)
Sysmex XN系列培训(XN-L/XN1000/XN2000/XN3000/XN9000)
Sysmex HISCL系列培训
可直接淘宝店铺购买https://yeec.taobao.com,或咨询手机/微信:13991827712,QQ:67708237
 

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

第十九届检验仪器(西安)培训班通知

QQ|申请友链|手机版|小黑屋|加入QQ群|注销账号|yeec维修网

GMT+8, 2024-5-15 07:35 , Processed in 0.502533 second(s), 34 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表