编辑: 山南水北 2019-09-24
! 遗传学报!

0 1 ')/% 收稿日期: %&&(

1 &2

1 (&;

修回日期: %&&'

1 &%

1 )( 基金项目: 国家自然科学基金资助项目 ( 编号: [ -34456789 :$ .

#7;

5;

88 ?53=5U/2KU 0//2T0TR2/ [32UFT 3U4HU]% (1'+761 ?@0HT +- +7' ,!+$&8 6&P'&87$8)$( 8)8 +7' %(')(&6" #% 1&!:-7!6 (1&9,%7,1 )% @2FNVBAQ,@2FJAAADV )$8 @2FBNNJC(1&9 %1+7!8 *7( )'& (1'&& 8#8% +- 5'+$6 -+'9% +- !"#$%&), (1'&& 9+8&S7&8#,(&8 -'+9 /F?R ,+$(#6 /TMAAVONN *" )7(+9)(&8 ,+9:7( 7%#$6 6&$& :'&8#,(#+$ 9&(1+8, +' %7,1 )% @2FNJVBNB )$8 @2FNVQAAQ (*+(1 %1+7!8 *& '01234$&, *7( )'& (5+ 8#8% +- 5'+$6 -+'9% +- '01234$&), (5+ 9+8&S7&8#,(&8 -'+9 /F?R ,+$(#6 /TMANADAD *" )7(+9)(&8 ,+9:7P 7%#$6 6&$& :'&8#,(#+$ 9&(1+8< T1&'&-+'&, (1&8&8 L&! 179)$ 6&$&% 9)" 1&)L" ()%;

, 51#,1 1&8 5#(1#$ ) !+$6 :&'#+8 +- (#9&< H+ 179)$ 6&$+9& ,+8#$6 '&6#8 *" ,+9P :7(&' %1+7!8 *& 7%&8 5#(1 ,)7(#+$< T1&7*!#%1&8 #$ (1& :)%( 8#8 7( (1&9# (1& /F?R 179)$ 6&$& 9+8&S7&$,&< 0( (1& H&L&$(1 R$I79)$ >&$+9& F+1&!8 #$ 0:'#! JAAJ, 5&7*!#%1&8 (1&1#$6 '&%7!( +$ (1#1& ,+997$9 179)$ 6&$+9&;

UHT;

56

758592 ,!+$#$6;

6&$& #8&3U4HU]9)(#,% 通过新基因计算机识别与实验确认对 )*+, 人类 基因数据库一些模式参考序列错误的 分析与纠正 张德礼N, J ,季^ 梁N ,李衍达N (N_ 清华大学信息科学技术学院自动化系生物信息学研究所信息科学技术国家实验室,智能技术与系统国家重点实验室, 生物信息学教育部重点实验室,北京^ NAAADV;

J< 北京大学医学部,北京^ NAAADE) 摘^ 要:采用生物信息学分析与实验确认相结合的技术路线, 通过所识别的基因在非冗余数据库比对发现了网上 公布的计算机注释人类基因组编码序列存在各种类型的多处错误, 包括 ,./0 水平的一个或一段碱基插入、 缺失 或突变, 或是这些错误的不同排列组合, 其中以错误插入为多, 往往导致编码氨基酸的移码突变.最先举证了/F?R >U/2KU 0$X&,( 预测人类新基因的下列错误类型: (N) 开放读码框架 ( 234) 中错误插入一个碱基造成 编码氨基酸移码;

(J) 错误拼接;

(E) 开放读框中错误插入一个或一段碱基造成该读框提前终止.只编码 /P端氨基 J E V 遗传学报^ 0,H#EN^ /+< O^ JAAV 酸的 !"#$ 序列而不完整;

(%) 只有编码 &'端氨基酸序列的 !"#$ 而不完整;

(() 只是正确基因 )*+ 中间的一段编 码蛋白 !"#$ 序列而不完整, 缺#'端与 &'端氨基酸序列, 并且将不完整蛋白氨基酸序列的第一个非起始码氨基酸 错误地预测为起始码氨基酸, 如将 , 错误地预测为 -;

(.) 开放读框中错误插入一个或一段碱基造成前面出现不该 有的终止码, 因而编码蛋白缺开头部分氨基酸;

(/) 可能将污染基因组序列当作完整基因 !"#$ 序列对待而预测出 所谓单一外显子基因.即便真是基因, 也只是较长单一外显子 0*#$ 中有一小 )*+, 而)*+ 起始码上游同一相位 确实存在终止码, 无其他特点符合基因条件;

(1) 所预测 基因只有)*+, 而)*+ 两端没有任何234 证据, 可据此)*+ 拼接出受

234 和人类基因组双重支持的完整基因 !"#$ (开放读框上游同一相位有终止码) , 预示所预测 )*+ 参考序列可能不正确;

(5) 有234 实验证据支持存在基因的人类基因组序列范围内又被预测出一条相似但更小的 蛋白编码基因, 因而新预测基因有可能是错误的. 关键词:人类基因组;

表达序列标签;

计算机克隆;

基因纠正;

模式参考序列;

生物信息学 中图分类号:46758;

951/: : : 文献标识码:$: : : 文章编号:;

7/5'% 非冗余 数据库比对寻找高度同源的相应序列, 通过下述前

7 种基本方法纠错并可采用后

7 种参考方法: ($>' 蛋白进化保守, 在原核和真核生物不同种属间同源性非常 高, 包括果蝇、 线虫、 酵母、 爪蟾、 小鼠、 大鼠等, 其中 小鼠与人有 9&? 的同源 性, 说明 =>$>' 具有重要 的生物学功能.=>$>' 在人体分布广泛, @A 种组织 中均有表达, 胚胎组织表达的水平明显低于成年组 织.功能研究表明, =>$>' 蛋白具有促进某些肿瘤 细胞 ( B"&(、 CD$+E(A、 C$*+: 等) 的凋亡和抑制增 殖的效应, 说明它是参与细胞凋亡和抑制细胞生长的 重要调控分子.细胞凋亡过程中,=>$>' 的;

FGH 水平及蛋白质表达均明显增高.本中心的工作进一 步证明其在细胞凋亡早期出现核转位现象[E] . !"#"$ 全长为 '!% I0 ,>GH 或''9 I0 ;

FGH, 基因组序列全长 &J %EA KI ( 图@) , 含有 & 个外显子 (&! L %&: I0)和'个内含子 (A!A L ! :%E I0) , 位于人类 %9 号染色体 G)M(%%%9&J 9.该基因 #F* 为!' L @(! I0 ,>GH 序列, 横跨全部 & 个外显 子.#F* 起始码上游同一相位有一个终止码 )DH, #F* 后有加尾信号 HH)HHH 和=1.NH 尾(由@( 个 碱基 H 组成) . !((% 年%( 月%( 日, G$OP DQG#CQ H8812/2418 =51R-,2 提交了一个人类假定蛋白 S=M(A9:&@(': 氨 基酸编码蛋白, 类似于人类 05175/;

;

-6 ,-.. 6-/2< ', 缩写为=>$>' 和)*HF%9 81T-. /01021343+5-./2-6 7-8-) 编码基因的模式参考序列SC M (A9:&@ ('E@ I0 ;

FGH) .!((! 年!月:日, G$OP DQG#CQ H8812/2418 =51R-,2 将其修改为一个人类假 定蛋 白S= M (A9:&@ ( ': 氨基酸编码蛋白为人类=>$>') 编码基因 !"#"$ (编码 ': //)的模式参考 序列 SCM(A9:&@ ('%9 I0 ;

FGH) .这一模式参考序 列是 G$OP 注释项目采用基因预测方法 O"HU) 通过 自动计算分析从 G$OP ,18247 G)M(%%!@( 中预测获得 的, 并有 ;

FGH /86 QU) 证据支持.!"#"$ 只与人类 假定基因 连锁, ''9 I0 ,>GH 的!"#"$ 和'%9 I0 ,>GH 的 的全长 ,>GH 序列在 9!? 匹配范围内有 99? 的同源性 (图') , 其#F* 编 码蛋白在 @@? 匹配范围内有 EE? 的同源性 (图&) . 图)" 人类 !"#"$ (340D&E) 的基因组成和染色体定位示意图

4567 )" %?F=:=C=:A8 :A,,

596 A9B 6;

9=:5- =F6A95GA !"#"$ (340D&E) V V '%9 I0 的实际上只是在!"#"$ 基因 ,>GH 的%9( 与%9% 位碱基之间插入了一个碱 基D, 末尾 缺少!"#"$ 基因的'%9 L ''9 位=1.NH 尾, 然而其 #F* 变为 !' L %9E I0, 编码 ':// 蛋白的 % L '' 位氨基酸残基正好就是 !"#"$ (编码 %!' 氨基酸残基) 的%L'' 位氨基酸残基, '& L ':位氨基酸残基与 !"#"$ 的不同. #"$ 的第三外显子末尾只多出 !"#"$ 第三内含子 ' A @ WBHGD >-+"4 ,- ./0 : H8/.N343, P6-824X4,/2418 /86 $155-,2418 1X U1;

- Q55153 1X C16-. F-X3-Y3 H00-/5-6

48 G$OP BZ;

/8 … 图!" 本中心实验确认 !"#"$ 的和(*+, 预测 !"#"$ 的 序列比对结果 ./01 !" )2/034536 $567553

89 !"#"$ :5;

/9/5< $= 8>;

2?$8;

?68;

= ?3<

89 !"#"$ %;

5 $EG -> *''7 的!"# 终止码提前是计算机错误预测增加 $%$ 位 冗余碱基 & 导致的结果.实际上, 是本 中心最先克隆 *+,+' 的错误形式, 前者的正确形式 应该是 后者.我们发现-,./ 基因组注释项目于011$ 年$0 月$1 日和

0110 年0月(日分别提交的 2!,$030'1 和 的模式参考序列均是本 中心于 $%%% 年0月$日实验确认编码 $0')) *+4 ,+' ( 5"6"$%) 蛋白(66+$$'(%

78 669$''$%) 的6(6#1$=%'') 的错误形式. 图!" 本中心实验确认 编码 +,# -- 和)./0 预测 编码 #1 -- 的蛋白质序列比对结果

2345 !" *6347897:937 >9?@97'9 %9:A997 +,# -- 9';

B9B %C D9=3 > 0? $? => 错误类型 =: 编码 ,4端氨基酸序列的不 完整 @+-6 例证$:我们用计算机识别的!"#$%&' (.A11100$4:)BCDE ==F0F0) 基因 U&+'"%B、 >U!&&'M"、 >U&+AB''、 >U#B""AA、 >JM'A+M&) 和人类基因组的双重支持, 开放读框M+" S & &## ,-的翻译起始码上游同 一相位有终止码. ,47O?6M'A##' 与IG>/,0 ',9 05,74/? 7-0',@ /A'6/7,

78 !"#$%&", ' ,7B53 =C4', 05,5('4,%/,@ /5N 54OO0-, ,PQ;

42: +LCMBECA)5,?79/,0 ' >-765/,

78 !&& '4/,7 '?/9 -5;

/9C5;

R)$6?M688 基因组序列全长6C> 8M6 @;

( 图6E) , 含有

8 个外显子 (6:A D 8?8 ;

6. 图!D# 编码 !>/,0 ',9 05,74/? 7-0',/A'6/7,

78 5,?79/,0 ' >-765/,

78 !

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题