0 引言
人和模式生物的基因组序列测定完成之后, 今后基因组学(genomics)主要的工作就转移到基因组的结构与功能、表达调控、生物学意义和医学意义等研究领域, 即从结构基因组学(structural genomics)研究转向功能基因组学(functional genomics)研究[1]. 面对庞大的核苷酸序列数据库, 强烈感到应用传统的理论和技术来解决这么庞大的数据库资料, 显得力不从心. 因此, 要开拓功能基因组的研究, 从理论和技术上必须进行革命性的变革. 功能基因组学的建立和发展, 同时也为肝脏病学的研究提供了一个前所未有的发展机遇. 随着功能基因组学研究理论和技术的不断进步, 必将进一步推动肝脏病学的研究进展[2].
1 功能基因组学的定义和内涵
随着人和各种模式生物基因和基因组测序的完成, 生物学和医学正处在一个深刻变革的时代. 1986年美国科学家Thomas Roderick提出了基因组学, 又称为后基因组学(postgenomics), 是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱), 核苷酸序列分析, 基因定位和基因功能分析的一门科学. 基因组学可以分为结构基因组学和功能基因组学, 功能基因组学是指应用整体的研究技术阐明这些基因和蛋白的生物学功能. 各种生物系统是一个复杂的系统, 基因组中基因的序列是一个庞大的数据库, 因此, 需要发展一些强大的分析技术, 代替传统的分析技术, 对这些基因和蛋白质的功能进行研究.
基因是DNA中的一些具有功能的单位, 在遗传信息的流向中, 首先由DNA转录生成中间产物RNA, 然后再翻译成具有生物学功能的蛋白质. 蛋白质是执行生命活动的基本成分. 作为基因的一段DNA, 一般包括调节基因序列和编码基因序列. 功能基因组学的主要任务就是阐明这些基因及其编码产物的结构与功能、表达与调控. 主要内容包括: 第一, 人类不同个体之间基因序列的区别; 第二, 决定疾病状态和疾病的易感性的人和人之间的基因差别; 第三, 引起疾病的各种病原体, 还有包括大肠杆菌、酵母、果蝇、线虫等所有生物合成的每一种蛋白的功能; 第四, 不同蛋白协同完成生命活动的机制; 第五, 在特定细胞类型和特定时间段内, 并不是所有基因都具有表达活性, 决定基因选择性表达和活动的机制; 第六, 在多细胞生物中, 不同的基因表达在形成不同细胞和组织中的作用. 对于一种特定的基因或蛋白来说, 功能基因组学的任务就是阐明调节他复制与表达的因素、与之结合蛋白的类型及功能、对于其他基因类型表达的调节作用, 还要阐明这一基因或蛋白的生物学和医学意义. 这些都是功能基因组学研究的重要内容.
2 启动子DNA结合蛋白的研究
cDNA文库的构建及其应用这一功能基因组的研究技术在启动子DNA结合蛋白的研究中具有十分重要的地位. 表达型cDNA文库的构建及其合适的筛选技术是功能基因组学的重要研究途径之一. 因为一个质量较高的表达型cDNA文库, 代表了一种生物的各种各样的基因表达类型. 表达型cDNA文库的筛选, 不是针对个别的, 或者是少数基因的分析技术, 而是针对全基因组表达的基因范围的分析技术.
例如, 乙型肝炎病毒(HBV)是一种典型的嗜肝DNA病毒, 但是目前关于决定其嗜肝特性的分子生物学机制还不十分清楚[3-5]. 一般认为, 肝细胞膜上的特异性受体以及肝细胞中存在的HBV基因启动子特异性的转录调节因子是决定HBV嗜肝特点的决定因素. HBV表面抗原基因启动子I(SPI)是典型的肝细胞特异性的启动子, 因此考虑肝细胞中应该存在特有的HBV SPI的结合蛋白, 而且对于SPI的转录活性具有调节作用. 国内洪源 et al 首先应用酵母单杂交(yeast-one hybrid)技术对于SPI的结合蛋白进行筛选. 从肝细胞的cDNA文库中筛选得到数种SPI结合蛋白, 其中之一是未知功能蛋白, 命名为SPI结合蛋白1(SBP1), 这一与C/EBP 同源的转录因子蛋白的表达对于SPI的转录活性具有显著的负调节作用, 共转染试验结果表明, SBP1蛋白的表达对于SPI的转录活性的抑制率达到65%-73%, 从而为HBV SPI的分子生物学调节机制开辟了新的研究方向. 酵母单杂交技术是应用表达型文库的筛选技术, 发现、鉴定启动子DNA结合蛋白的重要技术类型之一.
噬菌体展示(phage display)技术与表达型cDNA文库技术相结合, 也为启动子DNA结合蛋白的筛选提供了很有前途的功能基因组学研究技术[6-13]. 应用噬菌体展示技术筛选启动子DNA结合蛋白, 首先如何使启动子DNA固相化, 曾经是一个难以解决的问题. 经过认真设计, 我们率先利用一端引物的生物素化修饰以及链亲和素的酶联免疫板包被技术, 巧妙地解决了多聚酶链反应(PCR)技术扩增的启动子DNA片段固相化的难题, 然后结合噬菌体展示、表达型cDNA文库的筛选, 建立了启动子DNA结合蛋白的筛选技术途径. 张忠东et al设计合成了HBV核心启动子(CP)DNA序列特异性引物, 其中一条引物进行生物素化修饰, 以含有HBV全基因组的DNA为模板进行PCR扩增, 链亲和素包被, 并使CP DNA片段固相化, 然后进行3-5轮的肝细胞T7噬菌体表达型cDNA文库的"黏附-洗脱-扩增"的淘洗, 获得了特异性噬斑. 提取噬斑中的表达载体, 对于插入片段进行序列分析, 意外地发现羧肽酶N(CPN)可以结合CP DNA, 报告基因表达载体以及细胞的共转染实验研究结果表明, CPN的表达可以显著提高CP的转录表达活性. 因此, 经过改进的噬菌体展示技术, 结合表达型cDNA文库的筛选技术, 为启动子DNA结合蛋白的筛选增添了又一个功能基因组研究策略和技术途径.
3 蛋白与蛋白分子之间的结合
研究蛋白-蛋白分子之间的相互结合作用, 是目前功能基因组学研究的重要内容, 同时也是蛋白质组学(proteinomics)的重要研究内容. 高通量筛选一种已知蛋白的结合蛋白, 较为常用的技术是酵母双杂交(yeast-two hybrid)技术、双向电泳(two-dimensional electrophoresis)技术、质谱分析技术(mass spectrometry)等. 利用酵母细胞的转录调节机制设计的蛋白-蛋白之间相互作用的研究技术, 结合表达型cDNA文库的筛选, 成为目前研究蛋白-蛋白之间结合的重要的功能基因组学研究技术. 特别是近年来增加了报告基因多重缺陷性培养基的筛选, 提高了真阳性率; 通过可以配合的 α和a型单倍体酵母宿主细胞的引入, 提高了工作效率, 促进了酵母双杂交技术的应用和发展[14-23]. 李克et al构建了以丙型肝炎病毒(HCV)核心蛋白为诱饵的酵母表达载体, 对于肝细胞表达型cDNA文库进行筛选, 获得了一系列的与HCV核心蛋白的结合蛋白类型, 从而为阐明HCV核心蛋白这种具有多种生物学功能的蛋白的作用机制研究. 奠定了坚实的基础[15]. 陆荫英et al对于HBV的各种蛋白的结合蛋白进行了系统的筛选, 王琳et al对于肝细胞表达的蛋白类型, 如肝再生增强因子(augmenter of liver regeneration, ALR)等的结合蛋白进行了文库级的筛选, 为阐明这些肝炎病毒蛋白以及人的蛋白的结合蛋白, 奠定了坚实的基础. 对于未知功能基因来说, 阐明其生物学功能具有很大的挑战性, 往往觉得无从下手. 利用功能基因组学的研究技术, 如利用酵母双杂交技术首先对其在细胞内结合的蛋白类型进行筛选, 则对于其细胞内定位和功能的预测具有很大的帮助. 例如, 我们曾经利用酵母双杂交技术对于丙型肝炎病毒核心蛋白的结合蛋白进行筛选, 获得了一种从未报道过的新基因, 命名为HCBP6, 对于这一新基因的功能进行研究, 首先我们应用同样的酵母双杂交技术, 对HCBP6蛋白在细胞内结合的蛋白类型进行筛选研究. 筛选结果显示HCBP6蛋白与Ran结合蛋白2(RanBP2)以及RanBP2样蛋白能够结合. 对RanBP2蛋白的亚细胞定位以及生物学功能进行分析, 发现RanBP2蛋白是负责细胞质、细胞核之间的大分子运输有关的核孔蛋白成分, 因而推测HCBP6蛋白的亚细胞定位在细胞核膜的胞质侧, 这一推测已经被免疫组织化学染色以及HCBP6与绿色荧光蛋白(GFP)的融合蛋白表达策略所证实. 从其结合蛋白的性质来看, HCBP6可能与生物大分子在细胞质和细胞核之间的运输过程有关. 因此, 研究蛋白与蛋白之间的相互作用, 也是功能基因组学的重要内容和策略[24-32].
4 差异显示研究技术
细胞甚至完整的生物表现出很大的差别. 这种差别肯定也是由基因及其表达的不同来决定的. 因此对于不同表型的2个系统的基因表达类型进行比较, 是发现和阐明表型相关基因的重要的研究策略. 目前研究中这种差异显示新的高通量表达分析方法包括微点阵(microarrary)、基因表达序列分析(serial analysis of gene expression, SAGE)、DNA芯片(DNA chip)、抑制性消减杂交技术(SSH)、代表性差异显示技术(RDA)、随意引物差异显示逆转录多聚酶链反应技术(AP-DD-RT-PCR)等. 目前较为常用的技术是基因芯片技术. 基因芯片技术由于具有高通量筛选的优势, 因此受到人们的广泛关注. 但是, 目前商业化途径的基因芯片的容量毕竟有限, 只是人体基因组中很少的一部分基因序列, 因而具有很大的局限性. 另外, 基因芯片中绝大多数是已知基因, 因此不能据此发现很多新的、未知功能的基因. 相对之下, SSH是目前较为成熟的克隆与发现反式激活新基因的不可替代的技术途径. 利用SSH, 可以筛选得到肝炎病毒蛋白反式激活的靶基因, 不仅可以筛选得到功能已知的基因, 而且还能筛选到功能未知的基因类型. 因此, 抑制性消减杂交技术在相当一段时间内具有广泛的应用前景.
肝炎病毒蛋白具有反式激活作用早已被人们广泛认识到. 肝炎病毒蛋白对于肝细胞基因组表达的反式调节作用, 是肝炎病毒感染与肝细胞癌发生发展密切相关的重要的分子生物学机制[33-35]. 分子生物学技术的发展, 为研究和克隆肝炎病毒蛋白反式激活基因的克隆化提供了前所未有的机遇. 乙型肝炎病毒和丙型肝炎病毒都编码一些具有反式激活作用的肝炎病毒蛋白[36-44]. HBxAg的反式激活作用早已为人熟知, 近年来关于乙型肝炎病毒表面抗原截短型中蛋白(MHBst)的反式激活作用也逐渐受到重视. MHBst的编码基因首先是在肝细胞癌(HCC)组织中发现的, 由于基因整合的缘故, HBsAg基因片段不完整地整合到肝细胞基因组中, 从而产生了这种MHBst. 最近, 我们在慢性乙型肝炎患者外周血中也发现了MHBst的存在, 因此, 关于MHBst的作用有了更为细致的认识[45-49]. 如果这种MHBst在HCC的发生发展过程中起作用, 那么不仅仅是整合的HBV DNA编码这种反式激活肝炎病毒蛋白, 而且非整合型HBV DNA也具有编码这种反式激活剂的功能. 从而认为MHBst在HCC的发生发展过程中具有更为广泛的作用. HCV病毒的核心蛋白、非结构蛋白NS3和NS5A都是明确的反式激活蛋白, 在HCV相关性的HCC发展过程中具有十分重要的作用. HBV是一种DNA病毒, 在复制周期中通过前基因组RNA的逆转录机制, 而HCV是一种RNA病毒, 是RNA-RNA的复制过程. 因此, 这两种肝炎病毒的致病机制不完全相同. 但是, 共同的一点是这两种肝炎病毒的基因组都编码一些具有反式激活功能的蛋白质, 与HCC的形成机制有关.
我们利用基因芯片技术和SSH对于肝炎病毒蛋白的反式激活作用的靶基因进行了研究[50-59]. 研究的结果既有已知功能的基因, 也发现了一些功能未知的基因类型. 例如, 我们在MHBst的反式激活研究中, 首先构建了MHBst的表达载体, 利用细胞的共转染技术, 证实这种MHBst具有反式激活SV40早期即刻启动子的作用. 然后, 利用SSH, 对于转染表达MHBst表达载体的Hep G2细胞以及转染pcDNA3空白载体的Hep G2细胞的基因表达谱进行分析. 结果发现了一些MHBst反式激活的靶基因. 已知功能基因包括原癌基因c-myc这种具有复杂功能的肿瘤相关基因. 我们不但利用SSH筛选得到这种反式激活的现象, 而且利用Western blot杂交技术证实了MHBst的表达对于c-myc基因表达的反式激活效应. 利用SSH, 我们不但得到一些功能已知基因, 而且还发现了一些肝炎病毒反式激活的未知功能基因, 为进一步研究和阐明肝炎病毒感染引起HCC的分子生物学机制, 开创了新的可能的研究方向. 与此同时, 我们利用基因表达谱基因芯片技术, 对于HCV核心蛋白转染的Hep G2细胞系与转染空白载体的相同细胞系的基因表达谱进行了分析, 证实了HCV核心蛋白对于一部分功能已知基因的反式激活作用, 同时也发现了一些HCV核心蛋白反式激活的未知功能的新基因. 因此, 基因芯片技术和SSH是目前进行差异表达分析的有效工具[60].
5 功能缺失表型分析策略
功能缺失表型(loss of function phenotype)的研究策略又称为反向功能基因组学(reverse functional genomics)策略, 是功能基因组的重要的研究策略之一. 功能缺失表型技术包括细胞系或动物的基因敲除(gene knock-out)技术、反义(antisense)技术、RNA干扰(RNA interference, RNAi)技术等.
细胞系或整体动物的基因敲除技术, 目前虽然在操作上有一定的差别, 但都是利用了细胞内的同源基因重组的技术原理. 为了提高细胞内同源重组, 或者说基因打靶(gene targetting)的效率, 近年来逐步建立了一系列的正性、负性选择系统和技术, 进一步提高了基因打靶的效率. 从目前的发展来看, 细胞系的基因敲除和细胞核移植技术的结合逐步成熟, 将是基因敲除研究的主流发展方向.
反义分子包括反义寡聚脱氧核苷酸(ODN, oligod-eoxynucleotide)、反义RNA、核酶(ribozyme)以及多靶位的核酶(multi-target ribozyme)技术等. 反义ODN和RNA分子主要是通过与靶RNA分子的结合, 形成杂种复合物分子, 激活、诱导内源性的蛋白酶类, 对于这类杂种分子进行消化, 反义分子与靶RNA分子同归于尽, 抑制靶RNA分子的作用. 核酶和多靶位核酶技术作用的原理, 不仅包括反义技术的作用原理, 而且还利用核酶RNA分子的酶学催化作用, 即分子剪刀对于靶RNA分子的剪切, 一分子的核酶RNA可以剪切多个分子的靶RNA, 因此更加有效率. 目前根据核酶作用的基本原理, 构建了核酶活性中心两侧的侧翼序列为随机序列的核酶文库, 在功能基因组学研究中具有十分重要的应用前景. 利用随机核酶文库的构建, 对于抗-Fas抗体诱导的细胞凋亡(apoptosis)的相关基因进行研究, 也取得了很好的效果.
RNA干扰现象从低等生物到人都是广泛存在的. 实验研究证明, RNA干扰策略是功能缺失表型研究的有力工具. Kamath et al[61]构建了针对美丽隐杆线虫(C. elegans)16 757个基因的特异性RNAi表达菌株, 占美丽隐杆线虫全部预测的19 427个基因的86%, 通过喂食含有RNAi表达载体的菌株, 在美丽隐杆线虫体内表达不同的RNAi, 并对于RNAi表达导致的功能丧失表型进行分析. 其中最为常见的一种表型就是死胎, 共929种RNAi, 占5.5%, 估计是占美丽隐杆线虫死胎相关基因的75%, 因此这一研究结果对于研究美丽隐杆线虫的胚胎发育具有十分重要的意义, 是一个很好的研究起点. 第二位的功能缺失表型是运动失调, 这些基因的缺失导致神经肌肉系统的损害. 根据不同种属生物基因序列的保守性, 还鉴定出33个与人的疾病相似的功能缺失表型. 进一步表明了RNAi策略在人类疾病相关基因研究中的重要意义. RNAi研究策略中, 可以根据基因的序列, 体外化学合成21-23 nt的双链RNAi, 利用表达载体的构建以及体外转录制备RNAi, 也可以构建RNAi的表达载体, 在体内进行表达. 由于RNAi是相互配对的双链RNA分子, 因此必须采用2种表达载体进行共转染, 配对的双链分别从不同的载体上表达, 然后以碱基配对方式结合成具有功能的RNAi分子. 为了简化RNAi表达载体的构建, Yu et al[62]构建了"发夹"RNAi(hairpin RNAi), 利用引物的特殊设计, 在一个表达载体上表达一段RNA, 可以反折形成发夹RNAi. RNAi的有效性对于其序列的长度有严格的要求. 为了避免体内转录产物恰好在需要处结束, 减少不必要的RNA序列, 干扰RNAi的生物学功能, Yu et al采用了小鼠的U6基因启动子, 这种III型基因启动子, 在III型RNA聚合酶的催化作用下, 模板序列的3'-末端只要存在2-4个U, 就可以停止转录, 利用这样的启动子选择和模板DNA的设计, 就可以保证有效的转录以及在特定位置的转录终止, 保证RNAi的转录水平和RNAi的长度.
6 生物信息学技术
生物信息学是以生物大分子为研究对象, 以计算机为工具, 运用数学和信息科学的观点、理论和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学. 研究重点体现在基因组学和蛋白质两个方面. 首先是研究遗传物质的载体DNA及其编码的大分子量物质, 以计算机为工具, 研究各种学科交叉的生物信息学的方法, 找出其规律性, 进而发展出适合他的各种软件, 对逐步增长的DNA 和蛋白质的序列和结构进行收集、整理、发布、提取、加工、分析和发现. 由数据库、计算机网络和应用软件三大部分组成, 其关注的研究热点包括: 序列对比, 基因识别和DNA序列分析, 蛋白质结构预测, 分子进化, 数据库中知识发现[63,64]. 这一领域的重大科学问题有: 继续进行数据库的建立和优化; 研究数据库的新理论、新技术、新软件; 进行若干重要算法的比较分析; 进行人类基因组的信息结构分析; 从生物信息数据出发开展遗传密码起源和生物进化研究; 培养生物信息专业人员, 建立国家生物医学数据库和服务系统. 1990年代生物学数据的大量积累将导致新的理论发现或重大科学发现. 生物信息学是基于数据库与知识发现的研究, 对生命科学带来革命性的变化, 对肝脏疾病的研究将产生巨大的影响.