财新传媒
位置:博客 > 科学松鼠会 > denovo:科学圈圈坐8/13

denovo:科学圈圈坐8/13

denovo在科学松鼠会九周年上为松鼠会成员分享基因检测的前沿与应用。仅仅10天后,她前往潘家口水库,我们永远地失去了她。摄影:淳子



自我介绍:denovo,科学工作者 文艺女青年。ID是很装x的拉丁文,其实只是专业文献里一个常用词汇而已;头衔是很神奇的留美女博士,其实毕业至今也没有人管我叫过Dr. denovo,不是不失望的。8岁的时候写好了诺贝尔获奖感言,18岁的时候觉得只能为科学发展贡献自己的一份力量,28岁的时候人生唯一目标就是不要成为科学前进路上的绊脚石,好在这个目标很容易实现,因为我之于科学最多就是恒河一粒沙,应该绊不倒人的。 


Melipal:好,先解释下denovo啥意思好了……


denovo:嗯,拉丁文的de novo就是“新的”或者“从头开始”这个意思。


Melipal:听说你是做生物统计学的,我对这个学科的了解非常少,可否用几句话介绍一下,这个学科的研究对象是什么?和你本科专业的关系又是怎样的?你又提到自己是做基因统计的,是分析基因组研究的数据,那么从这些数据中可提取什么样的信息?是关于生物群体的还是个体的?


denovo:其实我的专业准确的说是统计遗传学,属于生物统计学的一个小分支。我们主要是对于遗传学,尤其是人类遗传学的数据,进行统计分析,来找出其中有意义的特点。同时也要针对遗传学的特性,开发新的统计方法。举个例子说吧,我现在分析的是人类基因组数据,主要是和疾病相关的。现在大家关注的焦点是复杂疾病,也就是非单基因引起的疾病,通常这些疾病的发生同时受到多种因素,包括不同基因和不同环境因素的影响。对于单基因遗传病来说,已经有一套成熟的遗传方法,在不清楚病理基础的情况下也可以从基因组里成千上万的基因中找出致病的位点,不过因为单基因遗传病有很大的选择压力(生病的个体容易被选择掉所以在人群中的比例会降低),所以病的种类不多,影响范围也么有那么大,现在能找到的单基因病都被解决掉啦,做单基因遗传病的最大难题已经不是方法,而是再找到一个罕见的疾病……


复杂疾病就不一样,因为有多个基因以及环境因素的参与,单个基因受到的选择压力比较小,所以发病几率高,解决的意义更大。但是也正因为有多个因素参与,每个因素和疾病之间的关系就不那么稳定,比较难找出致病基因——现在也不叫致病基因了,叫做“易感基因”(predisposing gene),就是你有某个基因型,会比没有的人有更高的得病几率。因此,我们需要更新,更强大,更敏锐的统计方法来分析实验数据,尽可能找出这些基因来。


从操作上讲,我们收集某种特定复杂疾病(糖尿病,阿尔兹海默氏症等等)的病人和对应的健康对照组,比较他们基因组的异同,通过统计的方法,找出在病人中比例显著高于在健康人中比例的那些基因型,为后续的生化研究提供备选基因。生化和分子生物学研究是最终确定性的环节,但是因为这些方法目前基本还处于比较小规模研究的阶段(时间,资金都有限制),不可能像遗传学一样进行超大规模筛选,所以我们如果能够提供可靠的备选基因,是非常有意义的。


我本科就学生物,毕业论文做的发育遗传学方向,当时觉得这个方向国内做的人很少,学院也没有这方面的课程,所以一门心思想读个研究生,纯洁地期待将来回学校开这门课,让学生们可以接触到这个有意思的方向,汗……


研究生我申请到了一个“遗传与发育生物学系”,结果第一年上课和尝试不同实验室后,又觉得遗传更有意思,就选了人类遗传的实验室——系里唯一一个……


做人类遗传的项目需要很多统计知识进行数据处理,所以我又去上统计课,并且接触到统计遗传学,博士论文算是半实验半理论的。现在人类遗传学的测序等方法都有很多企业在做,大多数时候其实可以把实验部分外包给公司,自己专心分析数据,提取出其中有用的信息,所以博士毕业后我就选择到了一个统计遗传学的实验室做博士后。


Melipal:俗套问题,今年在你这个领域内,比较重要的工作有哪些?


denovo:从去年到今年,本领域最热门的话题都是“个人基因组”(personal genome)。去年,DNA双螺旋结构提出者之一,遗传学界的权威沃森(James D. Watson),以及short-gun测序方法的发明人,遗传学界的传奇叛逆人物文特(J. Craig Venter),先后获得了他们的全基因组序列并且向社会公开,任何人都可以使用这些序列资源做研究。今年11月的《自然》杂志上又同时发表了两篇论文,一篇是去年10月中国华大完成的“炎黄一号”,也就是第一个中国人的全基因组序列测量,另一篇则是今年2月Illumina公司完成的第一个非洲人的全基因组序列测量。测量一个全基因组的时间从沃森所耗费的几个月下降到非洲人的几个星期,资金投入也从几百万美金下降到10万美金左右(而且美元还在看跌!哦也)。所有人都在期待这个时间和资金进一步降低,让遗传学研究进入“全基因组时代”。


这十年来,因为新方法和技术的迅速发展,遗传学对人类全基因组的研究能力已经提高了几个数量级,从最开始采用300多个“微卫星标记”(microsatellite markers),到几百万个“单核苷酸多态性”(SNP),直到上面所说的全基因组测序,也就是直接测量人类基因组中的所有30亿个核苷酸。事实上,使用数百万“单核苷酸多态性”来研究人类全基因组的方法才开发几年,广泛应用在复杂疾病上并且产生研究成果——也就是发表的学术论文——不过才是今年的事,世界变化之快实在令人震惊。

全基因组测序与这个方法相比的优势主要有两点,一个是可以直接测量每个位点,提高统计功效,理论上来说更容易筛选出易感基因(不过实际操作有很多复杂之处);另一个就关系到这两年的另一个研究热点:结构异型(structural variation,我不确定这个翻译是否通用)。简单地说,以前我们主要是研究单个核苷酸或者一些比较小型的插入/删除位点,前两年有人发现,其实基因组中存在很多更大的插入/删除事件,并且可能重复发生,造成某段DNA序列在不同人体内有不同的数目,比如说你身上只有一个,我却有四五个。学界为此十分激动,因为这提供了一个全新的视角,引起疾病易感性的可能不是单纯的有/无某个基因型,也可能是多/少的差别。如果能够做全基因组测序,我们就不会错过任何一个结构异型。


Melipal:与基因有关的疾病能在所有疾病中占多少比例?看你前几个问题的回答,是不是说以后如果基因测序可以普及,人们就可以了解自己有没有某些易感基因,然后针对某些疾病进行必要的防范?


denovo:我不知道该怎么计算这个比例,这样吧,我举一些复杂遗传疾病的例子:哮喘、糖尿病、阿尔兹海默症、癌症、心脏病、高血压、肥胖症、自闭症、精神分裂症、抑郁症……这里要注意的是,说他们是遗传疾病并不需要知道其确切的易感基因,遗传学有一套比较完备的观察方法(家庭研究、孪生子研究以及领养研究)来确定某个疾病是否有遗传因素存在。

你后面这个问题,就是人们对我上面提到的“个人基因组”如此热衷的原因之一。理论上来说,如果全基因组测序得到普及,你就可以将自己的基因组与所有已知易感基因型比较,从而了解自己得某种疾病的风险,然后进行必要的防范,包括基因治疗和对于环境因素的控制。不过对于复杂疾病来说,基因治疗并不实际,控制环境因素更重要,比方说你知道自己得肺癌的几率较高,就一定要戒烟。

但是实现这个美好愿望有一个前提,那就是我们已经发现了大量易感基因。但事实上,在复杂疾病的研究上,我们目前都还是在摸索,并没有大的突破,只有少量疾病的少量易感基因已经被确切定位,比如说阿尔兹海默症(Alzheimer's disease,以前被称为老年痴呆症,现在因为这个名字政治不正确已经被改掉了)的ApoE。很多疾病的“易感基因”确实有一些研究支持,但是也还很有争议。美国已经有一家公司在开发躁狂型抑郁症(bipolar disorder)的遗传测试方法,这件事引发了一场不小的争论,研究者认为这是一种相当不负责任的行为,因为目前躁狂型抑郁症虽然有一堆“易感基因”被报道,却没有一个得到公认;然而病人家属和一些医生却坚持说,只要有可能的测试方法存在,不需要多么精确,就可以对他们有帮助。


Melipal:说到寻找易感基因,依照现在的研究结果来看,拥有这个基因与真正得病之间的关系大不大?应该如何排除其他因素的干扰(比如某些疾病的患者生活习惯或是经历上有共性,这对引发疾病可能更重要),进行验证呢?


denovo:其实,对于复杂疾病来说,单个易感基因与真正得病的关系并不是非常明显。通常来说,如果某个基因型的拥有者得病的几率比其他人高几倍,就足以令研究者兴奋不已了。普通人得某种复杂疾病的几率通常是在百分之一上下,所以拥有这个基因型也不过是百分之几。也有一些例外,比如刚才提到的阿尔兹海默症,拥有ApoE基因的第四基因型的人,在75岁以前发病的几率,比没有这个基因型的人要高几十倍。


不过要注意我刚才说的是“单个易感基因”,复杂疾病复杂的原因之一,就是因为有多个易感基因的相互作用,造成了单个易感基因的效果不显著。如果要说所有遗传因素对疾病到底有多大的影响,这在各个疾病都不相同。我比较了解的是精神方面的疾病,自闭症(autism)的遗传因素占80%左右,躁狂型抑郁症(bipolar disorder)则在50%左右,精神分裂症(schizophrenia)还要更低。


你提到的排除其他因素的干扰确实是复杂疾病研究中非常重要的一个问题。“其他因素”不光是环境因素,也包括遗传背景,比如说,白人、黑人、亚洲人的遗传背景都有相当大的差别。解决这个问题的方法主要有两个,一个是在前期采样的过程中尽可能选取遗传背景接近的人,越接近越好,当年冰岛的deCODE公司做出许多成果的一大原因,就是冰岛人群相对比较封闭,因此遗传背景近似度较高。在美国的很多研究就采用犹他州人群,也是这个缘故。同样,采样的时候也要考虑到环境因素接近,比如说做肺癌的研究,就最好把抽烟的和不抽烟的人分开来研究。另一个解决方法就是在后期的数据分析中,将已知有影响的因素也加入到模型当中。不过最重要的还是前期采样,后期分析的调整只能是亡羊补牢。

2006年4月28日华东理工大学奉贤校区,denovo做了关于赛博朋客的讲座。拍摄:华东理工​大学学生会


Melipal:易感基因的定位,能不能再仔细说一些呢?


denovo:目前最常用的方法是关联分析。简略近似地来说,我们把基因组中每一段序列在病人和健康对照组中的基因型做比较,如果这一段序列的某种基因型在病人中的比例显著高于在对照组中的比例,那么我们就把这段序列作为备选的易感基因。备选基因需要在不同的实验室,不同的取样范围中得到多次重复证实之后,才能成为一个公认的易感基因。“易感基因”也是一种近似的说法,其实我们认为造成疾病易感性的序列不一定在基因范围之内,只是之前的技术限制使得我们只能将精力集中在已知基因的编码序列周围。

还有一种方法就是家族连锁分析,就是在同一家族成员的基因组上,寻找和“生病”这个事实共同出现的基因组序列。这个采样上会比较困难,需要比较大的家族谱系,但是理论上来说,因为是家族样本,遗传背景的相似度高,灵敏性也要强一些。


Melipal:不过在家族背景上,同一家族成员携带相同基因是很可能的事情啊,不一定都和家族病有关。那要怎么样才能知道,就是某个或某几个共有的基因组序列诱发了某种疾病呢?


denovo:没错,其实就是因为同一家族的成员携带大量相同的序列,所以我们说他们“遗传背景”接近。在家族连锁分析里面,我们要找的是和疾病“共同出现”的基因,就是说,这个家族里有得病的,也有不得病的,我们要找那些得病的人有,健康的人没有的基因组序列。这样,因为背景噪音小,发现真正信号的可能就大很多。


Melipal:选取遗传背景接近的人有利研究,是不是说这项工作要尽快啊,毕竟现在的人口流动性要比以往任何时期都大得多,再拖延拖延,恐怕就流动得原形尽失……


denovo:这点确实是个问题。比如说我们采用美国东部白人样本,有时就会发现其中也有很明显的遗传背景差别,因为他们这几百年的流动性非常大。所以遗传学研究尽量会寻找相对封闭的人群,现在还是有一些这样的人群,因为信仰或者生活习惯等原因,不太与其它人群通婚,遗传背景的同质性就会比较高。在美国,一个是犹他州的摩门教徒的人群,一个是主要居住在宾夕法尼亚州的Amish人,他们到现在还不用电,驾马车。在中国比较封闭的山区,也有这样的人群存在,接下来几十年应该还够用。中国更严重的问题是家族研究的资源确实越来越少,因为你知道,如果大家都是独生子女,就不可能有大的家族谱系。


Melipal:再补问一问题,针对今年全基因组测序的进展的。全基因组测序如今已经针对个别人完成了,现在有没有什么计划,打算利用这一技术做大样本统计遗传学研究的?是不是由于10万美元的成本,短期内大规模的应用还是不太现实?


denovo:是的,现在的限制就是成本。如果能降到一千美元左右,肯定有很多疾病研究采用这种方式。现在使用的方式(用几百万个单核苷酸多态性覆盖整个基因组范围)的成本差不多就是这个范围,而全基因组测序的优势要大得多。除了统计遗传之外,遗传学各个分支都会需要这个技术,2007年《自然·遗传学》杂志给很多著名遗传学家的“年度问题”就是,如果一千美元就可以测一个全基因组,你想做什么?每个人都提出了自己的想法,很多都非常有意思。

按照目前的发展速度,我们有理由期待全基因组测序的价格会继续迅速下降。也许过不了几年,我们统计遗传学的疾病研究就能用上这个技术了。不过在技术成熟之后,统计上的理论研究也必须跟上,一是因为如此海量的数据在统计上提出了更多更复杂的要求,二是除单核苷酸多态性之外的所谓“结构异型”的分析,也要采用和从前不同的方法。


目前已经有不少国际合作项目,要测量很多人的全基因组序列,比如说“千个基因组项目”(1000 genome project),这就是一个有世界各知名高校、研究所、生物技术公司参与的大型项目,计划测序一千个全基因组,主要目的是探索人类基因组中的各种变异/多态性等存在的范围和形式,为将来的研究打下基础。中国也有自己的“炎黄计划”,要测量一百个中国人的全基因组,前面提到的今年11月号自然上面发表的文章,被测者就被称为“炎黄一号”。


Melipal:如果是你,1000美金就能做的话你做不?


denovo:我做,当然做~~~其实我前段时间申请工作时,提交的研究计划就是针对全基因组测序的疾病研究,发展现有的统计理论和方法,必要时开发新的方法,然后在时机成熟(也就是成本下降)后可以立即用于疾病研究。


Melipal:那么你愿意做自己的基因组吗?


denovo:哦,你刚才说的是自己的基因组啊,愿意啊,也可以公开,反正学术界的人本来就没有秘密,我们前几天还开玩笑,同学去了公司的,都找不到,在学术界的,一google全翻个底朝天。哈哈。


Melipal:哈哈,换作我,1000美金还是有些贵,不过1000RMB的话,可能真的就考虑去做了……


denovo:嗯,是呀,关键是现在做了也没太大实用性,主要是看着好玩。如果真能预测疾病的话我想还是值得……


Melipal:不过先预备一份基因组数据呢,我觉得也没啥坏处是吧?这样如果可以用随时就能用上了。


denovo:是啊。不过等等的话,也许将来的技术发展了,错误率变得更低呢。对于统计来说错误率只要比较低,就是可以模型化,可以容忍的东西,但是对于个人来说,千分之一的错误率可就意味着三十亿碱基对里面错了三百万个……哈哈。


Melipal:另外再提个个人问题,你那个回国开课的纯洁愿望,现在看来现实么?


denovo:关于个人问题,我现在还是有这个美好愿望,当然现在回国就不可能教发育生物学了,只能改教遗传:) 有一个比较现实的问题就是,刚刚毕业的博士回国寻找教职相对来说比较难一些,一方面,我们这个学科目前的状况决定绝大多数人要再接受博士后训练,另一方面,国内对于海归老师的期待还是比较高的,一般希望招到的都是已经有一定成就的人。所以,我还在做博士后:P 


Melipal:末了再问个更私人化的问题,看你的blog似乎有不少游记啊,你是不是很喜欢旅游?接下来有啥比较有意思的旅行目的地么?推荐一些也行,本人贪玩:P


denovo:哈哈,这个问题我喜欢,我可能就是比较喜欢新鲜事物,所以喜欢去不同的地方,看不同的风景和人。我现在琢磨的地方主要是印度,老挝,危地马拉,智利/秘鲁这些,因为发展中国家比发达国家好玩多了,可惜家里人总不让我一个人去,找同伴也不容易。我还想去土耳其,可是他们居然不给中国公民个人旅游签证!所以下一个最现实的目的地应该是新西兰或者北欧吧,也许趁着冰岛降价去凑个热闹:) 


Melipal:照片要不要发一张,嘿嘿~~


denovo:思考了一下还是来张遮遮掩掩的吧。要是被老板认出来了可不好……嗯,这就是发展中国家之一,墨西哥……

denovo:科学圈圈坐8/13

Melipal:又是在哪个名胜的照片,好羡慕~~


denovo:在墨西哥一个叫做Coba的玛雅遗址。



Melipal采访后记:该访谈可谓一波三折,不是本人在忙其他事情没心思搞提问,就是denovo出差在外不能回信。于是圈圈就断在我这里了,没有形成首尾相接的环路,惭愧惭愧。最后好歹等到两人都有时间了,一天之内搞定一切,不对,是多半天,把催命小桔子吓一跳…… 




文章来源:科学松鼠会


denovo:科学圈圈坐8/13

科学松鼠会,是一家以推动科学传播行业发展为己任的非营利组织,成立于2008年4月。我们希望像松鼠一样,帮助公众剥开科学的坚果,分享科学的美妙。​​

推荐 0