从生物学史看世界:进化树背后的故事

一些小背景

达尔文 1859 年提出的进化和进化树是众所周知的,但是实际上当时还没有一个量化的方法去确定下来进化树,这个事实却是一般大众所不知的。量化的思想则是由亨尼希(Willi Hennig)在上个世纪五十年代带入进化树的。按照现在人的想法,这种东西不应该手算口算吧,时间到了 1980 年,PHYLIP 出现的才填补了这种空白。

早期的进化树主要依赖形态学特征,就是把一个个特征的状态编码,然后放到软件里建树,因为形态学特征的模型特别难建立,所以建树方法一般为最大似然法,而不是其他依赖模型的方法,虽然免费的 PHYLIP 能做,但是它并不流行也不快速,这点 PHYLIP 作者在其网站上承认。于是 Hennig86 TNT Winclada NONA PAUP* 等一系列的收费软件开始占据了市场。

进化树的价格

phylogeney software 01

我先来报一下这些当时流行好用软件的价格

Hennig86 在 1989 年的价格是一份个人使用 50 美元,到现在无法获取,但是也从来没有免费分发过。

TNT 2000 年开始的售价是一份个人使用 80 美元, 2007 年其作者被 Hennig Society 资助,这份软件也就可以免费获取了,但是从未开放过源代码。

Winclada 2002 年的售价是一份个人使用 50 美元,从 DADA/CLADOS 升级需要 25 美元,如果课程使用,200 美元。一直到网站 2016 年关闭。2018 年被公布在一个貌似个人的网站上,2021.12.27 被作者重新托管在新网站上。

NONA 2000 年开始是 40 美元。2004 年就可以免费获取了,但是同样不提供源码。

PAUP* 2001 年开始一份的售卖的价格是个人使用 Mac 100 美元,Win 85 美元,Unix 源码(自行编译)150 美元,需要外加 20 美元邮费。2016 年 PAUP* 还是为收费软件,旋即网站下架,2017 年下半年,大家才可以从新网站 上获取免费的 PAUP* 测试版软件。

这样的价格意味着什么

2000 - 2003 年,中国城镇居民人均每年可支配收入大约在 6,000 - 8,000 人民币,1990 年 城镇居民人均每年可支配收入才只有 1510 人民币。

现在美元人民币 1:6,当年是 1:8 左右,如果按照 8 计算。也就是 1990 年,每人每年 189 美元可支配收入,每个月 15.8 美元可支配;2000 - 2003 年,每人每年可支配收入为 750 - 1000 美元,每个月 62.5 - 83.3 美元可支配。

这样计算 1989 年,买一个 Hennig86 需要 5 个月的可支配收入;如果按照 2000 - 2003 的均值计算,TNT 花费 1.1 个月的可支配收入;Winclada + NONA (Winclada 的部分功能依赖 NONA) 将会花费 1.2 个月的可支配收入;Win PAUP* 将会花费 1.4 个月的可支配收入。

而且这还是按照城镇人口计算的。如果按照 2021 年的全国居民(不等于城镇)人均可支配收入来看,每个月人均可支配收入在 460 美元,可想而知这些软件对于当时大部分的发展中国家的科研人员意味着什么。如果你需要建立一棵简简单单的进化树,发表你的物种演化观点,你需要付出超出你所能承受的。

大家用这些软件做分析,通常是因为没有钱做测序,需要依靠各种形态上的编码来进行建树,所以早期一棵进化树的开销是蛮大的。

免费

phylogeney software 02

但是上文的价格那块,我也提到了,很多软件在后期都可以免费获取了。但是这种免费或许不是一种主动的免费,我通过 Google Scholar 对这些软件的引用情况进行了粗略的统计,黑边描线的圆节点就是他们免费分发的时间。

一般来说,这些软件都有一种上升完下降的趋势,这跟基因测序成本的降低、更好的进化树构建方法的开发相关,PAUP* 是在引用下降了很久之后才让大家免费获取;Winclada 则是已经好多年不能获取了,才在最近被放到网站上;NONA 虽然免费时间很早,但是日常引用量很低,相比其他软件,并且一般是和 Winclada 搭配使用,这更像是一种营销策略; TNT 最为特殊,因为他很早就因为有学会的大腿,免费了,还提供图形界面,所以引用率一直比较可观,不然看到的折线图或许是另外一种景象,当然,这或许和后来 2016 年又更新增加了一些功能相关。我觉得没有理由认为之前收费的软件,免费后,大家使用反而比之前更少了,更可能的是这些软件在引用的颓势下,才免费放出来。

未来

现在这种软件还多吗?我想说,虽然没有以前那么多,还是还是有蛮大体量的,比较著名的有 Geneious、DNASTAR 等等,目前一年的使用费用在 700 - 2,600 美元不等,这还是学生购买时候的价格。而对于比较新进数据的分析软件往往越昂贵,就像当年先进的 TNT、PAUP* 等之于当年的我们。资源的不公平或许是永远存在,让我觉得蛮过分的是 Geneious 作者供职于奥克兰大学,他并不是过得不好、需要大家的帮助,而是他有着无休止的欲望,这严重损害了公众利益,让一些不太发达的国家,不能更好的和国际接轨。

未来或许还会是这样,但是我觉得 GNU、 FOSS (Free and Open Source Software) 一类的存在给了未来一个保证,还好,当今我们有 MrBayes ModelTest-NG 等一系列的遵守 GPL 的建树软件。我觉得作为用户,应该尽量使用 FOSS 做专业,这样有利于学习、科研成本的降低,也有利于 FOSS 的质量提升和更好发展,而且科研领域,专业软件的作者往往供职于大学和研究所,不到万不得已,完全没必要将自己生活成本转移到别的研究者身上。

只是希望这一幕幕悲惨的科研图景不要再映入眼帘。