七年前的 ParsimonyGate 之争

演化树背后的哲学争论

当今的系统发育学 (systematics) 中的演化树是用不同算法、方法的计算机软件计算出来的。而围绕这个核心的方法,七年前,一群书呆子「Nerd」吵得不可开交。

七年前的争辩

七年前的今天(2016年1月12),Cladistics 期刊发表了社论,声明不接受不包含 Maximum Parsimony (MP) 建立进化树方法的文章,除非作者在哲学立场上捍卫他的结果。Cladistics 还声称期刊将发表基于可重复、清晰表达和哲学上合理的方法的研究,也就是暗示了基于统计学理论的方法存在哲学上的问题。

这件事情引起了很大反响。Jonathan Eisen 率先在 Twitter 上面发起攻击,表示这可能是最糟糕的社论并带上了 #ParsimonyGate 的 tag。随后,不少人带上这个 tag 表示对 Cladistcs 的厌恶,甚至有人表示 Willi Hennig Society 是邪教,话题的发起人 Eisen 表示「哲学」一词激怒了他。

哲学教育的匮乏

可能很多人会震惊,为什么这么简单的一个方法的话题会引起 Nerd Fight 「书呆子大战」,而中国乃至于整个东方世界的 Nerd 都对这个话题无动于衷。因为生物信息的书本上总是在讲述 Maximum Likelihood (ML) Bayesian Inference (BI) 等这些基于数理统计的方法要优于 MP。

不管是马克思主义还是其他哲学流派都认为,哲学是科学的科学,即认识论指导着方法论,方法论再反映在方法上。而大学课程往往不会去讲述一些方法后面的方法论以及这些方法论的哲学基础,学生自然不会有体系上逻辑上的理解,而自然而然认为这些方法只是有些许差异,但是从来没想过他们是否是水火不容的一个状态。

之前我会以为这是中国大陆独有的教育状况,因为很多言论,特别是哲学上的,绝对都不是马克思主义为基础的,必然要涉及很多马克思主义所批判的哲学思想,改革开放以来,逐渐在讲自然科学没有阶级性,但是马克思主义本身是无限推崇理性、科学的,其他哲学必然为其批判,难道就他们真的会永远像他们暂时妥协的那样吗?这当然是很大的议题,但是这绝对不是造成目前现状的原因,因为在日本情况也是类似的,《批判的合理主義・第2巻:応用的諸問題》就陈述了,日本学界也是只关注「技术稳健性」而将「哲学稳健性」放在一边,喜欢讨论生物哲学的只是少数怪胎。

补上一节课

很多教科书都会讲林奈(Carl Linnaeus)并且会讲达尔文(Charles R. Darwin)。但是很少教科书去讲亨尼希(Willi Hennig),去讲 systematics 方面的迈尔(Ernst Mayr),去提 Peter Sneath 更是鲜有。

林奈的系统搭配上达尔文的思想是现代系统发育的雏形,而林奈本身确是一个虔诚的教徒,所以才会有一些宗教组织在研究系统发育时候非常推崇林奈而厌恶达尔文。

如果只有达尔文的贡献,我们还是无法去画出一棵系统发育树。因为从理论到实践还是有很长的一段路要走。于是,1859年《on the origin of species》出版后的83年,Mayr 出版了《Systematics and the Origin of Species》。随后1950年 Hennig 出版了德语版的 cladistics 「圣经」,1963年 Robert R. Sokal 和 Peter H.A. Sneath 发表了 phenetics 「圣经」《Principles of Numerical Taxonomy》。

systematics_tree_zh

很简单的来讲,Mayr 是 Evolutionary Systematics 喜欢用综合、整合的方法去考虑问题,当然,他贡献更多的是 evolutionary species concept 的物种概念,这种概念趋势在后来的概念中一直被延续。他甚至用蔑称「cladists」来称呼认同 cladistics 流派的人,但是他依然会在没有期刊、审稿人压力的情况下使用 cladistics 的方法。所以我更倾向认为他很实用主义。这也是目前大多数人所持的立场,比如陈宜瑜,他不愿意接受单系群(monophyly)的概念去对现有的分类系统做大的变更。

Cladisitics 则是 Cladistics 期刊及其背后 Willi Hennig Society 的学派。这个学派也被称为 Phylogenetic Systematics 因为 phylogenetic tree 是这个学派提出的,而 Maximum Parsimony 则是唯一受 cladistics 影响的方法。Karl Popper 的 critical rationalism 对 logical empiricism 很是批判,并且他越过了经验主义的归纳推理,提出了假说-演绎推理。我们不能通过归纳推理去预测未来一个从来没有发生过的事情,就像我们不能通过欧洲的白天鹅预测出来澳洲有黑天鹅一样,这就是归纳推理的荒谬之处。而且 Popper 认为可证伪性(falsifiability)则是重要的一环,就好像两个候选人(假说),都是王八蛋,都是城府很深,一个已经被拍到贿赂选民(演绎中被证伪了),一个只是据说贿赂选民,那大家肯定知道被拍到贿赂的人更王八蛋,台湾最近所谓的「负面选战」就是利用了可证伪性。

Phenetics 则是可以称为 Numerical Systematics。他们非常关注数值,早期更是鲜少关注特征的同源性(homology),直接硬套数据。他们更善用归纳推理下的统计学方法,大家熟悉的 Neighbor-Joining (NJ) 以及上文提及的 ML 以及 BI。他们这样去处理数据,是因为过去现在未来是均匀的可预测的,即经验主义的,而不是像 Cladistics 那样的理性主义,正如上文 Popper 所主张的,他们的哲学基础存在着很大问题,这也是为什么 Cladisitics 要求使用这些 Phenetic 方法的人要在哲学上为自己辩护。以我的观点来说,这是无法做到的。

Cladists 的辩护

那假设如上文所说的,Cladistics 的哲学思想那么优越,方法论又是可以避开一些麻烦,那为什么方法却不被现代人作为首先考虑的呢?又是如何被说像宗教的呢?

很大的一个原因是 Felsenstein 1978年的一篇文章指出 MP 可能在统计上不一致。从数学上讲,统计一致性是推理工具的理想属性,并且确实可以设计一个模型,在该模型下 MP 将以统计不一致的方式表现。从哲学上讲,如果过去现在未来不是均匀的,那谁知道数据收敛到正确还是错误的地方呢?

其余还有说难以克服的 Long Branch Attraction(LBA)。但是这并不是 MP 专有的问题,ML 一样会受到这种困扰。而且很多原因是因为趋同演化,那请不要忘记了,homology 即同源性是 MP 所强调的,如果趋同则是 homoplasy 同质性,本身数据采集就违背了原则。

其余还有对 MP 中 weighting character 具有主观性的指控。但是,如果这种 Hennig 提倡的 checking and rechecking 叫做主观性,那么 Phenetic 方法的核心假设 - 模型/先验参数往往也是不真实的,如果数据不符合进化的先验模型,那么任何方法都不可能是对的,而 weighting 则是使用更少的假设。如果都是不对的,我们为什么要放弃更理性的做法呢?

其实,我个人觉得,Cladists 不能被现代大多数人接受的很大原因在于 monophyly。这种 monophyly 的坚持会让现有的系统命名受到极大挑战,会威胁到科学的惯性。

结语

所以当大家在不停重复 #ParsimonyGate 的时候,为什么不好好补习一下哲学基础呢?而且当大家在抱怨 Willi Hennig Society 多么臭名昭著多么爱论战的时候,别忘了,Cladistics 的认识论内核是理性主义,就像不要抱怨马克思主义者爱论战一样。退一步讲,WHS 自身的「机关报」Cladistics 为什么要接受 Evolutionists Pheneticists 的文章,难道 Taxonomists 质问过 impact factor 的发明者吗?况且,Cladists 还没有一定要说服别的学派。

P_C

而作为一个分不清楚百事可乐和可口可乐的人,我还是建议现在的高校教育从哲学上区分 Phenetics 和 Cladistics,比百事和可口更不兼容的两个学派。