量化前史研讨系列
“大数据”是近年的热门论题,但有一类“大数据”被忽视,那就是数据库化与互联网化带来的“前史大数据”。特别是1980年代初期个人电脑呈现后,核算机容量和遍及度开端日新月异,使依据海量前史材料的研讨变得可行;但从1970年代到1980年代,这些潜力对前史研讨的影响有限,因为前史档案的电子化与数据库化要到1990年代才开端。
2000年后,不同类其他前史数据库连续呈现,并逐步形成规划,而那时热起来的互联网,又把零星的前史材料库方便地连在一同,敞开“前史大数据”年代。以至于到今日,无论是前史学、经济学,仍是政治学、社会学界,都呈现了依据各国前史的量化研讨,所研讨的前史长度、广度与深度都发作了质的跳动,快速拓宽咱们对人类曩昔与今日的认知。
惋惜的是,这场新知识改造是发作在我国之外,国内前史和社会科学界参加甚少。而假设咱们的前史研讨还不承受量化办法,可能在未来几十年持续错失“前史大数据”带来的新知识改造。
当然,国内仍是有些学者留意到了前史大数据带来的研讨时机,并开端树立各种前史材料库和数据库、宣布研讨作品,如马德斌关于明代中叶以来我国与欧洲人均收入的比照研讨;夏明方《大数据与生态史: 我国灾祸史料收拾与数据库建造》;陈志武、林展、彭凯翔《民间假贷中的暴力抵触:清代债款命案研讨》;林展、陈志武《阶层身份、互联性交易、时节性与民间假贷》;龚启圣与马奔驰关于儒家文化对山东各县在清代的农人暴乱频率的影响的研讨;陈志武、彭凯翔、袁为鹏《清初至二十世纪前期我国利率史初探——依据我国利率史数据库(1660-2000)的调查》,其他研讨这儿就不逐个列出。
而前史数据库包含“我国历代人物传记材料库”(CBDB)、“我国当地前史文献数据库”(上海交大)、“清代灾荒编年暨信息集成数据库建造”(我国人民大学)、“清末民国社会调查数据库”(我国人民大学),还有龙登高、马奔驰、李楠、陈硕和其他学者树立的各类前史数据库等等。从2013年开端的年度“量化前史讲习班”也在致力于推行量化办法。
经济史与前期量化前史研讨
那么,什么是量化前史研讨呢?
起先,前史研讨中的“量化办法”很简略,差不多就是“用数据说话”,加上图表和一些一般的核算目标,比方均值、方差和相联系数。因为经济研讨比任何其他学科更依靠数据,所以,经济史最早引入量化办法。
美国经济史学会于1940年树立,标志着经济史开端从其他学科独立出来。但那时候,因为大多数经济史学家身世于前史学,他们对经济学和数理核算很生疏,加上经济学自身也还不太老练,经济史作品天然侧重史料考证与叙说,靠直觉猜测前史事件之间的因果联系,逗留于定性剖析,不在意搜集大样本数据对因果联系假说做核算查验。
跟一般科学研讨办法相同,前史研讨也应该分五步,榜首步提出问题或假说;第二步,为了证明假说,就要找数据,既可所曾经史数据、前史样本,也能够经过试验搜集数据;第三步是做核算剖析,查验假说是不是得到前史数据的支撑,特别是不能逗留在相关性剖析,而要辨认因果联系是否树立;第四步就是对核算剖析效果做解说;第五步是写研讨陈述。
传统的史学研讨往往只做到了榜首和第二步,但在第三、第四步上有短缺,而量化前史办法就是要经过搜集大样本把第三、第四步做实。量化办法不是替代传统前史研讨办法,而更多是一种弥补,使前史研讨尽可能完好,防止依据个案前史研讨的局限性。
在年青的经济史范畴里,1957年9月是一个重要转折点,因为“新经济史改造”从此启动了。其时美国经济史学会和美国国民经济研讨局(NBER)联合组织了一个研讨会,主题是“怎样把经济理论与经济史结合”,或许说,怎样让经济史研讨走出困局?
会上,哈佛大学两位经济学教授——迈耶(John R.Meyer)和康拉德(Harold Conrad)别离作为榜首作者提交了两篇论文。其间,Meyer和Conrad(1957)提出:经济学应该是一门用以解说前史进程的科学,特别是,前史学中的因果假说是能够证明或证伪的:经过搜集前史事件的材料数据,做核算推理,就能证明或证伪哪怕是定性的前史假说。也就是,量化前史研讨不应该逗留在简略的“用数字说话”,而是依据前史数据和理论结构查验关于前史的假说。在他们陈述的另一论文中,Conrad和Meyer(1958)以美国南部前史上的奴隶制的赢利性为例,展现怎样运用经济理论和量化办法研讨前史论题,他们的剖析让与会者深受启示。
针对迈耶和康拉德的量化前史办法建议,参会者中对立定见不少,乃至干流态度是对立的。其间,Ros-tow(1957)论说道,因为经济理论中的静态假定和办法不适用于前史研讨,前史学家应该抵抗量化办法。
在他看来,前史学家就像作家相同,各有各的风格,不应该千人一面。当然,传统前史研讨的这一特色也使得前史研讨差不多是“每位前史学家从零开端”,各有各的做法,难以跨过代际集体堆集。
这些学者忧虑,假设那样,经济史研讨会过火依靠经济理论和计量办法、过于模型化,失掉传统前史研讨的人文关心。当然,也有在场的前史学家认同迈耶和康拉德的新办法,比方诺思就支撑。
那次会议之后,几位学者对推行量化办法发挥了关键效果。诺思在1963年3月《美国经济谈论》宣布的论文谈到,“即便粗略地研讨一下美国经济史中得到供认的那些'真理',也能够发现有许多东西并不契合最少的经济学知识,并且从来没有(也经不起)用核算材料做查验。”他说,经济史研讨现已呈现了一场新改造,就是由经济理论与量化办法结合带来的“新史学”。次年,福格尔宣布闻名文章《新经济史初探》,把新史学和传统史学的研讨办法作比照,说:“在运用数据信息方面,当然还有其他方面,新、旧经济史显然是一脉相通的。
不过,就爱好而言,以往的经济史学家首要限于论述从规范史料中发现的数据,并或多或少保留了正本的办法,很少进一步改造这些数据,因而无法阐明'严厉意义上的经济剖析概念';别的,旧经济史学家简直无一例外地限于计量那些能够直接计量的东西,至于那些只能直接计量的东西,他们常常是从定性视点、而很少从定量视点加以评论。”(这几段原文的翻译引自隋褔民:《立异与交融——美国新经济史改造及对我国的影响(1957-2004)》)。
紧接着那番争辩,福格尔、诺斯等连续出书经典作品,比方福格尔1964年的《铁路与美国经济添加》、诺思1966年的《美国往昔的经济添加与福利:一种新经济史》。这些作品不只深化了对美国经济史的研讨,并且展现了用经济剖析结构与计量办法研讨前史的魅力。也因而,“计量史学”成为一种新潮。
但是,从1970年代后期到1990年代中期,或许因为量化办法现已被承受为经济史的根本办法,每位学者都得掌握,所以,习以为常之后,计量史学好像不再光鲜,进入镇定期。那么,今日量化前史研讨又热了,会不会重复之前的“先热、后冷”阅历呢?
答案是不会。原因在于,到1970年代,核算机的速度、容量和数据库才干都没有到位。没有廉价且容量大的核算机体系,就不能处理量化研讨所要求的繁琐核算,也不会有大规划数据库。量化办法再好也受制于“巧妇难为无米之炊”。但是,1980年代之后的电脑改造、特别互联网改造彻底改变了这种局势。
依据Nordhaus(2017)的预算,核算机每秒能完结的核算指令数,从1851年到1940年的90年里加速大约一百倍,从1941年到1970年加速一百万倍,而从1971年到2006年的这段时刻,核算速度再加速一千万倍。也就是说,相对1850年,2006年的人工核算机速度翻了一千万亿多倍,并且,核算机本钱和遍及程度更是阅历了天翻地覆的改变。
互联网改造为量化办法在前史研讨中的广泛使用奠定根底。
从这些改变中看到,1990年曾经,并没有许多大学和档案组织把前史材料数据库化,量化前史研讨难以大范围进行,就家常便饭。但是,1990年左右开端,国际范围内,特别是一些欧美大学与前史档案组织,连续将前史档案电子化,一同把能够量化的前史目标树立数据库。就这样,到十几年前,互联网上能免费或许低本钱拜访的前史材料库现已具有适当的数量规划。这就为量化办法在前史研讨中的广泛使用奠定根底,也客观上形成量化前史效果在曩昔十几年呈现爆发式添加。
今日,量化前史数据库许多,其间,社会学家引证广泛的五个数据库别离是美国整合公共微观数据库(Integrated Public Microdata Se-ries)、加拿大巴尔扎克人口数据库(BALSA Population Database)、荷兰前史人口样本数据库(Historical Sample of the Netherlands)、瑞典斯堪的纳维亚经济人口数据库(Scandi-navian Economic Demographic Database)和美国犹他人口数据库(Utah Population Database)。这些前史数据库揭露后,大大推进了社会史、人口史的量化研讨。
在2006年~2010年间的五年里,就有2360多篇宣布于不同国际期刊的论文运用了这些数据库。由此可见前史数据库对前史研讨的推进效果。数据库越来越多,机器核算才干越来越强,前史研讨者很难持续逃避量化办法。
依据个案研读的传统前史办法还面临两个实质性应战。一是“古代史比近代史好研讨”的悖论,原因在于古代前史材料少,能够很快读完并能精确掌握,而近代史材料多,欠好掌握。正本,材料多应该让近代史更好研讨,但是,因为研讨办法的局限性,反而是古代史更好研讨。
其次,即便只从近代史而言,研讨办法也有必要改造,不然就无解。就以清朝刑科题本为例,国家榜首前史档案大约保留了60万件刑科题本,整个档案大约有1800万页手稿。假设史学者一天读550页,那么,要花90年时刻才干读完刑科题本档案。所以,假设只要读一手个案材料才是做前史研讨,那么,刑科题本一辈子也读不完。此外,还有奏折、实录、契约文书、当地志等海量前史材料,让传统研讨办法难以应对。
为什么创造久居农耕
创造农业是自从有人类以来所犯的最大过错?
咱们无妨看一个具体的量化研讨实例。今日我们都重视转基因食物的论题,置疑这种粮食与肉食对人体有害。其实,这个问题在人类前史上不是榜首次。人类最初抛弃游牧打猎而进入久居农耕,不再吃户外打回来的动物和果实,而是吃在家圈养的动物和粮食;其时的人必定也争辩过:这些东西怎样能够呢?人养的肉能吃吗,健康吗?农业改造是功德吗?特别是闻名学者戴蒙德(Jared Diamond)宣布许多作品,说“创造农业是自从有人类以来所犯的最大过错,并且至今还没纠正!”
为什么这么断语?
在长达20万年中,国际各地人类简直无例外地遵从“打猎”加“收集”的日子形式。直到一万两千年前,人类从来没有真实“安靖”下来;大约11500年前,先在今日中东的新月沃地开端久居农业,大约9000年前我国长江与黄河中下游,8500年前墨西哥的玛雅区域、4500年前秘鲁、北美东部和非洲撒哈拉以南,共7个当地别离单独创造久居农耕,并逐步向四周分散。最迟到4000年前,除大洋洲以外的一切陆地,都根本完结了农业改造。
也就是说,比较绵长的打猎收集年代,国际各地的人在很短时刻内转变了日子办法:驯化并耕栽培物、驯养动物、仓储食物和树立杂乱的社会分层。
但是,最让人不解的是:从考古依据核算的身高、疾病阅历看,进入农业后人类的日子水平反而下降了!不管是男人仍是女性,均匀身高都跌落。农耕时期之前,男人均匀身高1.72米,进入农耕后下降到1.62米,女性身高从1.6米降到1.54米。戴蒙德说,这是因为农人劳动时刻与劳动强度都比原始人多,并且养分结构比曾经差,久居一同的人群患上流行症和慢性病的概率添加,均匀寿命也缩短。此外,农业也带来财富距离、社会不平等这些问题。那为什么那么多社会还承受久居农耕日子?这是多年来困扰学界的谜!
在19世纪,以达尔文为代表的部分学者以为,食物的殷实为人类供给了转向农业一切必要的堆集,而农业的诞生带来更安稳、丰厚的食物。事实上,农业前期的人均消费低于打猎收集时期,以至于身高下降,所以达尔文他们的解说站不住。第二种假说则将农业的诞生与气候剧变联络在一同,以为在农业呈现前,国际范围内的气候变得特别适合农业生产。但依据地球气候史的最新预算,最终一个冰川时期的气候既不温暖也不枯燥,没有依据标明地球环境发作了有利于农业耕耘的剧变。还有一种假说则把农业的创造归因于均匀气温的上升,但考古依据标明,在农业诞生前后,安第斯山脉气候干冷,我国东部湿润温暖,北美东部阴冷湿润,撒哈拉以南的非洲则处于枯燥酷热的环境。干冷、湿热、湿冷、干热四种气候类型都没有阻碍相应区域的人类从游牧转向农业。背面必定存在着更深入的原因。
究竟怎样答复这个万年之问呢?
气候改变应该是这一现象的最好解说。除此之外,到现在还没找到其他要素是一同在六大洲发作的改变。不过,即便断定背面的“推手”是气候改变,人类走向农业的途径,仍存在多种解说。
比方,一种途径是全球各地的气候大略在同一时刻段变得更适合农业——久居并栽培作物、圈养家畜的收益比曾经更高,因而,国际各地不谋而合地走上了农业改造之路;第二种可能的途径是,气候的波动性(时节性)增强,导致持续“靠天吃饭”的打猎收集办法的危险增大,一年中有几季万物不长,要挟生计安全。因而,原始人类有必要测验开展新技术:驯化、饲养、跨季仓储食物……经过新手法完结生计资源的跨时节和跨区域装备,进步生计的几率。图1给出2.2万年前至今的气候时节性指数变迁,该指数越高阐明这个时期的跨季温差越大、跨季降雨量不同越多。
所以,假设气候改变是促进农业改造的主因,哪种效果办法更能得到前史数据的支撑呢?
2017年,莫斯科新经济学院的Matranga教授宣布一篇量化前史研讨(“The Ant and the Grasshopper:Seasonality and the In-vention of Agriculture”),对这一问题做出了开创性奉献。对他的研讨来说,最重要的是曩昔22000年的全球气候面板数据库,包含最低、最高气温以及降雨量等等,这是依据天文地舆数学模型 CCSM5(Community Climate System Model第5代)核算的数据,CCSM是由美国全国大气层研讨中心研发并保护的体系模型,该模型最早版别在1983年推出,后来不断改进并扩大成许多气候子模型的组合,第5代模型核算完结于2013年。
假设没有电脑改造,这一数据库是肯定不可能有的,也不可能进行这样的量化前史研讨。依据这个长前史数据库,Ma-tranga别离构建了两个目标:每年的“气温时节性”(一年内的最高气温减去最低气温)和“降雨时节性”(旱季与旱季的降雨量差值)。这儿趁便说一下,关于我国曩昔历朝历代的气候数据,也是直到1970年代,首先由竺可桢先生依据前史文献记载,重建了曩昔5000年我国的气温前史。但也是因为后来电脑技术的日新月异,到2010年,我国科学院地舆科学与资源研讨所由葛全胜教授带领的前史气候改变研讨团队完结并树立秦汉以来我国各区域的具体气候数据库,为进一步的量化前史研讨奠定根底(葛全胜等:《我国历朝气候改变》)。
在农业来源或采用农耕的时刻数据方面,Matranga归纳了三套数据库:
一是Purugganan和Fuller归纳利用碳14同位素标记法和DNA测序,标定了全球范围内耕具和驯化作物呈现的时刻;其次,Putterman和Tri-anor运用考古学开掘所得的依据,估测了农业在160多个国家的来源时刻点;最终,Pinhasi、Fort和Ammer-man协作,经过中东和欧洲两地765个遗址的开掘效果,估测各地农业来源痕迹的时点。Matranga构建了现在最完好、反映国际各地农业改造发端时刻的数据库。这些数据当然也获益于电脑改造。
将这些数据放在一同做计量剖析,Matranga发现:“降水量和气温这二者自身的凹凸并不决议一个区域进入农业的先后。”因而,前面谈到的榜首种途径被否定;与之相反,气温时节性和降雨时节性这两目标最重要,对当地进入农业的时刻有十分明显的决议效果。上文的图2给出了国际各区域创造或采用农耕的时刻跟气温或降雨时节性的联系。
具体来说,气温时节性每进步一个规范差,当地进入农业的时刻均匀提前1000年;降雨时节性每进步一个规范差,当地进入农业的时刻会提前300年。严厉的计量剖析支撑前面说到的第二种途径,气候时节性的强化能更好解说为什么农业改造在不同当地发作:气候时节性的增强,添加原始人类的生计危险;农业是时人应对这一危险的改造,特别是经过久居下来,制造贮藏食物的器皿,为过冬而贮藏,提高生计的概率。
从他的研讨中看到,量化前史研讨不只是用数据说话,更重要的是经过量化剖析,协助前史学者扫除一些假说、承受别的一些假说。这是多变量回归剖析能做的,但定性剖析难以做到。
新知识改造
核算学、计量研讨办法很早就开展了,但曩昔因为缺少核算机和数据库东西,量化办法在前史研讨中的使用一向有限。最近四十年里,电脑核算才干、数据库化、互联网化都日新月异,这些变迁带来最近十几年在前史与社会科学范畴的新知识改造。许多正本无法做的研讨今日能够做,由此发生的认知越来越广、越深,一同研讨决心也大增。
今日在国内,前史大数据库也在添加,这就要求有新的前史研讨办法,量化研讨办法是必然选择之一。量化前史研讨不只是用数据说话,也不只是核算查验曾经前史学家提出的假说,而是能够带来曾经想不到的新认知。
在曩昔多年里,前史学界受过量化办法练习的人很少,学过经济学、政治学等社会科学的人也不多;而经济学、政治学研讨范畴内,了解前史的学者也少。所以,在曩昔20来年里,国内前史学跟社会科学的交互研讨很少,形成国内学界根本上错失了由前史大数据带来的新知识改造。