江苏档案信息网业务新知互联网档案馆建立25周年：网页存证、当下官司与未来之路？

互联网档案馆建立25周年：网页存证、当下官司与未来之路？

信息时间：2021-11-19 15:56
浏览次数：

今年，互联网档案馆建立25周年！

“网络永远生活在当下。它虚幻、短暂、不稳定、不可靠。有时你想要访问的网页却指向了404……有候你想要查询的页面已经被更新后的内容所覆盖，这下麻烦更大了，因为网页不会告诉你，你看到的内容压根儿不是自己想查询的内容。”这是《纽约客》一篇题为“Can the Internet be archived？”的文章中提出的问题，您是否也有同感？有没有办法找到那些404或者修改前的网页内容呢？

计算机科学家布鲁斯特·卡勒感怀于亚历山大大帝的雄心壮志，梦想为数字时代建立一个“万物图书馆”，他把这个数字图书馆命名为“互联网档案馆”。互联网档案馆作为公益网站，旨在为所有人提供获取知识的通途。然而在实现使命的道路上，互联网档案馆正在面临着一场牵动互联网开放进程的官司。本文将介绍互联网档案馆在数字环境中的存档实践、多元主体共建知识社区，探究互联网文化与档案管理的融合以及管理、技术与司法的撞击，从中窥探数字档案馆的发展与未来之路。

一、为数字时代构建互联网档案馆

牛津大学博德利图书馆（Oxford’s Bodleian Libraries）馆长理查德·欧文顿（Richard Ovenden）指出：“千年以来一直有人梦想建造一个世界级图书馆，文艺复兴时期，便有人幻想把当时世界上所有已经印刷在纸上的知识全部储藏在一个房间或者一家机构里。”

数千年前，亚历山大大帝（公元前356-323年）征服西方世界后，在尼罗河口建立亚历山大城。他志存高远，希望从这里连接欧亚非、联结希腊和埃及两大文明。亚历山大大帝死后，托勒密王朝的君王们继承了亚历山大的志向。公元前259年，在托勒密一世的主持之下，亚历山大图书馆拔地而起。亚历山大图书馆“收集世界知识之书”，将地中海沿岸地区古往今来所有文献汇聚到一起“实现世界智慧总汇”，亚历山大城由此成为世界“学术之都”和“文明灯塔”。然而，非常遗憾的是，随着托勒密王朝的衰落，亚历山大图书馆被吞没于战火之中。

亚历山大图书馆.jpg

亚历山大图书馆

曾经地中海的太阳如今只存于想象

数千年后的1996年，一位名叫布鲁斯特·卡勒的年轻计算机科学家感怀于亚历山大大帝的雄心壮志，梦想为数字时代建立一个“万物图书馆”。图书馆包含人类所有的作品，免费向公众开放。他把这个数字图书馆命名为“互联网档案馆”（Internet Archive），其使命是：为所有人提供获取知识的通途。它将网站、软件、音乐、视频、图片和数以百万计的书籍以数字形式存档，并为公众提供免费的访问渠道；不仅如此，互联网档案馆还积极倡导自由和开放的互联网建设。[1]

布鲁斯特·卡勒.jpg

再建亚历山大图书馆的机会摆在我们所有人面前，

我们要更进一步——面向全球知识开放。

有趣的是，现在技术上是可行的。

——布鲁斯特·卡勒

二、互联网档案馆网页存档实践

如今大数据的概念风行全球，人们通常将大数据的特征归纳为”4V”，即规模性（Volume）、多样性（Varity）、高速性（Velocity）和价值性（Value）。互联网上，数据量巨大、数据形式多样、数据更新频率快、数据价值密度低，这些都是数字环境中存档必须考虑的基本问题。

大数据的4V特征.png

大数据的4V特征

1996年正是互联网发展之时，互联网档案馆保存的最早的网页可追溯至1996年5月，存档内容于2001年首次向公众开放。当时开发了网页时光机（Wayback Machine），允许用户搜索和访问存档网页，穿越过往。有人甚至说，几乎可以肯定，如果哪些东西没有被网页时光机收录，它们等于从来没有存在过。

通过回溯机可最早追溯到1996年5月12日存档的网页.png

通过回溯机可最早追溯到1996年5月12日存档的网页

1999年底，互联网档案馆将其馆藏扩展到互联网网页档案之外。截至2021年4月，互联网档案馆在网页时光机中保存了超过3000万册图书和文本、890万部电影、视频和电视节目、649，000个软件程序、13，225，000个音频文件、380万张图片和5，800亿个网页。

互联网档案馆保存着形式多样的数字档案.png

互联网档案馆保存着形式多样的数字档案

然而，也正是因为数字环境下馆藏来源及形式多样的特征使得互联网档案馆对馆藏信息组织相对于传统档案馆而言显得有些杂乱。互联网档案馆将其馆藏分为网页、文本、音频等9类，每类的划分中却没有明确的依据和区分度。为弥补在馆藏信息组织层面的缺失，互联网档案馆在检索功能上更为精心、精细，提供了许多检索途径。这是互联网文化所决定的，也是布鲁斯特·卡勒所强调的与纸质环境相比“更为智能”（Smart than paper）。

互联网档案馆的信息组织略显杂乱.png

互联网档案馆的信息组织略显杂乱

同时，互联网具有更新速率高、价值密度低的特点，通常体现在网站的更动上。网络存档涉及收集、保存和提供继续访问互联网信息的整个过程，如何确定存档的范围与存档的方式是目前网络存档面临的需要改进的问题。互联网档案馆通过与750余个图书馆和其他合作伙伴合作以确定重要的网页，并且在网络爬虫等自动化技术的帮助下完成，目前互联网档案馆的网页时光机已经捕获超过6，270亿个网页。

回溯机通过网络爬虫等方式将重要的网页保存.png

回溯机通过网络爬虫等方式将重要的网页保存

在信息日新月异的数字环境中，互联网档案馆的网页存档为过去提供了参考和凭证。2018年，特朗普宣称，谷歌在其主页上宣传了奥巴马的国情咨文而不是他自己的。然而，互联网档案馆中谷歌主页的存档版本证明谷歌所发的确系特朗普的国情咨文，多家新闻媒体也使用互联网档案馆的网页时光机作为核查这类声明的来源。实际上，Wayback Machine 存档网页所发挥的证据功能，不仅得到美国司法实务界的认可，还确立了其可采性、真实性规则。网页存证和数字档案的价值由此可见一斑！

三、多元主体共建知识社区

互联网环境下存档是一项艰巨的任务，并非档案管理人员所能单独完成。互联网与生俱来的开放与共享的文化属性让存档互联网成为每个人的权利与义务。布鲁斯特·卡勒在互联网25周年之际发表的文章中谈及建立互联网档案馆的构想：互联网档案馆将收藏人类所有的作品，并服务于世界任何人。能否将不仅是签约作家的作品而是每个人的作品都予以存档？能否不仅将文字档案，还将歌曲、食谱、游戏和视频予以存档？能否让所有人在一百年之后了解祖辈？互联网档案馆的目标是为网络创建一个永久的共同记忆库，从而建立新的全球思维。[2]

互联网档案馆的档案的来源具有去中心化的特点，任何人都可以成为公民档案管理员，并通过互联网档案馆的回溯机保存历史。网页时光机的“实时保存页面”（Save Page Now）功能允许任何人自由存档单一的网页，而“订阅网页存档”（Archive-It）功能更可用于创建各种内容的数字档案。“Archive-It”是一种网络存档订阅服务，允许机构和个人生成和保存数字档案，并对其进一步收集、编目、管理、浏览、搜索和查看。截止目前，超过800家图书馆、档案馆等机构在使用 “订阅网页存档”服务功能积极构建数字档案库。

Archive-It功能为个人与机构提供.png

Archive-It功能为个人与机构提供

生成和保存数字档案的途径

正如布鲁斯特·卡勒所说：我们可以拥有多赢的世界，人们能在这里找到与之志同道合者所组成的知识社区，参与其中的学习，相信我们可以共同建设这个未来。互联网档案馆简化了分享、保存、获取档案的过程，从而能让更多公众参与到社会记忆与知识社区的建设之中，并以档案为纽带，为志同道合的公众提供交流的平台，通过档案的共建共享实现多赢。

四、数字资源共享VS版权至上

“开放图书馆”是互联网档案馆所搭建的数字图书馆项目，用户自由借阅通过该项目上传和存档的书籍的数字副本、公共领域的书籍和版权下的书籍。为让更多书籍可供数字学习者阅读，包括开放图书馆在内的众多图书馆一直在对其所藏有的实物图书进行数字化，并以1:1的“拥有与借出”比例提供借阅（通常拥有一本实体图书仅可外借该书的数字版本；一旦一本实体书被借出，它的对应数字版本则不能借出，反之亦然......）；“受控数字借阅” （Controlled Digital Lending，CDL）规定某一本数字图书在同一时间段仅可供一人阅读，不能分享给他人。上述模式受到许多图书管理员和法律专家的认可，却一直不被所有出版商所接受。[3]

新冠肺炎疫情期间，所有实体图书馆均被关闭，学生和公众无法到实体图书馆借阅图书，于是数字图书馆被借阅申请“淹没”，开放图书馆遂于2020年3月24日启动了“国家紧急图书馆”计划，该计划不再受“拥有与借出”的比例限制，也不受借阅的时间限制。[4]

然而在6月1日，哈切特、企鹅兰登书屋、威利和哈珀柯林斯四家出版商提起对互联网档案馆的诉讼，称整个项目侵犯了其版权，要求互联网档案馆停止对图书进行数字化和借阅，并销毁150万册数字图书。“国家紧急图书馆”被迫提前两周中止。[5]

“国家紧急图书馆”被迫于6月16日终止.jpg

“国家紧急图书馆”被迫于6月16日终止

互联网档案馆如今身处资源共享大潮和版权至上的夹缝之中。虽然最终审判的结果尚未可知（据互联网档案馆称已达成和解），但大多数公众给予互联网档案馆积极评价。研究图书馆协会评价道：“25年来，互联网档案馆是一股永远的力量，通过获取世界知识，为每个人提供无障碍的访问，为高等教育和公众提供服务。”[6]

结语

虽然对互联网档案馆的做法是否合法、崇高使命能否支撑其行为的正当性等问题仍然存在争议。但毫无疑问的是，互联网档案馆将开放多元、共建共享的互联网文化与档案开放利用服务相结合，成为数字时代中档案领域的先行者。25年来，互联网档案馆总是行动先于观念转变，正是得益于此，我们才能在今天追溯到1996年以来的网页，在疫情期间仍能不间断学习，并从中窥探到数字档案馆的未来。同时，我们也从互联网档案馆中看到了数字档案的脆弱性和短暂性，在数字空间存在的档案的保护及其利用仍然受限于现实条件。[7]如果互联网档案馆的实践失败，其所保存的数字档案与社会记忆就会如同古代亚历山大图书馆般永远消失了。

【参考文献】

参考文献.png

来源：2021.11.19 档案那些事儿微信公众号