- 信息时间:2022-01-28 12:30
- 浏览次数: 157
推荐导语
“新一代信息技术广泛应用,档案工作环境、对象、内容发生巨大变化,迫切要求创新档案工作理念、方法、模式,加快全面数字转型和智能升级”,这是《“十四五”全国档案事业发展规划》对我国档案工作现状的科学研判与客观审视。如何把握好信息技术带来的发展机遇,怎样提升档案工作数字化、信息化、智能化发展水平,有赖于档案界破除观念障碍和技术瓶颈,注重思维、业务与技术多维并举,积极推动档案工作与大数据、人工智能等新技术的深度融合,为推进档案事业高质量发展和建设档案强国蓄势赋能。
2020年10月,美国国家档案与文件署(以下简称NARA)发布《认知技术白皮书》(Cognitive Technologies White Paper)(以下简称《白皮书》),全面阐释了四种认知技术对美国联邦文件管理的深刻影响以及引发的文化、社会及伦理问题等,对我国档案部门创新工作观念、深化技术运用、培养懂技术的管理人才、推进数字转型不乏借鉴意义与参考价值。为便于理解、增强可读性,贴心“事儿”精心配图,有些配图还以中英双语的形式呈现。
《白皮书》的主要内容涉及物联网、机器人流程自动化、机器学习与人工智能、文化与社会思考、对文件/档案管理的影响、术语汇编等。以下是《白皮书》核心内容的中译本,可作为数字转型的学习资料。文章比较长,认真看完一定会有所收获!送给勤奋好学的亲们,即刻收藏咯!
《认知技术白皮书》封面
一、引言
许多新兴技术正在支持或取代人类的决策。NARA在《白皮书》中展示了统称为认知技术的物联网、机器人流程自动化、机器学习和人工智能四种特定新兴技术,并提供了如何生成文件和数据(包括政府文件和数据)的各种应用示例。此外,《白皮书》阐述了影响认知技术应用的若干促成因素,探讨了各种认知技术相互结合时如何将其能力扩大至超出各自本身的能力,并对人工智能决策以及潜在的偏见与伦理问题进行了分析。
文件和档案专业人员一直很想了解这些技术是否已经发展到与联邦文件、档案的自动化管理无缝衔接的程度。《白皮书》分析了认知技术如何实现联邦文件管理功能的自动化,并阐释了一系列前沿观点。此外还描述了影响联邦文件、数据生成和管理的现行标准与政策。文件和数据之间具有很强的相关性,两者都受到相似治理结构和NARA相关规定的约束。认知技术引发数据生成和收集呈现出指数级增长的态势,需要对如何调整和制定标准与政策进行前瞻性思考,进而确保联邦机构和NARA能够有效应对文件/档案和信息管理的挑战,充分把握认知技术带来的机遇。
二、摘要
第一,《白皮书》提供了每种认知技术的基本描述、各种应用示例,以及影响这些技术的若干促成因素。它聚焦于常见的算法训练方法,以及编程如何从提供基本输出和函数到发展为更直观或支持人工智能(AI)的系统。人工智能可能在模仿人类的决策中出现细微差别,由此《白皮书》阐释了算法开发和训练过程中出现的偏见与伦理问题。
第二,《白皮书》分析了认知技术对文件/档案管理的影响。以文件和数据之间的相关性为分析起点,特别强调两者都受到相似治理结构和NARA规定的约束,关注政策、标准以及对文件/档案真实性和完整性面临的风险。此外,《白皮书》还强调了文件鉴定、保管期限表以及文件移交的实施事宜。
第三,《白皮书》阐述了对数据的指数级增长和使用带来的种种挑战。随着数据生成和捕获新方法的出现,数据管理通常滞后,而惊人的数据量必须由机构在恰当的文档管理框架或数据框架内予以管理。
三、物联网
1999年,英国技术专家凯文·阿什顿(Kevin Ashton)首次使用“物联网”(IoT)这一术语,主张把射频识别系统与互联网相连接。从概念上讲,物联网已经发展到几乎遍及所有具有微处理器且可以无线通信的设备。物联网指全球数十亿个连接到互联网、收集和共享数据的物理设备。
“得益于廉价的处理器和无线网络,从药丸到飞机再到自动驾驶汽车,任何诸如此类都可以转变为物联网的组成部分。这为设备注入了一定程度的数字智能,在无人参与的情况下进行实时数据通信,从而有效地将数字世界和物理世界融合到一起。”(Ranger, 2018)
物联网(来自网络)
表1 2021世界物联网排行榜500强名单(前10位)
(数据来源:世界物联网大会.2021世界物联网排行榜500强公示. http://www.wiotc.org/cn/news/397.html)
(一)应用
物联网设备使用传感器收集数据,几乎遍布人类活动的各个方面,既应用于个人生活,也在各行各业和政府部门中得以体现。
1. 个人应用
智能设备诸如虚拟助理(virtual assistant)等在人们的生活中越来越普及。智能助理(smart assistant)通过编程识别语音命令,并能够提供信息和执行简单任务。智能助理可与家庭安全系统结合使用,操作智能家庭设备(如灯、门锁、百叶窗或窗帘);也可以执行管理功能,例如添加日历项、创建列表和提醒、回答问题以及拨打电话等;还可以用来打开壁炉、播放特定类型的音乐、讲笑话。许多智能设备可以配对、互连、远程访问和控制,由此实现家居自动化,又称为智能家居。
2. 行业应用
物联网设备除了融入我们的个人生活之外,还在许多领域和行业得到实际应用,包括汽车和航空服务。例如,2018年,罗尔斯·罗伊斯(Rolls-Royce)推出了智能引擎,该引擎使用物联网传感器捕获70万亿个数据点,用于跟踪飞机发动机的维护和维修状况。系统通过网络连接,并使用数据点自动建议对发动机进行维护。
3. 政府应用
运用物联网技术采集数据、管理资源、提供服务的城市,称为智能城市。2016年,圣地亚哥市批准了一项计划,即用处理器和数据存储装置改造路灯、蓝牙和Wi-Fi收音机,1080p摄像机以及声学、温度、压力、湿度、振动和磁场传感器。该市部署物联网设备进行数据采集和分析,用以改善停车、交通和安全状况。意识到广阔的应用前景,圣地亚哥在公共区域使用物联网设备的过程中高度重视数据的隐私、保管和访问。
2017年,美国地质调查局(USGS)推出了名为ShakeAlert的地震预警系统。该系统由大学、公共和私人合作伙伴共同开发,基于传感器网络技术,旨在检测地震信息并将其传送到中央控制中心。ShakeAlert能够在几秒钟、几分钟乃至几小时之前提供预警,便于人们在挽救生命的时刻采取安全或保护措施。
ShakeAlert 地震预警系统的系统架构(图源网络)
(二)促成因素
据一些专家估计,到2025年,全球将有754.4亿台设备接入互联网(Statista,2016);数据总量的30%将在2025年实现实时生成、捕获或复制(Reinsel, Gantz, Rydning, 2018)。以下五个因素助益物联网的发展。
1. 互联网协议第六版(IPv6)
IP协议是连接到Internet设备的网络地址,允许设备发送和接收数据。直到最近,IP地址均基于32位协议(包括约43亿个唯一可用的IP地址),即范围从0到255(如128.105.39.11)的四组数字。互联网的快速发展清楚表明,设备的总数最终将超过协议容量。2017年,新IP版本IPv6得以批准,指定了四个16进制的八组数字
(如2a03:2880:2110:df07:face:b00c::1),包括3.4×1038个IP地址,足以满足物联网设备数量的无限增长。
2. 传感器价格大幅下降
高盛(Goldman Sachs)的数据表明,2018年每个传感器的平均成本为0.44美元,比2004年的平均成本降低近200%(Microsoft, 2018)。成本下降,再加上易于部署和Wi-Fi连接,大大减少了企业在跨业务流程部署传感器或物联网设备时的障碍。
3. 边缘计算
当用户从云端请求数据时,在数据返回之前时有延迟。比如,用户在网上搜索餐厅,遇到延迟可能会影响心情;若自动驾驶的卡车遭遇延迟很有可能带来危险甚至致命。边缘计算(Edge Computing)是将数据处理从集中式的云端推向需要利用数据来加速响应的物理位置或边缘。数据在本地处理时,比从云端发送和接收速度更快。边缘计算通过将人工智能传感器嵌入物联网设备(而非数百或数千英里之外的云平台),能够缓解物联网技术的延迟问题。
4. 网络改进
接收和传输数据对于物联网设备至关重要。5G和千兆光纤等网络的改进确保了高速上传下载速度以及极低延迟。4G数据须在100Mbs至1Gbs之间传输,而理论上,5G数据将实现在1Gbs至10Gbs之间传输。除了数据传输速度外,最大的影响将是延迟的下降,4G的延迟低至50毫秒,而5G的预期延迟小于1毫秒。
5. 地理信息系统
地理信息系统是提供定位服务技术的总称,基础是通过获取经纬度和可能高度,确定传感器在地球上的空间位置。地理信息系统数据通过与其他元数据(如温度或速度)相结合,有助于可视化呈现或提供背景信息。
总体而言,这五个有利因素有助于保障物联网的可用性、扩容性和数据传输速度。
四、机器人流程自动化
机器人流程自动化(RPA)是一个使软件机器人能够与应用程序实现交互的技术平台。换言之,这意味着RPA是指示设备或电子系统执行功能的软件代码。该设备或系统称为机器人。为了让RPA执行编码中的指令或学习流程,程序工程师必须创建详细的任务列表,并向机器人“训练”这些步骤。这就要求工程师必须编写程序脚本,以便机器人能够重复快速地执行任务。结构化输入、基于规则的流程和结构化输出是RPA获得最佳执行效果所必需的要素。
(一)应用
1. 电子邮件和网站界面
RPA软件旨在减轻员工重复化、简单化的任务负担。例如,公众可以向NARA的咨询台发送电子邮件,查询有关某个主题的信息。RPA系统可以打开电子邮件、扫描内容,打开查阅请求系统、填充咨询者的联系信息,并对咨询目的做出最佳推测。有了该虚拟软件,机构可以根据需要创建多个RPA实例以满足需求。在网站上,为用户提供通过聊天功能进行交互的选项来更快查找所需信息已经成为一种常见的做法。2018年,NARA推出了自主研发的聊天机器人,帮助回答公众的问题,实现该机构“与用户建立联系”的战略目标(Wright,2018)。
2. 数字化、数据输入和业务流程自动化
RPA的一些早期倡导者提供数字化软件,侧重于通过光学字符识别读取图像、从表单中提取数据,并将结构化数据传送到数据库。公司逐渐拓展数字化业务组合,使用RPA执行数据录入,这反过来助益其开展包括业务流程自动化在内的服务营销。RPA提供了实现业务功能中多个步骤自动化的契机。
RPA正在开始影响多个行业的业务流程,其成功实施的共同主题是提高数据输入的准确性并降低人员成本。例如,一家银行部署了85个机器人来运行13个进程,每年处理150万个请求。RPA为该银行激发出相当于200多名全职员工的产能,使其招聘更多员工的成本大约节省了30%(Schatsky et al , 2016)。
(二)促成要素
RPA是业务流程自动化的一种形式,采用系统的图形用户界面(GUI)进行自动化操作。RPAs与应用程序的前端(GUI)接口可以模拟人类的数据输入。RPA的重点是实现简单任务的自动化,比如回答简单查询、打开应用程序、键入而非解释数据。通过对多个RPA进行组合,这种叠加过程允许系统对其处理的信息做出决策。
1. 虚拟接口
GUI最初的设计的最初目的是为了应对使用早期计算机程序所需命令行界面的挑战。用户一般更喜欢点击图标,而非键入命令。RPA通过允许计算机使用虚拟键盘和鼠标与GUI交互,实际上是使用与鼠标或键盘相同类型的信号来连接软件。通过虚拟化,可以使用多个机器人同时将数据输入到GUI软件中。
2. 成本、敏捷性与效益
RPA编程使用GUI而非编写代码,因此可以比编写代码更经济、更快捷地创建并部署RPA。RPA的使用与有意进行文件/档案数字化的机构有关,以满足美国行政管理和预算局(Office of Management and Budget, OMB)和NARA《M-19-21备忘录》(NARA Memorandum, M-19-21)提出的“向电子文件转型”(Transition to Electronic Records)的要求。
该备忘录要求各机构以电子方式管理临时及具有永久保存价值的文件,并使用适当的元数据,鼓励开展数字化工作,要求机构关闭其运营的文件存储设施(agency-operated records storage facilities)。如今,服务提供商利用RPA提供数字化服务已经非常普遍,这就意味着各机构应当认真研究市场、评估公平的市场价值,确保明智的政府支出。
RPA主张将工作人员从一般事务性的工作中解放出来,使其专注于更具创造性或挑战性的工作,减少机构雇员的重复性任务。预计联邦政府将在工作中使用更多的RPA,人事管理办公室(Office of Personnel Management)于2019年发布了技术重塑工具包(Reskilling Toolkit),以帮助各机构为资源转移做好准备。
五、机器学习和人工智能
机器学习(ML)和人工智能(AI)算法是机器学习和人工智能的基础,字典将算法定义为一个循序渐进、需要经常重复的过程,用以解决问题或完成某个目标。术语机器学习指的是一种软件编程技术,运用算法并通过分析自主改进决策,有助于机器自动发现用于预测的数据模式。随着可用于分析的数据量的增加,这些算法通常呈现出更好的效果。
AI(人工智能)可以表述为学习和解决问题的教学机器。其算法、方法或技术旨在使系统表现如同人类,现已应用于我们的日常生活中。根据影响程度,AI可分为低风险系统或高风险系统,Netflix等低风险系统可以预测我们下一步想看什么,根据公众搜索偏好进行个性化推荐;高风险系统运用数据对人做出决策和预测。用于预测罪犯是否有可能重新犯罪的惩戒罪犯管理概况替代制裁(COMPAS)系统就是高风险系统的一个例子。
AI利用多种学习技术,包括ML、自然语言处理、传感器和人机交互。ML符合AI更广义层次的概念。
(一)应用
1. 电子邮件管理
毛拉·格罗斯曼(Maura Grossman)和戈登·科马克(Gordon Cormack)与弗吉尼亚图书馆合作,采用一个持续主动学习(CAL)的协议和技术辅助审查(TAR)工具,对前弗吉尼亚州州长凯恩(Timothy Kaine)的电子邮件进行分类和审查,这是机器学习用于电子邮件管理、研究和电子披露(e-discovery)的例子之一。
在澳大利亚,维多利亚公共文件办公室(PROV,维多利亚档案馆)也有一个类似的项目,即将机器学习用于电子邮件的鉴定。PROV拥有67000盘磁带和28 PB的内容,未能有效实现对档案文件的提供利用。该项目探索使用TAR工具进行技术鉴定,剔除重复的电子邮件样本。虽然该工具很有效,但并非完全自动化,还需要运用传统的鉴定知识完善搜索功能。
2. 数字化与元数据
位于华盛顿特区的史密森研究院国家自然历史博物馆的国家植物标本室(National Herbarium of the National Museum of Natural History, Smithsonian Institution at Washington, D.C.)探索利用深度学习技术检测水银染色的植物标本。植物学家手动创建了两组大规模数字化图像数据集,包括一组7777个未染色的标本和7777个染色的图像。研究人员使用该算法识别出两类植物,涉及9276种丛生苔藓和9113种穗苔藓。通过对数据进行分层,识别物种并区分是否染色,成功率高达90%以上。研究人员强调,这项工作需要适当的元数据和长时间的视觉识别原始训练集的样本,通过对标本进行初步分类,有助于对数字化图像进行比较。该项目需要借助数据科学家、数字化专家和植物学家的跨学科技能和知识。
3. 文件/档案保管
詹姆斯·拉平(James Lappin)在个人博客中,通过分配访问权限和保留规则的算法,分析了人工智能对文件/档案保管的影响。根据拉平的观点,该领域面临的挑战是如何使用人工智能功能,并且人工智能具备重组整个文件系统的可能性。
(二)促成要素
算法是组成ML和AI的主要组件之一,其数据或输出与编程或训练方法具有同样好的效果。下图“机器学习和自动分类的学习方法”(Learning Methods for Machine Learning and Automatic Classification)描述了每种学习方法的特点:任务驱动的监督方法、数据驱动的无监督方法和从错误中学习的强化方法。
1. 监督学习
使用标记元素或图像处理对数据(如汽车、人或鸟)进行分类。此方法要求人工手动标记输入信息或数据,然后对算法进行训练,以做出准确的决策来预测标记数据。这种培训方法是基于手工操作的,而且耗时、非常昂贵。算法最初引入“清洁”的数据会产生更准确的结果或预测输出。
2. 无监督学习
与监督学习不同,无监督训练方法不需要标记数据,而是将数据格式化为预设规范,并使用数据对算法进行训练。如图11、12所示,该算法通过识别数据中的相似性,将其分组进行进一步分析。虽然该模型提供了更精确的输出,但算法如何在数据集群中找到相似之处并不透明。
3. 强化学习
不同于监督和无监督学习两种基本方法,强化学习不使用标签,而是从一张白板开始,通过与环境的交互自我训练。该算法面向目标、在多个步骤学习的过程中达成目标,当准确地预测信息或数据时会受到激励。多明格斯·埃斯特维兹(Domínguez Estévez)指出:“另一方面,(强化学习)算法学习根据在游戏模拟过程中获得的奖励,学习关联在不同游戏状态下执行正确动作的策略”。使用强化学习方法的算法可能会表现出像人类一样的超前思维,或者像“吃豆人女士”(一款游戏)那样改变方向以躲避幽灵,这是算法学习的典型范例。
六、文化和社会思考
(一)原则
《维系美国人工智能领导力的行政命令》(The Executive Order on Maintaining American Leadership on Artificial Intelligence)(EO 13859)要求联邦机构专注于促进人工智能系统可靠性的研究。第1(d)节指出:“美国必须培养公众对人工智能技术的信任和信心,并在应用过程中保护公民自由、隐私和国家的价值观,为了人民充分发挥人工智能技术的潜力”。国防创新委员会(Defense Innovation Board, DIB)是国防部长的联邦咨询委员会,其董事会发布了一份报告,为人工智能系统提供了原则和道德框架。这些原则规定,人工智能系统的使用必须是负责任的、公平的、可追踪的、可靠的和可管理的。人们对机器学习(ML)和人工智能(AI)的信任直接受其对算法制定决策理解程度的影响。
计算机程序员通常不会为了在形成最终版本的文件、输出或人工智能决策之前记录预先决策分析而开发算法。在业务流程用例中,完成业务流程过程中的每个活动都记录在标准操作过程中(与算法的if/then语句同义)。但是,实际活动轨迹通常不会保留下来,仅在业务流程完成后保存最终的决策或文件。
(二)偏见与伦理
人工智能系统可能会受到性别、社会、文化或其他道德因素等偏见的影响。开发人员必须保持警惕,确保使用的输入数据算法是准确的,并且没有出现扭曲、损坏、受限或定义不充分等问题。如果无意中引入人类偏见和文化假设可能会导致不准确的预测信息,从而产生重大影响。
虽然人工智能具有潜在的优势,但人工智能用例应该识别和评估偏见和伦理问题。人工智能研究假设性别是二进制的,语言处理器通常反映出普遍的种族文化偏见。当前,人工智能研究和检验其产生的对社会及下述领域的影响:权利和自由、劳动和自动化、偏见和包容以及安全和关键基础设施,这些涉及人工智能行业的多样性。一方面,人工智能目前是一个技术领域,应扩展为对法律、社会学和医学等广泛领域具有重大影响的技术。另一方面,除了扩大学科代表性外,还需要人员多样化,注重不同性别、种族人工智能从业者占比的相对均衡。
【案例1】微软的Tay聊天机器人于2016年在推特上线,在24小时内收获50000名粉丝,发布了大约100000条推文。然而,Tay所学的语言具有种族主义和冒犯性,从与发布攻击性语言的人的互动中学会了偏见。
【案例2】亚马逊2016年推出的Rekognition软件被联邦、州和地方政府用于面部分析,一直备受争议。其识别非白色皮肤人脸的错误率很高,并只能识别两种性别,无法对非二元性别进行分类。
【案例3】COMPAS用于预测谁最有可能再次犯罪。该软件是一种专有的判刑算法,主要用于法官对罪犯判刑,倾向于过度预测非裔美国人被告,而对白人被告可能再次犯罪的预测不足。
因此,对伦理问题的考虑必须是人工智能技术发展过程的一部分,但在多数情况下并没有做到,主要是由于缺乏标准化的数据记录方法,错误运用训练算法的数据而造成的。
七、对文件管理的影响
全球生成的数据量逐年增加,预计2025年全球数据总量将高达175ZB。每个ZB包含一百万个PB。随着生成和捕获数据新方法的出现,数据管理往往滞后。虽然数据量可能惊人,但数据必须由机构在文档管理框架内进行管理。保管期限的长短仍然取决于业务需要和法律要求。通常情况下,包含个人身份信息和其他敏感信息的大量数据被汇集在一起进行分析和使用。通过元数据和其他方法维护数据来源对于保护隐私和数据安全至关重要。
2010-2025年全球数据圈规模预测(来自网络)
(一)文件和数据之间的相关性
联邦文件和数据均属于信息形式,因此文件和数据共享治理框架(图19)将其呈现为独立但相关的实体。数据管理在数据科学家、系统和软件工程师监督之下开展,文件管理人员通常应具备档案学、图书馆学和项目管理背景。由于各机构资源分布不成比例且相对不一,因而应受到相似治理结构和保管要求的约束。
(二)法规、章程、政策和数据标准
《美国法典》第44卷第33章第3301节(44 U.S.C. Chapter 33, Section 3301)对数据的文件管理治理作出要求,规定联邦文件包括“所有记录的信息”,无论其形式或特征如何。正如《美国法典》第35章第3502节(44 U.S.C Chapter 35, Section 3502)所定义的,“数据”具体指记录的信息,无论其形式如何。根据对“记录的信息”的界定,文件和数据共享同一法律法规框架。
1. 政策
由认知技术生成的预测信息或输出数据,如果机构开展并记录了其分支机构的业务活动或决策,则应遵守《联邦文件法》的规定。在区块链上生成业务数据或散列,这是技术如何以非传统方式生成文件或输出数据的一个示例。认知技术产生的任何预测性信息或数据都可能属于联邦文件,各机构需在整个生命周期中对文件加以管理。
保存历史文件(档案)是NARA的重要使命之一。为有效履行这一职能,各机构必须在其生命周期结束时对电子文件进行处置,并定期将具有永久保存价值的电子文件移交给NARA。目前尚不清楚这些认知技术是否已经开始以非传统方式生成文件,比如区块链散列交易数据。
NARA发布了《通用文件保管期限表》(General Records Schedules,GRS),相当于政府范围内的文件管理、授权管理和联邦文件的处置政策。GRS 3.1中的“技术”部分明确规定了一般技术管理相关的文件。算法可以设计成产生各种类型的文件和数据,因此其中涉及的特殊性否定了对认知技术的适用性。GRS不包括算法,应由特定的处置机构进行管理。
2. 数据标准
美国国家标准与技术研究院(NIST)制定了一项联邦参与计划,以制定针对人工智能领域的标准。这些标准为开发人员在训练和测试算法确立了“道路规则”,这将促进人工智能的能力创新。该计划确定了一些现有和需要的标准,包括非技术标准,用以宣传社会和伦理、治理和政策决策等,并将数据标准确定为AI标准的补充工具,指出“数据标准使机器学习应用程序所需的培训数据对所有授权用户更加可见和可用”。
联邦数据战略(Federal Data Strategy,FDS)是实现政府跨机构优先目标的结果:将数据作为战略资产加以利用。通过制定一项政府范围的行动计划,确保更好地利用数据进而提高效率并确定其优先次序。FDS行动计划要求管理和预算办公室(OMB)成立一个政府范围的数据委员会,负责协调各机构的数据政策和标准制定工作。该委员会和NIST制定的数据标准可能需要编辑并纳入文件管理法规、政策或GRS项目中。
(三)真实性与完整性
机构信息系统安保干事和首席信息官已参与风险管理技术工作,确保信息技术基础设施的安全。传统风险控制是识别漏洞、分析和评估风险、处理或缓解并监督。当今的技术环境给认知技术使用的文件和数据带来了诸多风险,包括对文件/档案真实性和完整性的操控。
人工智能安全专家兼加州大学伯克利分校教授宋晓东(Dawn Song)认为:“.......探索和操纵机器学习系统的新技术在该领域被称为‘对抗性机器学习’方法,这可能会给任何希望在商业领域利用AI力量的人带来严重问题。”她进一步指出,“对抗性机器学习包括实验性地将输入馈送到一个算法中(指把训练的样本输入给算法——译者注),以显示其已经受过训练的信息,或以导致系统失灵的方式输入”。被操纵算法的输出破坏了联邦文件的真实性和完整性。生成时的输出已被破坏,因此可能对政府运作、面向公众开展的业务以及最终的文件/档案或数据产生不利影响。
(四)鉴定、保管期限与移交
认知技术的出现尚未促使联邦政府确定文件保管期限和向NARA移交档案的要求发生监管方式或政策转变。认知技术在联邦政府中变得越来越普遍,NARA和文件、档案专业人员应认真考虑以下几点:
文件工作人员和档案鉴定人员应与首席数据官(CDO)合作,对算法和结果数据集进行评估和明确保管期限,而不是无限期地保管数据。文件保管类别应以批准的保管期限表(approved records schedules)为基础。在确定电子数据具体的管理与控制方案时,CDO、文件工作人员和业务部门应根据数据特征和用途进行协调并做出联合决策。CDO可以借助其技术专长来确定业务价值和留存比例。
数据的流动性加大了满足文件保管要求的难度,但在这些数据所在的系统中实施处置期限表却更加容易。
利用AI和ML技术识别符合处置条件的文件,可以实现自动销毁或自动移交至NARA的电子文件档案馆(ERA)。
NARA依据上述技术采集的数据及其对鉴定工作的影响,来审视NARA第1441指令附录2中的“国家档案馆的鉴定政策”(Appraisal Policy of the National Archives)。
八、结论
《白皮书》对人工智能(AI)、机器学习(ML)、机器人流程自动化(RPA)和物联网(IoT)等认知技术进行了基本描述,并对其在不同方面的应用以及支持功能实现的促成因素进行分析。此外,《白皮书》提供了认知技术如何促进文件(档案)管理功能自动化的观点。
认知技术正在推动数据生成和收集呈现出指数级增长态势。同样重要的是,要认识到学习方法使算法能够做出类似于人的决策或严重依赖于数据的输出。人工智能研究人员和开发人员应实施一个框架,防止无意中引入可能导致预测信息不准确或产生不利影响的人为偏见与文化假设。联邦决策者在运用认知技术生成数据的过程中,应了解数据的生成方式,以便掌握和记录政策决策状况。
文件(档案)管理分析部分的目标是说明认知技术可以在文件(档案)管理框架内进行管理。这些技术可能会影响现行政策与机构标准(如确保电子信息系统文件管理控制的要求),并确保其能充分保障文件(档案)的真实性和完整性。到目前为止,文件管理相关的法规或政策并未发生变化,但《白皮书》强调了对认知技术生成的数据和文件实施或调整政策与标准的前瞻性需要。
九、术语汇编
由于推文篇幅所限,参考文献与相关资源从略,详见《白皮书》原文。
扫描二维码,获取《白皮书》英文原文
来源:2022.01.10 档案那些事儿微信公众号