第06版:理论周刊·教育科学
2024年06月20日 星期四
数据素养助力揭示数字人文深层规律
单向群

    数据素养是伴随着近年来迅猛发展的数据技术和人工智能技术而产生的提法,是此前的信息素养、数字素养的升级版,因应着信息技术、数字技术到数据技术快速迭代、优化发展的进程。数字人文是人文学科与数据技术交叉产生数字人文资源,形成新人文知识组织模式、方法论和认识论范式的交叉领域。加快我国数字人文发展,就必须重视数据素养教育——理解、掌握和应用数字技术及其在人文学科中的应用。数字人文发展与数据素养两者是相辅相成的。纵观我国人文学科高等教育领域数据素养教育的具体实施,与社会科学和理工科不同,数字人文不仅是“新文科”的重要组成部分,也是人文学科数据素养教育的实施路径。这反映了两个重要的事实:一是人文学科与其他学科数据素养教育实施路径上的分化和差异;二是随着过去20年人文资源向数据化技术的升级,人文学科同样面临着从传统的文献资源密集型向数据密集型转换,人文学研究从传统的文本驱动向数据驱动转变。因此,加强人文学科数据素养教育变得非常重要。

    多样化开展人文学科数据素养教育

    国内一些研究型大学开辟了多层次人文学科学生数字素养教育的实施路径。其一,开设专门课程教学,如南京大学历史学院的“数字工具与世界史研究”课程,北京大学信息管理系的“数字人文”课程,中国人民大学信息资源管理学院的“数字人文荣誉研究辅修学位”等。清华大学图书馆常年开设多门信息素养课程,包括“图书馆概论”、“文献检索与利用”、“信息素养——学术研究的必备能力”等。作为先行的实践者,它们在课程定位、培养目标、课程内容、教学和考核方式等方面的设计具有较大的参考价值。其二,以大学图书馆为主导举办针对数据素养的“学术训练营”,如复旦大学图书馆等联合举办的包括学术训练营、竞赛环节和成果孵化三个阶段的“慧源共享”上海高校开放数据创新研究大赛,上海外国语大学图书馆举办的“大数据视域下人文学科的数字人文研究”与“Python程序设计基础”等。其三,随着数字资源和数据库资源成为图书馆服务的重要部分,图书馆为大学生和研究生开设文献和数据库应用培训,图书馆主导的数字人文、大数据和人工智能相关讲座,也成为大学人文学科推进数字素养教育的“第二课堂”。数据素养教育的已有实践为数据素养教育的进一步发展提供了基本课程体系、教学教法和具体实施路径的参考。其中有两个值得关注的现象:一是图书馆已经成为提升大学生数据素养的主阵地,是计算机与数字、数据技术与数字人文的融合点;二是国内人文学科数据素养教育有待深化,分层次开设体系性课程,课程内容进一步偏重有深度的数据技术和编程实操训练。

    数据素养与发展数字人文面临瓶颈

    目前学界认为,数据素养由三个部分构成,即基础能力,包括数据认知、数据工具、数据文化、数据伦理;核心能力,包括数据发现和收集、数据质量评估、数据分析、数据可视化呈现;高级能力,包括元数据创建和使用、数据共享和重用、数据转换、数据保存。2022年教育部发布的《教师数字素养》提出,教师数字素养框架包括数字化意识、数字技术知识和技能、数字化应用、数字社会责任和专业发展五个方面,学界关于数据素养的观点与教师数字素养标准有很高的匹配度。

    数字人文从业者要不要学编程?数字人文学者的回答是肯定的。这指向了数字人文开展中数据素养面临的技术瓶颈。但已有数字人文领域的学者认为,数字人文本身必须提出自身的人文问题并作出有效回答,要突破其人文性欠佳的瓶颈。那么,什么是好的数字人文?如果说基于文本驱动的人文学科的人文性,体现在资源意识、问题意识、方法意识和意义阐释四个层面结合的范式中,那么数字人文则是在数据驱动下,在重建资源意识、问题意识、方法意识和意义阐释等方面进一步扩展,促进数据技术与人文性的深度融合。在数据架构编程脚本和数字人文研究者的搜索脚本中,一半是脚本程序,一半是文化、文学、历史概念,两者的结合构成了新的知识组织、知识生产和认识论。

    “好的数字人文”要求更高的数据素养

    “好的数字人文”具备以下几个方面的特点:其一,在资源意识方面,数据技术在数据库建设中对人文学科资源进行数据化转换,把海量的跨界、跨语种、超文本的人文资源关联在一起,资源意识突破了以文本及其阐释为核心的范围,形成了以“历史流传物+档案+语料库”所构成的数据资源。数据替换了文本,扩展和加深了“博学”概念的内涵。其二,在问题意识方面,数据技术驱动下的数字人文给人文学科开辟了新的提问方式,更适合开展“大人文”、“长时段”和预测决策等方面的问题研究,在揭示深层规律方面更具优势。如基于中国历史地理信息系统,文学地理学和历史地理学研究得到扩展,这是常规文学社会学所意想不到的方法论和领域扩展。再如,国外学者对1785—1900年海量小说语料库中的谦逊、尊重、德性抽象价值的“语义场”进行研究,发现了它们发生衰变的历程。这展示了数字人文为超越个体文本阅读的局限而提出更具想象力的问题开辟了可能性。其三,数字人文形成了基于数据驱动的研究方法,一是人文计算、知识图谱、可视化映射、数据挖掘、超文本检索、语义生成等具有推论性的实证方法论,大大扩展了语文学或考据学提供实证方法的范围。二是数据驱动的数字人文形成了国际上被普遍认可的阅读和观看方式,如“远读”和“计算机视觉”。意大利弗朗哥·莫雷蒂从历史学研究中获得灵感,提出了基于数据技术研究的“远读”法。如果说传统人文研究是“个体研究者+文本阅读+意义阐释”模式的话,那么基于数据驱动的“远读”法,就是“数据资源+语义搜索脚本+数据搜索+结果映射”模式,即人机互动的阅读。强大的搜索引擎对巨量的跨界、跨领域、跨文化数据或信息搜索和挖掘所具有的宏阔视野,超越了个体阅读的局限,并重新定义了阅读概念。这种“远读”法为世界史、世界文学研究带来了广阔的前景。“计算机视觉”或“数据技术视觉”利用光学识别技术、计算机图形学等对文化器物(历史遗迹、考古材料和艺术图像)进行数据呈现、数据测量和分析,给历史和艺术研究带来一种超越肉眼的视觉和数据技术听觉。就像望远镜和显微镜延伸了人的视觉一样,计算机视觉、音乐信息检索和地理空间计算中使用的模拟文化器物的数据呈现方法,为我们理解这些器物提供了更好的语言。数据图像在呈现艺术图像时不仅达到了比原作更清晰的程度,而且提供了超越肉眼进行数据分析和数据测量的功能。目前,已有不少研究人员利用数据技术的图像处理、计算机视觉和计算机图形学方法,针对艺术史和考古学进行了新的研究,如对艺术图像的各种特征(如笔画、灯光和构图)进行数学描述,对考古学器物进行跨文化图形学比对等,正在改变考古、图像学和艺术史研究的范式。其四,从意义阐释来说,在编写“搜索脚本”时对数据库的选择、问题设定、分析设定和数据验证等环节,研究者的主体性和意义阐释从不缺席,其中蕴含着数字人文维度展开的“阐释学循环和对话”,即把基于数据驱动的实证的再现实践与人文性阐释融合起来。数字人文应该把基于数据技术的知识组织和扩展出的认识论纳入“扩大的认识论”范围,以便揭示算法技术与人文知识结合中显露的知识本体,并提供基于认识论的人文批判,这也正是媒介技术哲学和信息哲学所展开的工作。

    从上述“好的数字人文”所展现的四个方面来看,数字人文从业者和“预备役”学生数据素养的核心能力中,应该纳入对数据技术在知识组织和方法论及其认识论层面的自觉意识、数据技术驱动下数字人文的提问方式,知识论目标的自觉、算法技术或编程的熟知与人文批判相结合的自觉。只有这样,才能真正推动数字人文的高质量发展。

    (作者系中国人民大学图书馆文科服务组组长、北京地区高校图书馆工作委员会秘书处副秘书长兼办公室主任)

分享按钮
中国教育报