沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

数字化为古籍研究带来怎样的“蝶变”

2022-04-13来源:光明日报编辑:

数字化为古籍研究带来怎样的“蝶变”

数字与古籍,以前像两条泾渭分明的河流。

当它们相遇后,能产生怎样的效能和反应?

循着新近出台的《关于推进新时代古籍工作的意见》所提出的“推进古籍数字化”“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践”等要求,记者采访了国内从事古籍智能化研究的学者,探一探数字化能给古籍保护与研究带来怎样的“蝶变”。

沉寂的典籍,动起来了

一幅横向流动的《千里江山图》上,标注了“涑水”“濂溪”“玉山”等若干个古地名。数百个衣袂飘飘的儒生,正在图上缓缓挪动,像是在“赶路”。他们从一个地方挪到另一个地方的行程,代表着他们的求学历程和所属学派。

这是北京大学人工智能专业学生马源和她的同学们向首届“北京大学数字人文作品展”所提交的展品——用Javascript完成的H5习作,取名为“宋元学案传承可视化系统”。

“像《宋元学案》这样的大部头古籍,离我们的时代太遥远了。如果不是做专业研究的学者,可能根本想不起来要翻阅它。我们想通过这种像游戏界面一样的形态,吸引年轻人了解古籍。”马源说。

展览现场,同样能带来“跃动”感的,是北京大学中国古代史研究中心副主任史睿指导桑宇辰等同学制作的“朱子年谱可视化系统”,它利用GIS(地理信息系统)技术,对《朱熹年谱长编》进行了时空的可视化呈现,读者能自主点击、了解朱熹求学、游历、交友的生平。

数字技术甚至赋予古籍研究人文学科的能力,远不止让它们像游戏一样动起来。

“数字人文代表着智能信息环境下,人文社会科学研究范式的转型,从传统的文本驱动向数据驱动转型。人文研究的材料,如文献、图录、器物等,都可转化成某种形态的数据,从而使得大数据和人工智能技术也能处理它们。视觉化只是数字人文带来的附带效应,让人易于理解学术成果。而其深层逻辑,是研究范式的变化。”北京大学数字人文研究中心主任王军教授告诉记者。

展览现场有他指导的博士生王林旭对《宋元学案》《明儒学案》《清儒学案》所做的数据挖掘成果展示——

“学术关系网络图”,用正则表达式对《宋元学案》和《清儒学案》进行人物关系统计,共有“弟子”“家学”“私淑”“同调”“学侣”“讲友”“交游”“从游”“其他”9种类型,出现频次一目了然。

“通过知识图谱的重构,古籍不再是一座座文字的大山,古文里的内在结构和语义关系能在短时间内被清晰的抽绎和展示出来。”王军说。

除了中国古籍能“数”读,国外的古籍能“数”读吗?

答案是肯定的。

在北京大学外国语学院西葡意语系教师成沫对意大利诗人但丁进行的数字化研究项目中,《神曲》中重复频率最高的三行诗韵律结构valle(山谷)、spalle(肩膀)、calle(小道)被精准地提炼了出来。

不仅是“读取”,还要能“演绎”

过去的典籍研究,主要靠大师。

大师在大量阅读文献的基础上,靠一己的记忆与思辨能力,产出具有思想性的研究成果,再诉诸笔端,以文字的形态传递给大众。

机器智能辅助下的典籍研究,则是以数据为基础的。在机器智能的介入下,学者能获得瞬间处理海量资料的能力,王军分析。

清华大学中文系教授刘石和首都师范大学中国诗歌研究中心专职研究员尹小林发表的一篇文章,对先秦到清代的百部经典古籍做了大数据分析,发现颇丰。如果依赖于人工统计,这样的成果是难以在短时期内产生的。数字带给经典典籍研究的变化之一,是效率的提升。

“在诗歌研究领域,前辈学者主要通过例证,来进行分析和总结中国古典诗词的声律。后来出现了手工标注统计和基于大量诗词的定量分析统计。然而这些研究结论都来源于人工统计,单项研究的耗时长。”北京大学中文系教授杜晓勤回顾道。

有没有一个软件,能“一键”就准确标注所有中国古典诗词的声律格式和合律程度呢?

从2004年起,杜晓勤等开始建设中国古代音韵数据库和中国古代诗歌文本数据库,共录入1万多个汉字的音韵和900多万字的诗歌。在此基础上,他们研发了“中国古典诗歌声律分析系统”。这个系统,能快速、大批量标记与统计分析中国古典诗歌的声律。

利用这个系统,杜晓勤撰写了《齐梁诗歌向盛唐诗歌的嬗变》《六朝声律与唐诗体格》等多部专著,刊发了多篇论文。

在古籍数字化领域耕耘多年,王军想做的不仅仅是对古籍进行单向度的知识抽取和信息集成。

他指导唐雪梅、严承希等博士生研发的古籍自动整理系统,通过对算法的深度学习和大规模语料训练,能对古籍的句读和人名、地名、职官、书名、时间五类实体进行自动标记。其中句读平均准确率达94%,命名实体识别在史料上的准确率达98%。

“智能技术支持下的古典文献研究,是未来古籍研究的重要方向之一。”王军说。

人文学科新气象的“薪火”,从这里诞生

“昨夜星辰昨夜风,千秋灵会此宵同。一枝月桂和烟秀,人在琼楼玉宇中。”在一次公开演讲中,清华大学计算机科学与技术系教授孙茂松向听众展示了一首诗。

“你们能看出,这是一首从4篇古诗里摘录句子组成的集句诗吗?关键是,能看出这是机器人创作的吗?”孙茂松问。

通过算法和深度学习,人工智能已经能媲美人类进行摄影、画画、作曲、写诗。

创造性,这一人类所独有的领域,正逐步被机器介入,由此也产生了一些伦理问题——例如,机器通过习得而非人类在感情充沛时产生的创造物,能被称为“艺术”吗?

同样的问题,也易产生在人工智能赋能后的人文学术研究领域。

机器介入各类古籍研究后产生的结果,如各类统计数据、可视化“图谱”或者“页面”,能被认定为具有思想性的人文研究成果吗?如果能,怎样量化它们的学术价值?

“这些应该也算作成果的一种形式。在各个学界,对数据集的重视都在日益增强,以古籍研究为基础的史学、文学等人文学科不应轻视,而且要更加重视。而可视化本身,一方面可以帮助学者获得更多洞见,另一方面也能更好地向大众进行传播。有一些方式,是传统手段难以达到的,是人文学科新气象的‘薪火’,需要保护好。”北京大学智能学院教授袁晓如这样回答记者的疑问。

“无论是可视化成果本身,还是成果产生的传播效应,都是可以计量的。当然,虽然数据驱动将智能技术引入了人文学科,但是数据的使用和意义的阐释,还是需要人文学者的介入和指导。”王军说。

新近出台的《关于推进新时代古籍工作的意见》要求,“加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”“支持古籍数字化重点单位做强做优,加强古籍数字化资源管理和开放共享”。

这背后,有着怎样的原因?

“因为古籍智能化及以其为基础的人文学术研究需要大量的资金投入。计算工具平台、数据资源、技术服务团队等,都需要投入。然而,每个研究机构的资金实力是不一致的。传统依靠一两位学者皓首穷经就能产生大量成果的研究方法,在数字化时代可能不适用了。为了弥补资金投入差别造成的学术鸿沟,就有必要加强共享。”王军谈道。

“北京大学可以肩负起建设国家基础设施的任务,同时也将这些设施对外分享,帮助偏远地区或者学术资源不足的地方开展研究。”袁晓如说。

古籍数字化保护与利用的新乐章,已经奏响了。

企业禁用无线网卡攻略:三种方法详解,第二种助企业高效管控风险
对于中大型企业或对数据安全要求高的单位,域智盾终端安全管理系统提供了更智能、更彻底、更可追溯的无线网卡管控方案。在Windows专业版或企业环境中,IT人员可以用系统自带的组策略(Group Policy…

2025-11-15

蓝牙耳机被他人连接别慌!三招轻松夺回“控制权”
当发现耳机被别人连接时,最直接的解决方法是重置连接。操作很简单:先打开你的手机蓝牙设置,找到已配对的耳机名称,选择“忽略此设备”或“取消配对”。最后,在手机蓝牙列表中找到你的耳机并重新点击连接即可。这个操作…

2025-11-15

6寸LCD显示屏:小身材大能量,技术优势与多元应用前景深度剖析
采用IPS等先进技术的6寸LCD屏,能够实现更广色域覆盖,色彩显示真实自然,更适用于图像监控、医疗设备显示、智能终端等对色彩还原要求较高的场合。 随着技术的不断发展,6寸LCD显示屏将在未来呈现更高清、更智…

2025-11-14

中国6G技术首阶段试验圆满收官,通信领域创新再启新程
在全球竞相布局6G的背景下,中国率先完成第一阶段技术试验,展现了其在通信领域的强大实力。此次试验涵盖了6G关键核心技术,测试了多种潜在技术和系统性能。业界普遍认为,6G网络将实现地面与卫星通信的融合,构建空…

2025-11-14

水浸传感器RS-SJ:4G蓝牙双助力,高效守护防积水安全
当检测到水浸情况时,相关信息会通过4G网络快速传输至指定的管理平台或用户终端,无需人工现场查看,让用户在第一时间知晓积水隐患,为及时采取排水、设备转移等应对措施争取时间,避免积水造成更大损失。 水浸传感器凭借…

2025-11-14

工业通信新选择:环网交换机如何以冗余设计保障现场数据稳定传输
每个交换机上有两个用于组环的端口(网口),交换机之间通过手拉手形式构成了环形的网络拓扑。我们设计的千兆工业交换机整体设计采用“凹陷”网口设计,外观上和普通交换机大有差别,将网线水晶头能够有力的支撑保护住。 …

2025-11-14

中关村房山园科技对接会:昆虫机器人等“硬核”成果亮相,助力新质生产力
11月12日,中关村“火花”活动之北京理工大学专场对接会暨中关村房山园新质生产力发布厅科技成果转化对接活动在中关村新兴产业前沿技术研究院举行,极限搜救昆虫机器人、通信感知超宽带收发芯片等一批来自北京理工大学、…

2025-11-14

避开苹果锋芒,聚焦外卖小哥:打造专属他们的超实用蓝牙耳机
试着聚焦一个特定人群,比如外卖小哥。电量要非常足,最好能用一整天。麦克风要特别好,因为外卖小哥大部分时间都在路上,环境嘈杂,麦克风不好的话,对方根本听不清。如果能将耳机固定在头盔上,那就更好了,不怕掉。如果…

2025-11-13

2025微信数据保护全攻略:误删聊天记录别急,多场景恢复方案来了
提前备份是数据安全的核心,2025年微信已支持电脑、云服务、外部存储等多种备份方式,恢复时只需简单操作即可找回记录。苹果和安卓厂商的云服务早已支持微信数据备份,关键是确认误删前有有效备份记录。 2. 选择…

2025-11-13

浪潮KaiwuDB V3.0发布:多模融合AI赋能,引领物联网数智化新篇章
KaiwuDB V3.0关系引擎新增大型对象支持,无论是传感器产生的二进制数据还是文本信息,都能实现高效管理;同时,支持高效跨模连接算子与时序算子并行处理,相较于2.2版本跨模查询性能提升5-10倍,打破了…

2025-11-13