无论是石刻拓片、民国期刊,还是版刻古籍,只需要5分钟就可以对数百页的文献图像进行批量的OCR(文字识别),并可以在线开启校对工作。11月初,中华书局古联公司发布了“古联OCR系统”,这是智能技术运用在古籍整理方面的一项重要成果。
“识别率很高,基本没有错误。”OCR系统刚一发布,就有用户进行了试用体验。事实上,从纸面文字到数字化数据,看似简单的一步,却是古籍整理研究的重要环节,需要运用多项智能技术。
“智能技术进入古籍整理领域,是古籍整理长久以来工作方法的显著创新。古籍原典从纸本到数据的关键一环,即为文本的获取,而文本获取的正确率如何、操作的简易性如何,对后续工作展开有很大影响。”中华书局古联公司总经理洪涛介绍,若识别效果太差,会给后续的校对和整理工作增加不少工作量。古联智能OCR系统基于机器学习技术和丰富的字库支持,辅以便捷的在线校对和编辑环境,可以大幅减轻人工校对工作量,协助编辑和作者更高效、更便捷地处理文本。
党的二十大报告提出,推进教育数字化,建设全民终身学习的学习型社会、学习型大国。据了解,OCR系统与古联公司推出的古籍自动标点、繁简转换工具相结合,将古籍整理研究界使用的技术工具扩大为普通用户触手可及的智能产品,为广大普通读者服务。除此之外,该系统也可配合高等学校的古典文献等传统学科转向新文科建设,让学生在学习阶段就能了解到业内前端的新兴技术和发展方向。
“戈厉机”是高尔基;“师梨”是雪莱;戛剑生、公汗、隋洛文,都是鲁迅的笔名……在阅读汉译文学早期文献时,人们常常会有“猜人名”的困惑。这是因为早期外国作家及其作品的汉译名称极不统一,而译介者又多使用笔名且变化无常,长期以来,此领域一直缺乏相关的基础性、系统性的整理工作。11月12日,《现代汉译文学编年考录数据库》应运而生。这是党的二十大以来,古联公司推出的又一重要数据库产品。据了解,该数据库由中国人民大学李今教授主持,北京大学夏晓虹教授、方锡德教授,中国人民大学孙郁教授,清华大学解志熙教授等审定,多位青年学者著录,中华书局古联公司开发建设,致力于为学界提供现代汉译文学研究的便利工具,建立起该专题的史料库、知识库及目录索引库。
洪涛介绍,数据库集纳了226种近现代期刊,其汉译的外国文学涉及51个国家、1580位外国作家和2130位译介者,总条目数近9000个,而且,还有大量重要期刊的内容尚在考录中,不久将增补上线。项目组以前所未有的规模为1896-1949年间期刊上的汉译文学及其相关现象做了编目、整理和考释,并为译介者做了生平简介及其笔名录。数据库集专题文献数据库、知识库、目录索引库为一体,是综合性的新型研究工具,适用于中国近现代文学、比较文学与世界文学、外国语言文学等学科,以及相关历史与文化等人文领域的教学与研究。
辨章学术、考镜源流。记者看到,数据库中对相关条目信息进行了详细考录。如1903年《浙江潮》上发表的小说《哀尘》,是法国“嚣俄著,庚辰译”,页面中用数百字进行了考录:嚣俄,今译雨果,译者庚辰是鲁迅的笔名。据了解,数据库成功实现了外国作家之不同汉译名与今译名、译介者之署名与常用名之间的“同实异称”关联。如检索“鲁迅”,凡鲁迅曾使用过的索子、风声、张禄如等其他笔名的相关文献均可同时呈现,解决了过往检索中“同实异称”无法检索的问题,从而盘活了期刊汉译文学史料。
党的二十大提出要“实施国家文化数字化战略”,洪涛说,这为古联公司的发展提供了动力也指明了方向。古联公司作为中华书局的数字化企业,要用好技术手段,从文献中提取中华优秀传统文化的要素,做好转化与传播,增强文化自信,让文化产品更具有时代性与生命力。
来源: 光明日报
声明:公众号所转载文章都均标明来源,文章内容不代表本公众号观点,如发现转载文章有涉及侵权 问题 行为,请即刻与我们取得联系并告知相应文章链接及图片,我们会及时进行核实修改或删除
特别声明
本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。