字节跳动和北大推出古籍数字化平台 测试版已上线

李伊
2022-10-11 19:50

10月11日消息,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。

目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

今年3月,北京大学与字节跳动合作成立了“北京大学—字节跳动数字人文开放实验室”,致力于将人工智能技术应用于古籍资源的智能化整理。

format-jpg

“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。

自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。

据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

format-jpg

与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。

未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释。

format-jpg

1、该内容为作者独立观点,不代表观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
10月11日消息,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。
北京大学-字节跳动数字人文开放实验室将研发古籍数字化平台,搭建古籍“智能化数字图书馆”。
字节跳动与北京大学的合作之下,识典古籍官网现已上线了685部古籍,包括双方参与设计与研发的《永乐大典》高清影像数据库。
3月18日消息,近日,字节跳动北大教育基金提供捐赠,全面支持“北京大学-字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,搭建一座古籍“智能化数字图书馆”。字节跳动北大将合作搭建开放、共享、高质量的古籍数字化平台,在保护整理中华文化资源的同时,推动这些资源向大众开放。该平台可以是读者的数字化古籍阅读工具,也可以是学者、爱好者的一站式古籍数字化智能整理平台。
11月26日,字节跳动宣布,中国文物保护基金会字节跳动古籍保护专项基金定向资助修复书目已经确定,共有105册(件)古籍入选。
字节跳动公益宣布,字节跳动古籍保护专项基金资助修复的104册件古籍已全部完成修复。
8月21日消息,中国文物保护基金会、国家图书馆 、字节跳动公益正式启动第二期古籍保护与利用公益项目。字节跳动将继续提供捐赠,支持国家图书馆、陕西省图书馆等多家图书馆开展珍贵古籍修复。
三方将通过此次为期3年的合作,开展故宫古籍抢救性保护及资源转化利用。
    Baidu
    map