大数据让智慧图书馆服务更精准、更人性化

发布日期：2019-10-28 作者：点击：

图书馆服务要以数据作支撑

　　数据改变了我原来对于阅读的认识，也坚定了我对智慧图书馆建设的信念。通过三年时间致力于数据的研究，我们基本上完成的作为智慧图书馆最基础的设施，就是大数据中心。今后我们会把数据带入整个图书馆服务体系当中，不管提供什么样的服务，都不能盲人摸象，要用数据做支撑。看一组比较数据，2017年年底我馆率先引进京东阅读平台，平台拥有23.24万册图书，经过一年多的运行产生了42.89万册次的阅读量;而图书馆面向读者服务的纸书的马克数据总共有132.35万册，一年只产生了47.35万册次的阅读量。京东阅读一年十几万的经费产生的阅读量，几乎能赶上接近一千万的纸书经费产生的阅读量。数字在我们面前呈现出了非常直观且令人震惊的对比。

　　数字阅读可以获得更多更细的内容，很好奇42.89万册次的阅读量是一种怎样的状态，因而我们对此进行了研究。在研究之前，我们制定了隐私政策，这在国外和学界都是非常重视的，要做研究一定要获得读者的认可。由读者授权，我们才能够获得精细的阅读行为数据。

　　在数字阅读里借阅率最高的书，它的纸本借阅率如何?研究发现，借阅率排名第一的书图书馆竟然没有买纸本书，因为是单词类的书，采购老师认为这类书属于教材类，图书馆内实在是太多了，因而没有买。数字阅读里借阅率排在前面的书，纸书基本上没有排在前面，借阅率最靠前的纸书也已经排在了600名，下载次数仅为71。这是一个很奇怪的现象，没有找到科学的原理去解释这种行为。

　　原来纸本时代，我们只能知道读者借了多少本书，现在因为有APP实时连接，可以由此延伸出数据。2018年读者日均阅读时间约9600个小时，人均阅读时间约165分钟。有读者在凌晨两点到四点通宵看书，这是值得关注的现象。

　　因为有了阅读时长和阅读进度，因此我们把阅读进度进行了划分，把20%以下的叫做未进行阅读，把80%以上的叫做完成了一本书的阅读。一本书借出去以后的阅读进度如何?统计数据发现的确有48.35%的书被下载、被借阅了，但阅读进度低于20%，只是被随便翻阅了一下。我自己也下载了20多本书，有一半基本上看了一点，完整看完的只有一本书。这种状况基本符合对于读者借阅行为的判断，只是现在可以用精准的数据来说明它。其实单纯提外借率没有任何意义，我更关心哪一类的书更适合阅读，这样的数据对图书馆人来说才更具有价值。

　　我们经常讲碎片阅读，我个人是鼓励碎片阅读的。因为不管你是用连续的时间看完一本书，还是用碎片的时间看完一本书，只要是看书就是值得图书馆鼓励的，不能说碎片阅读就是浅阅读，它们之间没有这样的关联。

着力做好图书馆的数据

　　我们要做智慧图书馆，要提供更精准的，个性化的、人性化的服务，数据是最核心的东西。国家社科基金智慧图书馆的项目已经结题，根据研究结果我只得到了两个基本认识：没有大数据就不会有智慧图书馆，没有人工智能就不会有智慧图书馆。从上世纪90年代开始就有中国数字图书馆工程，直到现在仍然在建设数字图书馆，因而智慧图书馆的建设也不是一蹴而就的，这是一个漫长的过程。我们需要注意的是，智慧图书馆建设中最核心的要素一定是数据。我们用了大约三年的时间来梳理图书馆的数据，未来也一定将人工智能甚至更好的方法引入图书馆，实现由数字图书馆到数据图书馆，再从数据图书馆到智慧图书馆。

　　新一代的系统其实就是让我们的关注点从原来关注业务流程变成关注数据服务，一定是要有数据，再基于数据建设各种各样的服务体系。它是由数据驱动的一套信息化的顶层设计和一个架构，甚至是各种各样的让读者有很强的感知力的图书馆系统。因此，我们要在两方面着力做好图书馆的数据：

　　第一是做好文献的大数据。按照图书馆的方法去做文献的大数据，因为图书馆原来在纸书时代就有完整的流程和方法，而对数字资源进行管理，仍然需要这样的一套方法进行质量控制，构建一整套的方法论，包括和各个数据库商签订收割协议，在高校外文数据库的采购里成立元数据工作组。我们现在的思路是，第一由DRA把关于元数据收割和元数据标准的内容写入协议当中，由几个大馆统一按照标准把元数据进行整理，放在一个中央平台上，现在这个工作在进行当中。

　　第二对每一个数据库进行编码。以前做馆藏号时对每个数字资源进行馆藏号的分配，有元数据DC的标准体系，整套的体系仿造纸书时代而构建，处理的对象是图书馆购买的资源，而不是发现系统。我们的目的是让这些元数据成为图书馆管理和服务的基础、数据的基础，而且一定要是文献的数据的基础。经过三年的努力，有约2.06亿文献的元数据，成为图书馆自有文献大数据。

　　此外，还有图书馆的运行大数据、阅读下载大数据等，这样的数据体系已经构建了运行管理系统的平台——数据中心。近期这个系统才正式启用。我的设想是把文献大数据和运行大数据相结合，那就一定会产生大量有意思、有价值的，对推进服务起到真正作用的服务体系。

做好创新服务的五大着力点

　　我觉得在今后创新服务的过程中，有五点需要着力做的：

　　第一，资源组织。资源组织是图书馆的核心课程。数字时代，有了数据就可以做数据展示、数据组织、数据服务等，前提是图书馆一定要有书目的数据，有2亿条图书馆自有的、编码的数字资源，并通过多种方式推送我们的资源。门户网站上可以通过学校的科研体系、课程、学生专业等，把每一条数据按照教育部的分类法进行标引，以此构建的服务体系是非常到位并广受欢迎的。

　　第二，阅读推广。我之所以要说图书馆阅读推广2.0，是因为对大学图书馆的阅读推广工作十分不满意。大学图书馆和公共图书馆是两个概念，服务的对象和服务的本质也是不一样的，公共图书馆支撑的是全民的阅读公平性，大学图书馆支撑的是学术研究。如果大学图书馆的阅读推广要向公共图书馆学习和效仿，这是有问题的，我们要做得更学术一些，一定要在数据分析的基础上确定阅读推广的重点就是支撑学习和研究。

　　第三，数字特藏。最近有一条新闻很让我感触，国家图书馆和新浪合作，做新浪微博的长期保存，这是一件值得高度赞扬的事情。鼓励大家把邮件、聊天记录都上传到图书馆，作为校园文库、科学数据、个人文档长期保存，这是未来智慧图书馆建设的范畴。这类数据属于馆藏数据，也是值得我们注意的。

　　第四，精准推送。现在的运行数据可以通过行为来构建用户的精准画像，有了精准画像之后就可以构建主动推送的系统和相关模型，也会把资源组织的内容汇聚在一起。

　　第五，情报分析。图书馆一定要拥有文献的元数据，其价值不仅仅在于整个门户系统的管理和服务，还在于对未来学术的研究热点、趋势、知识图谱、期刊等的情报分析。图书馆一定要利用科学研究的成果，在分析的基础上成为科学研究的望远镜和显微镜。每一个情报服务都要有流程、规范，也要有系统支撑，更要有数据进行梳理。

　　总之，我们正在对情报分析工作进行完整的流程的梳理和策划，让它变得更规范，使它成为系统主要的服务内容，而它一定是面向用户的。不管是线上、线下的情报分析服务体系，都依赖于我们的文献大数据和运行大数据相结合。其实它就是解决一个问题，支撑人类知识的探索，支持科学研究，这才是作为图书馆学、情报学终极方向的问题。