今天看啥  ›  专栏  ›  Mr_Matrix

公文写作工具基本技术框架

Mr_Matrix  · 简书  ·  · 2019-01-15 23:41

每个写作好手都知道,写文章必须要有庞大的素材收集作支撑,仅凭自己未完全开发的大脑(毕竟一般人只能使用10%嘛)是很难写出令人称道的好文。但传统的素材收集方法,耗时长、检索难,写文章成了一个艰难的“爬格子”过程,致使大部分人无法达到应用自如的境界。虽然有道云笔记等素材收集工具的出现,解决了上述的部分问题,但辛苦收集起来的素材仍存在难以使用的问题。

随着自然语言技术(NLP)的出现和发展,以及机器学习技术的加持,自动写作工具已经出现并得到了广泛运用。但写作作为个人自我修行的一种方式,完全让程序代替,实则是剥夺人自我修行的权利。在此,我不想去开发自动撰写文章的软件(使用google的TensorFlow应该就能实现),只想最大限度地发挥NLP技术功能,辅助我们写出好文章,帮助我们缩短“爬格子”的艰难过程。下面是我对该软件技术框架的初步构想(很多功能已经完成,只待整合),由于本人经验和技术欠缺,不足之处,还请各路大神及时指出,以便及时纠正,提升软件整体功能效益,以精准地服务需要人群。

一、构建专题语料库

什么是语料库?语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记,即一个大型结构化文本的集合。语料库是后续构建语料处理、信息抽取、文本挖掘等基本功能的基础。一方面,语料库是后续功能的支撑,为公文写作辅助功能提供先验知识,另一方面,后续的功能也向语料库提出了需求,对语料库的搭建、扩充起到技术指引作用。 主要解决三个问题,一个是语料库的收集问题;二是语料库的融合标准化问题;三是语料库的动态更新问题。

1.语料库的收集问题。方向主要有两个,一是通过爬虫进行web资源挖掘,二是相关专业文档的转录。web资源挖掘,采用爬虫脚本,加工处理形成语料库,包括词汇知识库,领域语料(人民日报、解放军报等)等语言资源;相关专业文档转录,包括平时收集的专业公文资料。

MongoDB

图为MongoDB数据库

2.语料库的融合标准化问题。通过不同方式收集起来的语料资源,往往会存在一个格式不对称的问题。为了解决这个问题,我们通常需要制定一个标准化的语言资源格式,把规范和标准搭好,再去统一标准化。

3.语料库的动态更新问题。知识和信息的价值,在很大程度上都在于它的一种实时性。我们写文章,也需要结合最新的时政信息选择用词用句。语料库必须与时俱进,才能够最大限度地发挥自身的价值。而从实践的角度上来说,语料库的动态更新,可以靠人工去维持,去动态及时更新,也可以建立一种动态监测和更新机制,让软件自行更新。

二、语料处理

语料处理考虑实现分词、公文纠错等功能。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词采用jieba中文分词工具,对语料库进行分词处理。同时也可以对我们完成的文章进行分词处理,以便完成后续的文章分析、检索、关键字提取等功能。

查询纠错,采用基于拼音相似度与编辑距离的纠错,对我们完成的文章进行错别字检索,主要过程:对于常见错误,例如常见的拼写错误,使用事先挖掘好的错误字典,当文章中出现的文字在此字典中时纠错。对于不常见的错误,可将分词后的词字在语料库中查询,若查询无结果或结果较少于一定阈值时,尝试纠错,可以根据不同领域的策略和容忍度,配置最少结果数阈值。

三、信息抽取

信息抽取考虑实现搭配抽取、事件三元组提取等功能。

搭配抽取:互信息体现了两个变量之间的相互依赖程度。二元互信息是指两个事件相关性的量,互信息值越高, 表明X和Y相关性越高, 则X和Y 组成短语的可能性越大; 反之, 互信息值越低,X 和Y之间相关性越低, 则X 和Y之间存在短语边界的可能性越大。 通过互信息特征可以进行公文输入时的词句联想。

事件三元组提取:基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。基于Text rank算法的文本摘要抽取与关键词抽取和基于TFIDF算法的关键词抽取,不能很好的展现文章内容,三元组表示法可以较为清晰的表示文档内容,且可用于文章逻辑关系分析。例如

content = “李克强总理今天来我家了,我感到非常荣幸”
三元组表示:[
['李克强总理', '来', '我家'],
['我', '感到', '荣幸']
]

四、文本挖掘

文本挖掘可实现文本结构化图谱表示、文本话题聚类等功能。

文本结构化图谱表示:输入一篇文章,将文章进行关键信息提取和结构化处理,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。

中兴事件的图谱化展示图:

知识图谱

文本话题聚类:基于Kmeans与Lda模型的多文档主题聚类,输入多篇文章,输出每个主题的关键词与相应文本,可用于主题搜索、热点分析等应用。




原文地址:访问原文地址
快照地址: 访问文章快照