公文写作工具基本技术框架

Mr_Matrix · 简书 · · 2019-01-15 23:41

每个写作好手都知道，写文章必须要有庞大的素材收集作支撑，仅凭自己未完全开发的大脑（毕竟一般人只能使用10%嘛）是很难写出令人称道的好文。但传统的素材收集方法，耗时长、检索难，写文章成了一个艰难的“爬格子”过程，致使大部分人无法达到应用自如的境界。虽然有道云笔记等素材收集工具的出现，解决了上述的部分问题，但辛苦收集起来的素材仍存在难以使用的问题。

随着自然语言技术（NLP）的出现和发展，以及机器学习技术的加持，自动写作工具已经出现并得到了广泛运用。但写作作为个人自我修行的一种方式，完全让程序代替，实则是剥夺人自我修行的权利。在此，我不想去开发自动撰写文章的软件（使用google的TensorFlow应该就能实现），只想最大限度地发挥NLP技术功能，辅助我们写出好文章，帮助我们缩短“爬格子”的艰难过程。下面是我对该软件技术框架的初步构想（很多功能已经完成，只待整合），由于本人经验和技术欠缺，不足之处，还请各路大神及时指出，以便及时纠正，提升软件整体功能效益，以精准地服务需要人群。

一、构建专题语料库

什么是语料库？语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记，即一个大型结构化文本的集合。语料库是后续构建语料处理、信息抽取、文本挖掘等基本功能的基础。一方面，语料库是后续功能的支撑，为公文写作辅助功能提供先验知识，另一方面，后续的功能也向语料库提出了需求，对语料库的搭建、扩充起到技术指引作用。主要解决三个问题，一个是语料库的收集问题；二是语料库的融合标准化问题；三是语料库的动态更新问题。

1.语料库的收集问题。方向主要有两个，一是通过爬虫进行web资源挖掘，二是相关专业文档的转录。web资源挖掘,采用爬虫脚本,加工处理形成语料库，包括词汇知识库,领域语料（人民日报、解放军报等）等语言资源；相关专业文档转录，包括平时收集的专业公文资料。

MongoDB

图为MongoDB数据库

2.语料库的融合标准化问题。通过不同方式收集起来的语料资源，往往会存在一个格式不对称的问题。为了解决这个问题，我们通常需要制定一个标准化的语言资源格式，把规范和标准搭好，再去统一标准化。

3.语料库的动态更新问题。知识和信息的价值，在很大程度上都在于它的一种实时性。我们写文章，也需要结合最新的时政信息选择用词用句。语料库必须与时俱进，才能够最大限度地发挥自身的价值。而从实践的角度上来说，语料库的动态更新，可以靠人工去维持，去动态及时更新，也可以建立一种动态监测和更新机制，让软件自行更新。

二、语料处理

语料处理考虑实现分词、公文纠错等功能。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词采用jieba中文分词工具，对语料库进行分词处理。同时也可以对我们完成的文章进行分词处理，以便完成后续的文章分析、检索、关键字提取等功能。

查询纠错，采用基于拼音相似度与编辑距离的纠错，对我们完成的文章进行错别字检索，主要过程:对于常见错误，例如常见的拼写错误，使用事先挖掘好的错误字典，当文章中出现的文字在此字典中时纠错。对于不常见的错误，可将分词后的词字在语料库中查询，若查询无结果或结果较少于一定阈值时，尝试纠错，可以根据不同领域的策略和容忍度，配置最少结果数阈值。

三、信息抽取

信息抽取考虑实现搭配抽取、事件三元组提取等功能。

搭配抽取：互信息体现了两个变量之间的相互依赖程度。二元互信息是指两个事件相关性的量，互信息值越高, 表明X和Y相关性越高, 则X和Y 组成短语的可能性越大; 反之, 互信息值越低,X 和Y之间相关性越低, 则X 和Y之间存在短语边界的可能性越大。通过互信息特征可以进行公文输入时的词句联想。

事件三元组提取：基于依存句法与语义角色标注的事件三元组抽取，可用于文本理解如文档主题链，事件线等应用。基于Text rank算法的文本摘要抽取与关键词抽取和基于TFIDF算法的关键词抽取，不能很好的展现文章内容，三元组表示法可以较为清晰的表示文档内容，且可用于文章逻辑关系分析。例如

content = “李克强总理今天来我家了,我感到非常荣幸”
三元组表示：[
['李克强总理', '来', '我家'],
['我', '感到', '荣幸']
]

四、文本挖掘

文本挖掘可实现文本结构化图谱表示、文本话题聚类等功能。

文本结构化图谱表示：输入一篇文章，将文章进行关键信息提取和结构化处理，并最终组织成图谱组织形式，形成对文章语义信息的图谱化展示。

中兴事件的图谱化展示图：

知识图谱

文本话题聚类：基于Kmeans与Lda模型的多文档主题聚类,输入多篇文章,输出每个主题的关键词与相应文本,可用于主题搜索、热点分析等应用。

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博