今天看啥  ›  专栏  ›  网易新闻

感谢未出现的女朋友,让我安心毕业

网易新闻  · 公众号  · 社会  · 2019-05-31 18:40
▣ 公号:网易数独(ID:datablog163)“聚散匆匆,此恨年年有。”又到了一年一度的毕业季,通过了毕业答辩终级试练的大学生,终于走出了象牙塔,直面惨淡的人生。致谢,作为毕业论文中自由度最高的原创环节,有些人写的依然套路十足,也有人终于真情流露,在高深繁复的学术考究后说了几句人话。 为分析致谢的套路,我们用爬虫从万方数据知识服务平台爬取了共37307篇 pdf 格式的毕业论文,首先利用 PyPDF2 包读取论文目录,从论文目录中获取“致谢”、“后记”或“ Acknowledgement ”部分的页数,并提取该页形成临时文件,再利用 qpdf 程序对文件解密,使用 pdfminer 库读取该页的文本内容,从而提取出毕业论文中的致谢部分。最终数读菌获得中文致谢13219篇,英文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照