看啥推荐读物
专栏名称: Linux中国
十万级技术订阅号,依托于『Linux中国』(https://linux.cn/)社区,专注于 Linux 学习、技术研究、开源思想传播。
今天看啥  ›  专栏  ›  Linux中国

2018 中国开源年度报告:数据篇

Linux中国  · 公众号  · linux  · 2018-10-22 08:48
以数据事实来呈现-- 开源社有用的原文链接请访问文末的“原文链接”获得可点击的文内链接、全尺寸原图和相关文章。致谢转载自 | http://www.kaiyuanshe.cn/file-download-941-left.html  作者 | 开源社第二篇 数据篇2.1 指南针篇指南针团队使用网络爬虫与 GitHub 数据 API 获取开源代码库的数据如原代码、项目信息、项目的静态信息如项目名称、起始日期等、与动态信息如fork数、客户给与的星数等众多项目相关的信息储存在本地数据结构中。第一阶段是处理原始数据与结构化的单元,生成如排序、标签等总和数据,如此可以透过如排名、统计等信息的提供。使用机器学习、自然语言处理、数据分析等技术,综合所有数据提供如分类、搜索、推荐、评比等应用服务。另外运用图 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照