看啥推荐读物

专栏名称: 名可谷

生而不有，为而不恃。

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

c# 抓取网页源码后显示乱码的原因分析和解决方法

名可谷 · 简书 · · 2020-04-01 12:26

关键词：C#、DownloadData、网页乱码、gzip

原因分析：

首先，目前大多数网站为了提升网页浏览传输速率都会对网站内容在传输前进行压缩，最常用的是GZIP压缩解压解压算法，也是支持最广的一种。

因为网站传输时采用的是GZIP压缩传输，如果我们接受webrespones接受数据未按照GZIP进行解压显示，那么就会造成乱码，如何知道网站是否是GZIP或者其他压缩方式传输的呢？

我这里用360浏览器做例子，如下图

360浏览器

解码gzip压缩格式网页的方法

private static string getGzip(string u)

{

StringBuilder sb = new StringBuilder(204800);//200K对于频繁拼接的字符串，用stringbuilder比string节约内存和提升性能

WebClient wc = new WebClient();//定义一个发送和接收web数据的公用方法类。

wc.Headers[HttpRequestHeader.AcceptEncoding]="gzip,deflate";//接收gzip类型的数据

wc.Headers[HttpRequestHeader.AcceptLanguage]="zh-CN,zh";//指定请求头的语言类型为中文，

byte[] buffer= wc.DownloadData(u);//将 wc对象的downloaddata()方法下载到的资源存入本地buffer中

GZipStream g=new GZipStream((Stream)(new MemoryStream(buffer)),CompressionMode.Decompress);//定义一个压缩或者解压流的对象，设置为解压

byte[] tmpbuffer=new byte[20480];//定一个20K的临时字节数组

int len=g.Read(tmpbuffer,0,20480); //

while(len>0)

{

sb.Append(Encoding.Default.GetString(tmpbuffer,0,len)); //转换成相应的格式，比如使用的是GBK我们默认就是default,如果是UTF-8就写成UTF-8。这个可以通过右键查看源码找到编码格式。

len=g.Read(tmpbuffer,0,20480);

}

g.Close();

return sb.ToString();

}

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

前端早读课 · 【第3249期】鲁班-58房产低代码平台设计与实践

昨天

前端早读课 · 【第3247期】Chrome 123新特性：align-content

3 天前

前端大全 · 中国第一篇《Nature》论文

4 天前

伊犁我的家 · 最新通知！伊犁人注意！上班时间有变！伊宁交警发布“五一”出行安全提示！附易拥堵和隐患路段

3 天前

伊犁我的家 · @伊犁人！高度警惕！

4 天前

华商带路境外上市 · 为什么越来越多的中国企业选择去纳斯达克上市

1 月前

筑龙电气 · 全面！图文详解10kV配电变压器基础知识

2 年前

高中语文 · 暑假摘抄|100句美文、139则名言、150个哲理成语、9篇课本素材运用（可打印）

3 年前

都市快报 · 有必要进行全国全员新冠病毒检测吗？刚刚，国务院联防联控机制专家说：我们更主张“打地鼠式”防控

3 年前

北京旅游 · 冬季在北京吃什么？实惠又有特色的都在这了！建议收藏，挨个吃！

6 年前