当前位置:
首页 > 博客 > python编码问题汇总

python编码问题汇总

python编码?no 不要跟我体这个话题。

这是很多人的抱怨,不过,不要着急,我们就从实际案例来讲讲这事。

我的风格向来都是在实例中找解决方法。一点一点积累,把解决问题的方法总结完整。

1.在爬虫提取网页内容时,经常出现中文乱码,比如新浪网,我们提取一个新闻标题,如下。

原本的网页是这样

python编码问题汇总 - 优美设

提取标题

url = 'http://ent.sina.com.cn/zl/bagua/2018-04-28/doc-ifzvpatq5478088.shtml'

res = requests.get(url)
soup = BeautifulSoup(res.text, 'lxml')
title = soup.select('#artibodyTitle')[0].prettify('utf-8').decode('utf-8')
print(title)

执行结果是这样

python编码问题汇总 - 优美设

这种情况,只需设置编码

让requests得到的内容从新编码

res.encoding = 'utf-8'

2.使用Beautifulsoup库,将Beautifulsoup对象转换成字符串,添加.prettify('utf-8').decode('utf-8')

soup.select('#artibodyTitle')[0].prettify('utf-8').decode('utf-8')

 

 

(。・`ω´・)美工里的程序猿,程序猿里的印刷工。