python爬虫中文网页cmd打印出错问题解决-白红宇

python爬虫中文网页cmd打印出错问题解决

阅读量：5923 次

发布时间：2019-06-19

本文共 1463 字，大约阅读时间需要 4 分钟。

问题描述

用python写爬虫，很多时候我们会先在cmd下先进行尝试。

运行爬虫之后，肯定的，我们想看看爬取的结果。

于是，我们print...

运气好的话，一切顺利。但这样的次数不多，更多地，我们会遇到这样的错误：

UnicodeEncodeError: 'gbk' codec can't encode character

好吧，回去检查网页的编码格式：gb2312

代码中也添加了：r.encoding = 'gb2312'

看不出哪里出了问题，应该没问题的啊！

代码如下：

import requestsfrom bs4 import BeautifulSoupurl = 'http://bbs.ok226.com/bbs/html/'r = requests.get(url)r.encoding = 'gb2312'soup = BeautifulSoup(r.text, 'html.parser')# 打印print(soup.get_text(strip=True))

解决办法：

A.改变控制台编码

网上查，都说是cmd控制台的问题。默认控制台编码gbk

好吧，那就改一下控制台编码，改成gbk的超集gb18030

试试看再说。。。嗯，很好，无报错，但是有乱码，算是解决了问题！

代码如下：

import requestsfrom bs4 import BeautifulSoupurl = 'http://bbs.ok226.com/bbs/html/'r = requests.get(url)r.encoding = 'gb2312'soup = BeautifulSoup(r.text, 'html.parser')# 改变控制台编码import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')# 打印print(soup.get_text(strip=True))

B.直接改字符编码

顺着这个思路，再一想，改控制台编码那还不如直接改字符编码：r.encoding = 'gb18030'

试试看再说。哎，没问题了，无报错，无乱码，完美解决！

代码如下：

import requestsfrom bs4 import BeautifulSoupurl = 'http://bbs.ok226.com/bbs/html/'r = requests.get(url)r.encoding = 'gb18030' # 注意网页编码是 gb2312soup = BeautifulSoup(r.text, 'html.parser')# 打印print(soup.get_text(strip=True))