← 返回首页

第15章 · 数据抓取与数据伦理

导航

15.1 requests/bs4 基础爬取

核心内容：

Requests库：发送HTTP请求，获取网页内容
BeautifulSoup：解析HTML/XML文档，提取数据
选择器使用：CSS选择器、标签属性定位
数据提取：文本内容、链接、图片、表格等
基础流程：请求→解析→提取→存储

Requests和BeautifulSoup是Python中最基础且强大的网页抓取工具组合。

15.2 反爬/限速/robots 合规

核心内容：

反爬机制：User-Agent轮换、IP代理、验证码处理
请求限速：设置请求间隔，避免被封IP
Robots协议：尊重网站的爬取规则和限制
会话保持：使用Session维持登录状态
异步爬取：提高效率的同时注意合规性

合规的数据抓取需要在效率与尊重网站规则之间找到平衡。

15.3 数据伦理与合规清单

核心内容：

数据伦理原则：尊重隐私、知情同意、最小必要
法律法规：GDPR、网络安全法、个人信息保护法
学术伦理：数据引用、版权尊重、研究诚信
合规清单：检查数据来源、使用目的、存储安全
数据匿名化：保护个人隐私的技术手段

数据伦理是数据科学工作的底线，必须在技术实施前优先考虑。