← 返回首页
第15章 · 数据抓取与数据伦理
15.1 requests/bs4 基础爬取
核心内容:
- Requests库:发送HTTP请求,获取网页内容
- BeautifulSoup:解析HTML/XML文档,提取数据
- 选择器使用:CSS选择器、标签属性定位
- 数据提取:文本内容、链接、图片、表格等
- 基础流程:请求→解析→提取→存储
Requests和BeautifulSoup是Python中最基础且强大的网页抓取工具组合。
15.2 反爬/限速/robots 合规
核心内容:
- 反爬机制:User-Agent轮换、IP代理、验证码处理
- 请求限速:设置请求间隔,避免被封IP
- Robots协议:尊重网站的爬取规则和限制
- 会话保持:使用Session维持登录状态
- 异步爬取:提高效率的同时注意合规性
合规的数据抓取需要在效率与尊重网站规则之间找到平衡。
15.3 数据伦理与合规清单
核心内容:
- 数据伦理原则:尊重隐私、知情同意、最小必要
- 法律法规:GDPR、网络安全法、个人信息保护法
- 学术伦理:数据引用、版权尊重、研究诚信
- 合规清单:检查数据来源、使用目的、存储安全
- 数据匿名化:保护个人隐私的技术手段
数据伦理是数据科学工作的底线,必须在技术实施前优先考虑。