`, ``, ``, `

`, ``, `
`等 + +**CSS选择器** + +通过class、id、标签名定位元素： +- `.title` —— class为title的元素 +- `#header` —— id为header的元素 +- `a` —— 所有a标签 + +**XPath表达式** + +XML路径语言，用于定位节点： + +| 表达式 | 含义 | +|--------|------| +| `/html/body/div` | 从根节点开始的绝对路径 | +| `//div` | 任意位置的div标签 | +| `//div[@class="title"]` | class为title的div | +| `//a/text()` | 获取a标签内的文本 | +| `//a/@href` | 获取a标签的href属性 | + +**DOM树** + +网页内容以树形结构组织，包括父节点、子节点、兄弟节点。 + +--- + +## 第2部分：requests库 + +### 2.1 requests库简介 + +- Python最流行的HTTP库 +- 简单易用的API设计 +- 支持HTTP/HTTPS协议 + +**安装：** +```bash +pip install requests +``` + +### 2.2 基本用法 + +```python +import requests + +# 发送GET请求 +response = requests.get('https://example.com') + +# 查看响应状态码 +print(response.status_code) # 200 + +# 查看响应内容（文本） +print(response.text) + +# 查看响应内容（JSON） +print(response.json()) + +# 查看响应头 +print(response.headers) +``` + +### 2.3 常用方法 + +| 方法 | 用途 | +|------|------| +| `requests.get()` | 发送GET请求 | +| `requests.post()` | 发送POST请求 | +| `requests.put()` | 发送PUT请求 | +| `requests.delete()` | 发送DELETE请求 | + +### 2.4 常用属性 + +| 属性 | 用途 | +|------|------| +| `response.status_code` | HTTP状态码 | +| `response.text` | 响应内容（字符串） | +| `response.content` | 响应内容（字节） | +| `response.json()` | 响应内容（JSON解析） | +| `response.headers` | 响应头 | +| `response.cookies` | Cookies | + +### 2.5 模拟浏览器请求 + +```python +headers = { + 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36', + 'Referer': 'https://www.example.com', +} + +response = requests.get(url, headers=headers) +``` + +### 2.6 带参数的请求 + +```python +# URL查询参数 +params = {'keyword': 'Python', 'page': 1} +response = requests.get('https://example.com/search', params=params) + +# POST请求（表单数据） +data = {'username': 'test', 'password': '123456'} +response = requests.post('https://example.com/login', data=data) +``` + +### 2.7 Cookie与Session + +```python +# 设置Cookie +cookies = {'session_id': 'abc123'} +response = requests.get(url, cookies=cookies) + +# 使用Session保持Cookie +session = requests.Session() +session.cookies.set('session_id', 'abc123') +response = session.get(url) +``` + +### 2.8 超时设置 + +```python +response = requests.get(url, timeout=10) +``` + +--- + +## 第3部分：BeautifulSoup库 + +### 3.1 BeautifulSoup简介 + +- 用于解析HTML和XML的Python库 +- 提供导航、搜索、修改DOM树的功能 +- 常与requests配合使用 + +**安装：** +```bash +pip install beautifulsoup4 lxml +``` + +### 3.2 基本用法 + +```python +from bs4 import BeautifulSoup + +# 解析HTML（使用lxml解析器） +soup = BeautifulSoup(html_content, 'lxml') +``` + +**解析器对比** + +| 解析器 | 速度 | 特点 | +|--------|------|------| +| lxml | 快 | 推荐使用 | +| html.parser | 中 | Python内置 | +| html5lib | 慢 | 最接近浏览器 | + +### 3.3 查找元素 + +```python +# 查找第一个匹配的元素 +soup.find('div') # 标签名 +soup.find('div', class_='title') # 带class筛选 +soup.find('div', id='header') # 带id筛选 + +# 查找所有匹配的元素 +soup.find_all('a') # 所有a标签 +soup.find_all('a', limit=10) # 限制数量 + +# CSS选择器（推荐） +soup.select('.title') # class为title +soup.select('#header') # id为header +soup.select('div a') # div下的a标签 +soup.select('div > a') # div直接子节点a +``` + +### 3.4 获取元素内容 + +```python +# 获取文本 +element.get_text() # 获取所有文本 +element.string # 获取直接文本 + +# 获取属性 +element['href'] # 获取href属性 +element.get('class') # 获取class属性 +``` + +### 3.5 导航DOM树 + +```python +# 向下导航 +soup.head # head标签 +soup.body # body标签 +soup.div.p # 层层深入 + +# 向上/横向导航 +element.parent # 父节点 +element.next_sibling # 下一个兄弟元素 +``` + +--- + +## 第4部分：lxml库与XPath + +### 4.1 lxml简介 + +- 高性能的XML和HTML处理库 +- 支持XPath和XSLT +- C语言实现，速度快 + +**安装：** +```bash +pip install lxml +``` + +### 4.2 XPath基础语法 + +| 表达式 | 含义 | +|--------|------| +| `/` | 根节点 | +| `//` | 任意位置 | +| `.` | 当前节点 | +| `..` | 父节点 | +| `@` | 属性 | +| `*` | 任意元素 | +| `[n]` | 第n个元素（从1开始） | + +### 4.3 XPath示例 + +```python +from lxml import etree + +tree = etree.HTML(html_content) + +# 基本路径 +tree.xpath('//div') # 所有div标签 +tree.xpath('//div/p') # div下的p标签 + +# 属性选择 +tree.xpath('//div[@class="title"]') # class等于title +tree.xpath('//div[contains(@class, "title")]') # class包含title +tree.xpath('//a[@href]') # 有href属性的a标签 + +# 获取文本 +tree.xpath('//div/text()') # div内的文本 + +# 获取属性 +tree.xpath('//a/@href') # 所有a标签的href属性 + +# 位置选择 +tree.xpath('//li[1]') # 第一个li +tree.xpath('//li[last()]') # 最后一个li + +# 逻辑运算 +tree.xpath('//div[@id="main" and @class="content"]') +``` + +### 4.4 在Python中使用lxml + +```python +from lxml import etree + +# 解析HTML字符串 +html = '
Hello
' +tree = etree.HTML(html) + +# 获取元素 +titles = tree.xpath('//div[@class="title"]') +for title in titles: + print(title.text) # 获取文本 + print(title.get('class')) # 获取属性 + +# 获取文本内容（安全方式） +text = tree.xpath('string(//div[@class="title"])') +``` + +### 4.5 lxml与BeautifulSoup对比 + +| 特性 | BeautifulSoup | lxml | +|------|---------------|------| +| API设计 | 面向对象，友好 | XPath表达式 | +| 速度 | 较慢 | 快 | +| 灵活性 | 高 | 中 | +| 适用场景 | 复杂DOM结构 | 结构清晰的页面 | + +--- + +## 第5部分：实战案例 + +### 爬取电影评分数据 + +```python +import requests +from bs4 import BeautifulSoup +import csv +import time + +# 1. 发送请求 +url = 'https://movie.douban.com/top250' +headers = {'User-Agent': 'Mozilla/5.0...'} +response = requests.get(url, headers=headers) + +# 2. 解析数据 +soup = BeautifulSoup(response.text, 'lxml') +movies = [] + +for item in soup.select('.item'): + title = item.select_one('.title').get_text() + rating = item.select_one('.rating_num').get_text() + quote = item.select_one('.inq').get_text() if item.select_one('.inq') else '' + + movies.append({ + 'title': title.strip(), + 'rating': rating, + 'quote': quote + }) + +# 3. 保存为CSV +with open('movies.csv', 'w', newline='', encoding='utf-8') as f: + writer = csv.DictWriter(f, fieldnames=['title', 'rating', 'quote']) + writer.writeheader() + writer.writerows(movies) + +print(f'已保存 {len(movies)} 部电影到 movies.csv') +``` + +### 使用lxml/XPath的写法 + +```python +import requests +from lxml import etree + +url = 'https://movie.douban.com/top250' +headers = {'User-Agent': 'Mozilla/5.0...'} + +response = requests.get(url, headers=headers) +tree = etree.HTML(response.text) + +# 使用XPath提取数据 +movies = [] +for item in tree.xpath('//div[@class="item"]'): + title = item.xpath('.//span[@class="title"]/text()') + rating = item.xpath('.//span[@class="rating_num"]/text()') + + if title and rating: + movies.append({ + 'title': title[0], + 'rating': rating[0] + }) + +print(f'共提取 {len(movies)} 部电影') +``` + +### 进阶技巧 + +- 分页爬取 +- 错误处理与重试 +- 爬取间隔（防止被封） + +--- + +## 第6部分：数据存储 + +### CSV存储 + +```python +import pandas as pd +df = pd.DataFrame(movies) +df.to_csv('data.csv', index=False, encoding='utf-8-sig') +``` + +### JSON存储 + +```python +import json +with open('data.json', 'w', encoding='utf-8') as f: + json.dump(movies, f, ensure_ascii=False, indent=2) +``` + +### Excel存储 + +```python +df.to_excel('data.xlsx', index=False) +``` + +--- + +## 核心库总结 + +| 库名 | 功能定位 | 适用场景 | +|------|----------|----------| +| **requests** | HTTP请求库 | 发送网络请求，获取网页内容 | +| **BeautifulSoup** | HTML/XML解析库 | 解析HTML，提取数据，支持CSS选择器 | +| **lxml** | XML/HTML处理库 | 高性能解析，支持XPath | +| **XPath** | 路径查询语言 | 精确快速定位XML/HTML中的元素 | + +**推荐组合：** +- 新手入门：requests + BeautifulSoup（CSS选择器更直观） +- 进阶开发：requests + lxml（XPath更强大，速度更快） + +--- + +## 所需安装的Python库 + +```bash +pip install requests beautifulsoup4 lxml pandas openpyxl +```