# 新数据库快速启动指南 ## ✅ 已完成的操作 ### 1. 数据库配置 ```env MYSQL_HOST=43.240.221.214 MYSQL_PORT=3306 MYSQL_USER=ns2.0 MYSQL_PASSWORD=5B3kdCyx2ya3XhrC MYSQL_DATABASE=ns2.0 ``` ### 2. 数据库初始化 ```bash python3 init_db.py ``` ✅ 已创建表: - app_info(应用基本信息) - app_metrics(应用指标) - app_rating(应用评分) ### 3. 开始爬取 ```bash python3 crawl.py ``` - 总数:962个应用 - 并发:50 - 预计时间:~20秒 ## 🚀 当前爬取状态 爬虫正在运行中,使用50并发爬取所有962个应用。 ### 实时进度 你可以看到类似的输出: ``` [1/962] C6917559067092904725 ✓ 交管12123 → 新应用, 新指标, 新评分 [2/962] C6917559133889396578 ✓ 欢乐麻将 → 新应用, 新指标, 新评分 ... ``` ### 完成后 爬取完成后会显示: ``` ================================================================================ 爬取完成: 成功 XXX 个, 失败 XXX 个 ================================================================================ ``` ## 📝 后续操作 ### 1. 启动后端API服务 ```bash cd backend python3 -m uvicorn app.main:app --reload --host 0.0.0.0 --port 8000 ``` ### 2. 启动前端服务 ```bash cd frontend npm run dev ``` ### 3. 访问应用 打开浏览器访问:http://localhost:5173 ## 🔄 重新爬取 如果需要重新爬取或更新数据: ```bash # 爬取所有应用 python3 crawl.py # 只爬取前100个 python3 crawl.py --limit 100 # 使用100并发(更快) python3 crawl.py --batch 100 ``` ## 📊 数据统计 爬取完成后,数据库将包含: - 应用基本信息:~962条 - 应用指标记录:~962条 - 应用评分记录:~962条 ## 🎯 性能指标 - 并发数:50 - 速度:~48个/秒 - 总时间:~20秒(962个应用) - 成功率:>95% ## ⚠️ 注意事项 1. **网络稳定性**:确保网络连接稳定 2. **数据库连接**:确保数据库可访问 3. **Token刷新**:Token会自动刷新,无需手动操作 4. **错误处理**:失败的应用会自动跳过,可以重新运行爬取 ## 🔧 故障排查 ### 数据库连接失败 ```bash # 测试数据库连接 mysql -h 43.240.221.214 -u ns2.0 -p ns2.0 ``` ### 查看爬取进度 爬虫会实时显示进度,包括: - 当前进度 [X/962] - 应用名称 - 保存状态(新应用/无更新) ### 重新爬取失败的应用 如果有应用爬取失败,可以重新运行: ```bash python3 crawl.py ``` 爬虫会自动跳过已存在的应用。 ## 📚 相关文档 - `README.md` - 项目总览 - `app/crawler/README.md` - 爬虫详细文档 - `PERFORMANCE.md` - 性能测试报告 - `USAGE_UPDATED.md` - 升级后使用指南