前言
寒假前已经定好了这次项目实训的题目,放假的时候群里关于房价数据爬虫的讨论随着一句“过完年再说”戛然而止,然而第一周已经结束了才空出时间来写总结。
项目需求
城市房价分析系统
技术类别:
Web,网络爬虫,数据分析
基本功能:
通过爬取链家网,我爱我家等中介机构,以及城市建设局网站数据,实现对指定城市的房价进行排序和分析,并结合一定规律进行预测
难易程度:中等
需求实现:
- 按用户输入城市名称,爬取和显示城市不同小区,不同区域的房价,并用柱状图显示
- 按年份,月份,显示和分析某区域房价走向和趋势
- 对比相同价格下不同城市的房产品牌
- 对比不同城市房价走向,并进行归类分析
- 实现房价波动的简单预测
需求理解
1.项目是什么?
一个Web,可以向用户展示粒度从市—行政区—具体楼盘的统计数据,可以根据用户提供的新楼盘数据做预测。
2.项目怎么做?
Java Web(Spring bot, vue.js, Echarts)
Python(bs4, sklearn, pandas等)
MySQL
百度API(POI相关信息获取)
预测模型XgBoost + LR/DT, 是否采用Deep Learning视项目进度决定
开发模式
Scrum敏捷开发模式,lm担任产品经理,ltz担任技术主管,我是master。作为master在项目中要负责管理上的事务很多,经理日报,进度控制,每日组会,团建等等,对人际沟通能力是个很好的提升。组员都很自觉,分工我和lm负责数据和预测部分,另外三位负责Web。
第一周进度
- 数据部分:爬虫完成,爬取了某壳网上一线城市和二线城市的数据
- Web部分:通过百度地图的控件可以在地图上显示城市和行政区的统计数据,校对经纬度花了挺久。
- 预测部分:数据清洗中,第二周预测模块应该能实现。