1、负责网络爬虫系统的设计与开发(结构化抽取,分布式,调度策略);
2、研究爬虫策略和防屏蔽规则,解决封锁、验证码、加密,等问题,优化爬虫效率和质量;
3、对抓取后的数据进行清洗、存储,并持续优化平台,提升爬虫稳定性及可扩展性。
4、向部长汇报。
1.至少1年爬虫项目开发经验;至少熟练掌握主流爬虫框架中的一种
2.精通Python语言,熟练运用多进程、多线程开发;
3.熟悉爬虫原理,熟练掌握正则表达式、XPath、CSS等网页信息抽取技术以及提取多层Json结构数据;
4.熟悉常见反爬机制,IP池、cookie、js加密等;对破解验证码有丰富经验,独立解决js反爬和模拟登陆问题5.熟练使用Scrapy、Requests、Selenium、PhantomJS等框架;熟练使用抓包工具;
上一篇:没有了!
下一篇:土建工长