任职要求:
熟悉Python语言,熟练运用多进程、多线程开发;
熟悉爬虫原理,熟练掌握正则表达式、XPath、CSS等网页信息抽取技术以及提取多层Json结构数据;
熟悉常见反爬机制,IP池、cookie、js加密等;对破解验证码有丰富经验,独立解决js反爬和模拟登陆问题
熟练使用Scrapy、Requests、Selenium、PhantomJS等框架;熟练使用抓包工具;
熟悉Linux基础命令,熟悉Mysql、Redis等数据库及相关操作;
其它要求:
熟悉数据清洗,能够用numpy、pandas、jieba等工具对数据进行处理者优先;
岗位职责:
1、负责网络爬虫系统的设计与开发(结构化抽取,分布式,调度策略);
2、研究爬虫策略和防屏蔽规则,解决封锁、验证码、加密,等问题,优化爬虫效率和质量;
3、对抓取后的数据进行清洗、存储,并持续优化平台,提升爬虫稳定性及可扩展性。
4、向部长汇报。
上一篇:土建工长 (实习生)
下一篇:土建造价员(实习生)