职位描述
职位描述:
职责描述:
1.编写大规模分布式网络爬虫(多线程、分布式调度、协议处理);
2.能用系统解决动态网页内容抓取、深度网页内容抓取的关键技术;
3.采用机器学习,信息检索,大规模数据挖掘等工作。
任职要求:
1.计算机等相关专业本科及以上学历;
2.python基础扎实,精通ssh等开源框架;
3.熟悉mysql、mongodb一种或多种数据库开发技术,有较好的数据库设计能力;
4.精通网页抓取原理及技术、深度抓取、动态网页技术抓取、浏览器模拟抓取技术,从结构化的和非结构化的数据中获取信息;
5.精通爬虫和反爬技术,精通http底层协议;精通深度抓取、动态网页技术抓取、浏览器模拟抓取技术等;
6.熟悉分布式系统、多线程 ;
7.具有网络爬虫、网页信息抽取、数据挖掘、自然语言处理、信息检索、机器学习、web挖掘等搜索引擎等相关经验优先。