温馨提示:刷信誉、刷单、网络兼职、只要求加V信联系的职位都是骗子!收取费用或押金都有欺诈嫌疑,请警惕!
岗位职责:
1.负责设计和实现高效的数据抓取策略,从各种网站中收集结构化或非结构化数据,并对数据进行清洗、解析、归档、输出等;
2.负责设计和开发分布式的网络爬虫,数据的采集与爬取、调度、监控、自动化运行等;
3.负责实时监控爬虫的进度和警报反馈,提升爬虫系统稳定性、可扩展性;
4.负责服务器的日常维护和优化,确保系统稳定运行,包括但不限于性能监控、故障排查、安全加固等;
5.参与公司业务平台的数据的挖掘和分析,协助进行产品改进,不断探索新的技术和工具,以优化数据抓取效率和服务器性能。
职位要求:
1.计算机或相关专业毕业,熟练掌握Python、Java等编程语言,熟悉多线程编程环境,熟悉常见开源框架,有3-5年工作经验、实际项目开发经验优先。
2.熟悉基于正则表达式、XPath、CssSelector、beautifulsoup、selenium等网页信息解析技术;
3.熟悉Scrapy、feapder等主流爬虫框架框架,能够解决封账号、封IP、验证码、网页限制爬取等问题,且有实际经验;
4.熟悉常见的反爬机制,熟练运用反爬应对措施策略,如协议破解、模拟点击等;
5.熟悉代理IP池、Headers认证和Cookie等。