温馨提示:刷信誉、刷单、网络兼职、只要求加V信联系的职位都是骗子!收取费用或押金都有欺诈嫌疑,请警惕!
岗位职责:
1、负责多平台信息爬取和页面内容的提取分析,负责破解各类反爬机制;
2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点,提升网页抓取的效率和质量;
3、负责页面信息监控,及时感知页面变化,并调整爬虫策略,追踪最新数据;
4、负责原始数据的清洗、加工、转换、入库,从多种原始表根据指定维度进行抽取、对齐,构建业务表;
5、负责服务端接口开发、部署、测试、运维;
6、负责医学问答对等语料数据采集、数据清洗、入库等;
任职要求:
1、5年以上JAVA/PHP/PYTHON经验,3年以上爬虫经验(PC端、公众号、小程序等);
2、熟悉sprintboot等web框架;
3、熟悉网页爬虫爬取、反爬机制、分布式爬虫;
4、熟悉MySQL、MongoDB等数据库的使用,熟悉Redis、Nginx、MQ等后端技术栈,熟悉表结构设计、多表关联、数据对齐等技术;
5、熟悉B/S架构,熟悉REST接口标准、熟悉Https工作原理、熟悉Websocket协议;
6、熟悉Linux操作系统的使用,shell脚本编写。