温馨提示:刷信誉、刷单、网络兼职、只要求加V信联系的职位都是骗子!收取费用或押金都有欺诈嫌疑,请警惕!
岗位职责:
1. 数据爬取与收集
- 设计并开发网络爬虫,自动化收集特定网站上的PDF文档及相关数据。
- 处理网页结构分析,解析动态加载内容,并确保数据收集的完整性。
2. PDF文档处理与数据清洗
- 编写脚本对PDF文档进行解析、格式转换、文本提取、数据清理等批量处理。
- 处理表格、公式、图像等复杂格式内容,优化数据结构以适应下游任务需求。
3. 向量数据库管理与优化
- 负责向量数据库的构建、管理、测试、更新和优化。
- 设计高效的数据索引结构,提高向量搜索的精准度和查询速度。
- 监控数据库性能,确保系统稳定运行,定期优化存储和检索算法。
4. AI模型微调与训练数据管理
- 参与大语言模型的微调工作,针对特定任务优化模型表现。
- 进行训练数据的筛选、清洗和增强,构建高质量的数据集。
- 研究并应用最优训练方法,提高模型在特定任务上的表现。
5. 系统优化与维护
- 记录工作流程,并撰写相关技术文档,确保团队内知识共享
任职要求:
- 具备扎实的Python编程能力,熟悉爬虫框架(Scrapy、Selenium、Playwright等)。
- 熟悉PDF处理技术(如pdfplumber、PyMuPDF、PDFMiner、tesseract OCR等)。
- 熟悉向量数据库的基础原理并掌握至少一个常用工具(FAISS、Chroma、Weaviate等)。
- 了解自然语言处理(NLP)及AI模型微调技术,有大语言模型(LLM)相关经验者优先。
- 熟悉数据清洗、预处理、增强的方法,并能构建高质量数据集。
- 有良好的问题分析和解决能力,能够独立完成任务并优化工作流程。
- 具备团队合作精神,能够清晰地沟通技术方案,并撰写技术文档。