职位描述
岗位描述:
1. 负责对基于大模型构建的通用垂类应用进行效果和质量评估;通过与产品研发团队的紧密合作,制定评估标准和体系,准确分析评估效果,为应用的优化和改进提供支持,以提升应用的性能、用户体验和市场竞争力;
2. 应用效果与质量评估: 1)负责评估基于大语言模型构建的通用垂类应用的效果和质量,包括但不限于语言理解准确性、生成内容的合理性、逻辑连贯性、知识准确性等方面; 2)参与设计测试用例,涵盖不同场景、用户需求和输入条件,以确保应用在各种情况下的稳定性和可靠性; 3)参与收集和分析用户反馈数据,结合实际使用情况,对应用的性能和用户体验进行综合评估;
3. 评估标准与体系建设: 1)理解业务需求和产品目标,与产品研发团队密切沟通和协作,负责制定详细、明确的评估标准和指标体系; 2)理解评估数据的收集、整理和分析流程,确保评估数据的完整性和可靠性,为评估体系的持续改进提供数据支持;
4. 评估效果分析与报告:撰写评估报告,清晰阐述评估方法、过程、结果和结论,为产品研发团队提供决策依据和改进方向。能力要求:
1. 本科及以上学历,有AI数据生产和评估相关领域背景,具备2年以上训练师团团队管理经验;
2. 能准确理解业务诉求,对质量/数据变化敏锐,能通过独到的视角或科学的方法发现并解决问题,推动业务指标达成和策略落地;
3. 有自然语言处理、搜索、人工智能领域相关工作经验,有AI项目交付经验者优先;
4. 有想象力、良好的理解阅读能力和创意,了解国内外各种类型的AI产品玩法,如工具类(GPT、豆包、文心一言等)娱乐类(猫箱、星野、CAI等)多模态AI(Midjourney、可灵等);
5. 熟悉大语言模型,有数据标注与管理的经验,具备从训练数据到模型效果评估到优化的完整经验者优先;
6. 熟练使用Excel等数据分析工具,具备数据获取、分类和分析能力;
7. 对AI产品有热情与热爱,具备出色的好奇心与学习能力,能适应较快节奏的工作方式