香港中文大学(深圳)联培项目 | 数据科学理学硕士项目 & 华为技术有限公司

发布时间:2022-03-19 09:48:36    阅读量:3731

近年来,香港中文大学(深圳)一直与华为等高新科技企业紧密合作,形成优势互补、资源共享的伙伴关系,成为产教融合、产研融合的典范。校企联合不仅增强大学相关研究生项目的“热度”,为企业培养了优秀的可用之才,同时科企也从此平台中获得与世界最前沿理论与技术直接交流的机会,最终实现技术领域的更快创新与突破。

 

香港中文大学(深圳)数据科学理学硕士项目与华为公司采取双导师制的培养方式,学生第一年在校内修读课程,第二年在通过项目推荐和华为公司组织的考试后,将在华为进行一定时期的科学实践,更好的让学生做到将学校所学的理论知识应用到真正的实践过程中。

 

 

华为课题介绍

 

针对21级数据科学的学生,华为公司共发出了三个部门,多达37个课题供学生们自主选择和参与,包括Cloud BU中央研究院AI与智慧全场景业务部

 

部分业务及课题介绍:

 

Cloud BU

 

1华为云大数据处理平台

 

随着数字划时代的到来,社会生产生活产生大量的数据,数据量越来越大,种类越来越多。企业迫切对大量数据的背后价值进行挖掘。华为云大数据服务帮助企业构筑从数据接入、存储、计算和分析的全生命周期大数据解决方案,帮助企业客户进一步挖掘数据价值,快速完成数字化转型,激发制造企业的创新活力、发展潜力和转型动力。

 

2智慧供应链

 

随着AI技术的不断发展,学习优化成为未来的一个主要方向,通过运筹优化技术,提升工业、交通、供应链等实际业务场景的效率和优度,成为业界竞相追逐的一个方向。通过运筹优化技术,可以有效提升各行业的效率,降低成本,带来巨大的经济收益。

 

3气象&卫星大数据挖掘

 

作为大数据建设的重要数据,气象数据早已融入到政治、经济、民生等各领域中,包含灾害预警、生态文明建设、重要工程建设,均提出了对气象数据运用的明确需求。与此同时,气象行业积累了海量的数据。充分利用气象部门的数据规模优势,发展基于人工智能的大数据挖掘技术,可以释放气象数据资源的潜在价值,成为国家大数据平台的重要组成部分。

 

中央研究院

 

1基于深度学习的数据缩减

 

如何将大数据“变小”,是解决IoT时代海量数据高速无损传输和存储的核心问题。传统的数据缩减主要基于专家设计的算法和固定参数,无法做到场景的自适应。利用深度学习技术,可以潜在捕获海量数据中的隐藏规律,结合新一代AI硬件,探索下一代数据缩减算法,大幅提升视频、图片等高流量场景的数据缩减率。结合信息论和统计机器学习,建立发展基于深度学习的数据缩减理论;研究基于深度学习的图像和视频等海量数据的压缩方法。

 

2复杂系统的优化与控制理论和算法

 

复杂系统里的优化与控制问题在各个领域都有重要的应用,例如用户调度、网络路径规划、商品推荐、云和边缘计算下的任务和资源分配、复杂物理声场和光场的预测和控制等。此课题将重点研究各种应用场景下如何基于数据选取或构建合适的数学模型,结合压缩感知、矩阵计算、蒙特卡洛等数值和采样技巧,设计快速的优化算法,并探索各种优化和控制算法的分布式以及近似计算理论。

 

3智能时空语义数据分析

 

完成智能时空语义数据分析(Spatial Semantic Data Analytics)领域前沿研究,并完成相关专利或论文撰写:

1. 基于空间语义的定位算法研究

2. 基于空间语义的多维数据分析及推荐

3. 针对结构化预测的时空深度模型与训练

 

AI与智慧全场景业务部

 

1基于多设备多模态的群体感知挖掘建模

 

【课题描述】通过华为及其生态下多种类型终端采集的大数据以及端云协同的技术创新,围绕用户的意图理解,感知用户的行为活动、生理特征、心理活动、环境上下文,形成对用户内部、外部状态的完备描述。

【技术挑战】

1. 分布式异构数据的挖掘建模

2. 通过端云协同实现高效、可保护个人隐私的计算范式

3. 画像与感知模型的个性化适配

 

2基于多模态信息的情绪类型识别模型

 

【课题描述】通过华为及其生态下多种类型终端采集的大数据,研究建立情绪识别AI模型,使能设备、应用、服务理解用户的心理情绪状态。

【技术挑战】

1. 设计能够有效诱发被试者情绪的心理引导方案,从而建立多模态情绪识别研究数据集

2. 融合多模态输入信息,包括生理信号、视频语音等,训练出高精度情绪识别模型

3. 情绪模型的个性化适配方案

4. 情绪模型运行在端侧

 

学生分享

 

岗位选择

 

华为公司有广袤的平台,若能在该司实习工作,定能学到不少的东西。其实相对于岗位,在报名时更多需要考虑的是部门。我们可以选的部门共有3个,分别为Cloud BU、数据通信产品线和中央研究院。数据通信产品线是偏硬件,对DS来说不太合适,遂不考虑。于是我投递了Cloud BU和中央研究院。因为5G时代会创造云计算的大量应用场景,比如自动驾驶、智慧城市、远程医疗等,所以我第一志愿投了Cloud BU。

 

广袤平台

 

华为致力于构建万物互联的智能世界

 

未来发展

 

未来的5G时代

机器学习模型

岗位调整后,主动联系了华为的hr,当时华为方面的hr小姐姐很耐心的跟我聊了聊,跟我确定了我的实习方向-大数据,并且帮我选择开启了Cloud BU线的招聘流程。

 

笔试经验

 

日常经验积累

 

笔试为上机笔试,总共3道算法题。建议平时刷Leetcode,前200经典题目一定要熟练。

 

— — —

 

开学前项目组就让我们自主选择了三个联合培养项目,开学后就开始发陆续笔试链接,准备时间还是比较紧张。笔试内容主要是3道程序题,难度层层递进。第一道题是比较简单,主要是关于字符串的处理,注意读题。第二三道题大概是leetcode中等难度,用到了堆栈结构和动态规划的思想,没有特别偏。需要注意的地方有: 1)输出和输出的格式 2)根据我们的统计发现,其实笔试总得分超过100分就可以了。而三道题的得分占比是不同的,所以有一个trick就是,先通过写异常处理来先跑过得分占比高的题目的一些边界情况和简单的用例,而不是把一定要通过得分占比低的题目所有用例,这往往非常难且耗时间,简言之就是性价比不高。说完了trick,我们还是要在笔试前下一些hard work,但当时国庆节前夕我一心想着玩,加上课业workload比较大,并没时间刷题。所有这里就只推荐一个之前用到的资源库,主要整合了计算机基础知识和各种算法的脉络结构,特别适合临时抱佛脚:

(https://github.com/DarLiner/Algorithm_Interview_Notes-Chinese)

该资源库在Github上已经获得1.5k星,挺火热的。内容涵盖了算法/机器学习/深度学习/自然语言处理(NLP)/C/C++/Python/面试笔记,但作者很久没更新了,适合大家fork下来在此基础上添加自己的整理总结。

 

 

面试经验

 

面试总共2面,一面是关于提问与手撕代码。问到的多是项目经历、实习收获、毕设等;手撕代码则是算法题,写出来后还会就代码的优化进行提问、讨论。笔试和面试总共4道算法题,其中2道我在Leetcode上刷到过原题。二面是关于为什么选这个部门、未来的职业规划、如何看待行业发展等。

 

— — —

 

面试分为技术面和主管面,技术面考察了简历内容和两道算法题(口述即可),分别用到了二分法和滑动窗口。期间面试官给了我较长的时间思考,非常nice,面试总耗时1多个小时。主管面主要考察了对部门业务的了解和个人职业规划,期间主管很细致的解释了华为云数据中台的主要工作和需要的技术栈,提出了希望我今后在港中深的学习过程中注重对spark/hadoop和机器学习模型的知识的掌握,让我对新学期的学习有了明确的目标,开始期待第二年的实习了~

 

华为松山湖

(22年华为项目考核具体实施细则以最终公布为准)

 

SUMMARY

 

数据科学理学硕士项目是为了培养期望在数据科学领域深入学习的学生而设计,旨在使学生具备专业的知识和技能,用于解决大数据的采集、管理及分析等方面的问题。与华为公司的联合培养项目可以帮助学生更好的将专业知识和技能,用于解决特定的实际问题中。

 

后续项目组也会持续关注大家的实习进展,为大家更好的记录此次联培项目~