百度搜索24届秋招面经：机器学习与自然语言处理

作者：疯狂学习GIS发布时间：2023-12-27

本文介绍2024届秋招中，百度的机器学习/数据挖掘/自然语言处理工程师岗位一面的面试基本情况、提问问题、代码题目等。

8月初参与了百度提前批的机器学习/数据挖掘/自然语言处理工程师岗位面试，所在部门是搜索方向的。一面结束之后就知道凉了，分享一下一面凉经。

其中，感觉提问环节会问得很细致，而且面试官会根据你前一个问题的回答，来进一步追问，考察对机器学习、深度学习算法原理的细致理解。面试官很和蔼，从整个面试过程中收获到了很多关于机器学习算法的新的理解。

这也是秋招的第一次面试，也确实感受到和实习生面试比起来，秋招面试更加注重对代码、算法基本原理、底层的理解（当然这个也要看你具体报的工作岗位方向）；同时一定要刷题——这次面试的时候面试官也一直强调，准备秋招的面试时，一定注意刷题的积累，这个是绝对不能马虎的。

面试情况

下午15:00开始，持续45分钟左右。
线上视频面试，1位面试官，部门领导；面试官很和蔼。
首先要求做自我介绍，随后提问25分钟，算法题目2道、20分钟。

提问问题

在暑期实习做什么的，都参与了哪些具体的工作，是不是主要偏向开发而不是算法？
目前对NLP接触多吗，主要接触深度学习的哪些领域，用得比较多的模型有哪些？
机器学习接触过哪些，用过哪些模型？
有没有接触过大型的深度学习项目，具体做了些什么，过程中具体用的什么模型，RNN还是DNN？
硕士毕业的大论文和小论文做什么的，进展如何，什么时候毕业？
详细介绍一下你的研究生毕业项目中，深度学习的内容，到底是做什么的，输入数据和输出数据是怎么样的，项目背景到底是怎么样的，是不是就是回归分析、没有分类分析，用的损失函数是什么？
为什么你的研究生项目中，RNN效果不如DNN效果，说说你的想法？
为什么要预测遥感影像数据，有什么应用的价值，如何来验证？
既然已经有了其他卫星数据，你们还要预测另一个数据？
你知道我们部门是做什么的吗？对NLP领域了解如何？
卷积神经网络是否有用过，了解理论原理吗？
有没有做过分类任务，用过哪些算法来做的，用的什么语言来实现？
说一说随机森林的理论原理，如何判断每一个节点对应结果的优劣？
Dropout会让神经元随机的失效吗？如果同样的数据，在模型确定之后代入进去，Dropout还会随机使得神经元失效吗，得到的结果还会变化吗？神经网络的模型结构一旦确定，Dropout是不是就不改变了？
讲一讲BatchNorm的原理，它有什么作用？
过拟合是什么意思，为什么会出现过拟合，讲一讲它出现的一些可能原因？
数据集中在一个范围上，会不会让神经网络过拟合？
如何缓解过拟合情况，Dropout是如何缓解过拟合的？
CNN神经网络如何缓解过拟合？
可不可以通过调整损失函数来缓解过拟合，以及L1、L2正则是否可以缓解？
L1、L2正则是如何缓解过拟合的？