Jack's Blog

秋招面试总结分享

2024-11-30T00:27:37.000Z

秋招基本也结束了，这里对整个过程进行复盘和总结，也是提前备战明年的春招。

这次秋招前期一直0offer，直到11月多才逐渐有差不多几家，最后开出来了一些，最终还是决定去钱多的地方，毕竟现在工作都不稳，钱多才是王道。

面试前的内容

算法 vs 开发

对于算法和开发的选择，我还是选择了算法，他们都说算法要有顶会，但是其实这个因素影响没有那么大的，我觉得不一定需要顶会，但是论文还是要有的，毕竟算法岗。没有顶会的情况下最重要的就是实习了，实习一定要把握住，这个可比顶会好拿到多了。我看往前几届的师兄师姐都去的开发岗，基本都是Java，但是这块我又不擅长，突击几个月还不一定有本科生学的好，干脆all in 算法了。毕竟算法还是比开发高很多的，还是可以冲下的。

另外一个选择的区别就是个人选择和未来规划，如果本科双非，同时没有科研论文，还没有实习，而且不打算后面卷，而是打算过几年回老家附近的地方，或者直接一步到位去二线城市，肯定直接Java，毕竟选择面非常广，Java的岗位数量遥遥领先，而且去国企银行运营商都好找工作。

如果还更有些追求，打算去大厂干几年，算法还是更好的，只是本科双非其实不算主要的问题，前提是有比较好的论文或者顶会，再想办法弄个实习，这样基本还是能找的，但要是都没有，那就不太容易了。

对于算法的准备，主要从以下几个方面展开，大致有力扣，简历，实习，秋招等。

力扣

力扣这是最基本的准备，毕竟除了人才计划，其他无论算法开发岗位都有力扣的考察，所以这个是一定要准备的。力扣的内容基本刷几遍hot100就差不多了，基本面试的手撕都是hot100这个难度，基本从前一年的12月就可以开始每天一道题了，开始的时候会很慢，后面慢慢熟练了就快了。之所以要开始这么早是因为实习是第二年三月就开始了，提前三个月准备刷题还是有必要的。很多人刷300题，基本肯定是够用了，有的人甚至刷了600题，其实不是特别有必要，力扣题主要起到的是一个门槛的作用，笔试不过直接pass，过的情况下主要看面试了。

简历

简历是非常重要的，决定了简历筛选后面能不能进笔试和面试，我简历凑合吧，投了90家，进面大概30家，正常水平吧。简历一般是先教育经历，之后最好是要有实习经历，然后是论文和科研部分，后面是项目可以放几个，后面是比赛获奖那些，主体就这些吧，具体根据不同人，优势不同，做的好的放前面一些。根据篇幅，后面可以加一些个人技能，比如编程语言和计算机工具比如Git、Linux什么的掌握情况，最后篇幅不够可以放自我评价，这个不是必须，可有可无。

对于简历的排版来说，也可直接按照不同模块的顺序，也有按照一个一个项目，然后每个项目后面跟着其中的产出论文成果以及技术栈，不同的都是可以的，根据自己实际情况来，总之自己最突出的地方要尽可能的放到比较显眼的前面。

对于简历是一页还是两页，我看不同HR喜好并不同，有的认为一页简单明了，有的觉得一页太单薄。总之校招一般不超过两页（博士除外），实际来看如果确实有内容建议充实两页，排版不要过于空旷，适当紧凑一些。

面试内容

一般一面或者二面技术面，自我介绍之后，如果有比较有含金量的实习或者论文会先讲这部分，之后会问项目之类的，之后有的会问一些八股，这个八股有的是算法八股比如Transformer、CNN、RNN卷积等什么的，这块需要背下。有的会问到计算机基础比如进程线程还有Python基础比如装饰器，线程锁啥的，这块只是有时候会问到。

然后就是面试中的手撕了，这个不是必须，有的面试会有手撕，这个因岗位和公司不同，手撕大部分是力扣，当然也有例外，比如淘天，投实习的时候手撕是手写多头注意力，交叉熵等题目，还有k-means的，这个不提前准备的话想快速写出来也不太容易。比如华子正式面试二面就出了个数字图像处理的手撕，很难，就蚌埠住了，这种题不多见。

技术面之后一般主管面，这块可能的问题很多，从个人信息到家里情况，到抗压测试，了解新信息的途径，其他还有比如人工智能对各行各业的影响，大模型在不同行业的应用，甚至包括盈利模式啥的等产品问题，不同的侧重点也不同，需要随机应变。这个部分不可小视，相关问题要整理下，大致想想如何回答。有的公司比如华子是技术面了可以捞，但是主管面挂了就不行。

实习

实习的重要程度可以说是第一了，毕竟一般如果组内条件不具备的话，是发不出来顶会的，尤其对于硕士，所以实习就成为了性价比最高而且最可以获取到的了。

准备实习第一步是要提前刷力扣题，然后准备简历润色，之后到三月下实习基本就开始了，四五月是最主要的时间，六月基本就不多了，建议尽早投递，一般越早越容易拿到Offer，前期看哪些先开，最开始的可以不投特别大的厂，因为没有相关经验，如果面的很差的话确实会影响面评，影响后面，不过大部分好像影响不大的，可以先从小厂开始，虽然很多时候大厂先开。在面试的过程中不断复盘，总结经验，不断提高，投递尽量不要拖太后，后面很多没有hc，即使准备的好也没用了。

我前面投递实习的时候技术面其实不会特别难，不过也有例外，比如淘天的，还有腾讯AILab这种，不过多面还是有好处的，对于秋招面试也是积累经验的过程。

如果实在没有实习经历，也是可以把一些横向的项目加进去，包括校企合作，实践活动，这种有的也是算实习的。

实习看能不能转正，如果能转正就要好好准备，不能的话就趁早想想后路，实习的经历如何整理成体系，面试的时候问答到相关的问题如何回答，把工作点整理好，面试的时候就不慌。

除此之外，如果没有特别好的成果的话实习投递也有可能不容易找到，但是这也是一个打怪升级的过程，有实习还是远远大于没有实习的，没有大厂就先去小厂，后面有机会再去大厂，先找一个能去的。

秋招

如果有实习的话一般八九月就要回去准备秋招了，除非对自己非常自信能实习转正。对于有实习的有经历，但是秋招的准备会少一些时间，因为实习很多时候也挺忙的，个别实习好像能直接在公司刷力扣，不过这种极少，看部门和主管。没有实习的人秋招七八月的时候有比较完整的时间准备秋招的内容比如力扣八股，把项目好好复盘。

建议还是尽早投递，确实是越早越容易，所以早点开始准备秋招的时候就可以占有不少优势，前后期难度确实不同，基本上八月份面试的都容易进。然后整理一个表格，不同公司的啥时候开始投递，有些相关的群要关注下，有的学长学姐会进行整理，自己这个表格记录好公司、投递时间、岗位、base地，笔试面试情况和时间啥的，方便自己查看。

算法方向

对于算法方向，目前岗位很多是算法工程师或者AI工程师，这块需要的技能很多时候不是只限一个方面的，很多岗位问的时候是既有传统算法也有大模型，所以技能肯定是越多越好，绝大部分算法都不是研究型的算法，而是业务型的算法，这样的算法主要是以解决实际问题来的，无论传统算法还是深度学习或者大模型，根据实际问题选择，所以都会最好。当然也有不少是直接的大模型算法工程师，虽然这种岗问的时候也还是有一般的算法。具体来说，主要从以下几个方向展开。

视觉方向

这个方向也是前面做的人最多的方向，虽然很多人现在做的还是视觉的项目或者科研，但是确实不建议用这个来找工作，除非你能发CCF-C及以上的论文吧，虽然C也很勉强。现在视觉的岗位太少了，所以必须是做的比较深，有一定的研究才行，不然相关的算法都很成熟了，不太好用来找工作。

这个方向现在不适合单独作为一个方向找工作，但是也是算法工程师基本必不可少的一个基础，还是要会一些相关内容更好的。

以下是两个半可以做的方向，说是两个半是因为第三个方向部署推理这块的hc远远不如前面两个的。

大模型

这个方向是目前算法最好找工作的方向了，大语言模型和AIGC这块的需求很多。很多人都说自己没做过，可问题是22年11月底ChatGPT出来之前，有几个人是做大模型的？现在做大模型的人99.9%的都是大模型出来之后开始学的，这块的上手门槛没有那么高的。很多人准备一两个月做一个大致像样的项目，用来参加比如书生浦语浦源大模型挑战赛，或者阿里这种的大模型比赛，差不多获奖就可以拿来简历用了，只要被问到的时候能讲清楚就还是可以的。现在各行各业都在用大模型做一遍，仍然是个可以做的风口，虽然风口过去并不知道能做成啥样，但是这几年自己能赚到就可以了。

学习这个并不需要一上来直接看论文，看看相关的项目，和一些相对比较容易的开源课程，先上手了解整个体系，然后尝试做个玩具微调下，之后再去认真研究，是个比较好的学习方法。

搜广推

这个方向作为互联网的基础，有非常稳定的基础，但是对于应届生来说学校期间往往不做这块的内容，不过要是突击两个月还是可以做下的，不算特别热，但是hc还可以，互联网都招。

部署推理

这个方向涉及模型的量化、剪枝、蒸馏、推理、部署、推理框架、推理引擎，还要AI Infra这些，这些方向其实还是可以做的，尤其现在大模型落地对这块的需求还是不少的，即使不是大模型的部署，小模型的部署也是有需求的。不过这块就要深挖下了，很多时候涉及C++，难度就上来了，不过这块的hc数就远比不上前面了，而且相对不太好转方向，有的开的价还可以，有的不如算法，但是还是比开发高的，也算是一个可以尝试的方向。tensorrt、ncnn、tvm、onnnx，还有vllm、turbomind、triton这些都是可以学习的。

这个方向因为hc极少，只攻这一个方向还是不好找工作，但是问题在于，算法工程师的技能点之一是CPP和量化部署这块，包括AI研发岗，我秋招面的很多家都会问到这块学的如何，也问相关的细节，所以这块如果会一些也是有好处的。

面试内容总结

简历学习内容
大模型
实习相关
实验评价指标
正则匹配如何做的
类别非常不均的情况下 acc 指标是否足够，不足使用了什么
语义理解的评价指标
具体指标
为什么这样用
这一指标达到多少，什么意义
badcase 有多少，是什么原因，如何处理的
如何根据实验结果调整 prompt
数据构造
数据量
构造方法
实际上下文长度是多少
数据截断是什么问题
数据如何标注的
真值从哪里来
标注的数据有什么问题
采用大模型而不是之前的机器学习方法的意义、优点
改进和上线所需措施
模型是否满足上线需要
如果不满足是因为什么，效果或速度还是其他
上线需要解决其他什么问题，后续需要做什么
相关理论
主流的大模型参数、量级、结构、最大上下文长度，如何选取
Llama 系列
千问
盘古智子
chatglm
internlm
其他
openai o1
大模型评测方法
CoT 和实习中的应用
微调方法
LoRA、QLoRA 等多种方法
多头 LoRA
LoRA
QLoRA
训练了哪些层
设置了哪些超参数，如 r、 alpha等
如何根据实际情况调整这些参数
分布式训练方法
deepspeed
zero
RAG 相关
原理
解决什么问题，为什么用 RAG
RAG 的向量表征方法都有哪些，怎么做的
视觉
目标检测
模型
YOLOv1~v11
各代演进和区别
总体发展理论
DETR 等无 nms 的模型
模型架构
主干网络的变化和区别
金字塔融合方式的多种
中间模块和处理方法
图像增强
一般的几种
mosaic 等多种方法
量化
量化方法
参数量
速度精度
剪枝
方法
对网络什么部分进行剪枝
参数量变化
速度变化
CPP 部分主要包括哪些
具体这部分如何用的
人脸识别
人脸识别和检测部分
构建索引和检索理论
向量表征
相似度检索
活体识别
算法八股
理论
Transformer 模型讲解
LayerNorm 等多种 norm 方式如 BatchNorm
Encoder 和 Decoder 相关
RNN、LSTM、Transformer 变化
大模型中激活函数等多种常用的结构
GQA
MQA
RMSNorm
SwiGLU
RoPE
激活函数
ReLU
Leaky ReLU
GELU
tanh
sigmoid
swish
ELU
特征工程包括什么，如何做
常见的数据预处理方法有哪些
分布式数据处理原理（如 Hadoop）
计算机理论相关（如堆和栈的区别）
手撕
Transformer
注意力
LayerNorm
KMeans
NMS
IOU 计算

最后补个学习的内容：算法工程师面试常考手撕题

引用链接https://mp.weixin.qq.com/s/TAFvUlqdyqP-W6C10F1Hzw

算法工程师面试常考手撕题
- 注意力（Attention）篇
  - 手撕单头注意力机制（ScaledDotProductAttention）函数
  - 手撕多头注意力（MultiHeadAttention）
  - 手撕自注意力机制函数（SelfAttention）
- 基础机器学习算法篇
  - 手撕 k-means 算法
- 手撕 Layer Normalization 算法
- 手撕 Batch Normalization 算法
- 解码算法篇
  - 手撕贪心搜索（greedy search）
- 神经网络篇
  - 手撕卷积神经网络(CNN)法
  - 手撕二维卷积算法
- 位置编码篇
  - 手撕绝对位置编码算法
  - 手撕可学习位置编码算法
  - 手撕相对位置编码算法
  - 手撕 rope 算法
- 面试题汇总
- 致谢

注意力（Attention）篇

手撕单头注意力机制（ScaledDotProductAttention）函数

输入是query和 key-value，注意力机制首先计算query与每个key的关联性（compatibility），每个关联性作为每个value的权重（weight），各个权重与value的乘积相加得到输出。

class ScaledDotProductAttention(nn.Module):
    """ Scaled Dot-Product Attention """


    def __init__(self, scale):
        super().__init__()


        self.scale = scale
        self.softmax = nn.Softmax(dim=2)


    def forward(self, q, k, v, mask=None):
        u = torch.bmm(q, k.transpose(1, 2)) # 1.Matmul
        u = u / self.scale # 2.Scale


        if mask is not None:
            u = u.masked_fill(mask, -np.inf) # 3.Mask


        attn = self.softmax(u) # 4.Softmax
        output = torch.bmm(attn, v) # 5.Output


        return attn, output




if __name__ == "__main__":
    n_q, n_k, n_v = 2, 4, 4
    d_q, d_k, d_v = 128, 128, 64


    q = torch.randn(batch, n_q, d_q)
    k = torch.randn(batch, n_k, d_k)
    v = torch.randn(batch, n_v, d_v)
    mask = torch.zeros(batch, n_q, n_k).bool()


    attention = ScaledDotProductAttention(scale=np.power(d_k, 0.5))
    attn, output = attention(q, k, v, mask=mask)


    print(attn)
    print(output)

手撕多头注意力（MultiHeadAttention）

class MultiHeadAttention(nn.Module):
    """ Multi-Head Attention """


    def __init__(self, n_head, d_k_, d_v_, d_k, d_v, d_o):
        super().__init__()


        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v


        self.fc_q = nn.Linear(d_k_, n_head * d_k)
        self.fc_k = nn.Linear(d_k_, n_head * d_k)
        self.fc_v = nn.Linear(d_v_, n_head * d_v)


        self.attention = ScaledDotProductAttention(scale=np.power(d_k, 0.5))


        self.fc_o = nn.Linear(n_head * d_v, d_o)


    def forward(self, q, k, v, mask=None):


        n_head, d_q, d_k, d_v = self.n_head, self.d_k, self.d_k, self.d_v


        batch, n_q, d_q_ = q.size()
        batch, n_k, d_k_ = k.size()
        batch, n_v, d_v_ = v.size()


        q = self.fc_q(q) # 1.单头变多头
        k = self.fc_k(k)
        v = self.fc_v(v)
        q = q.view(batch, n_q, n_head, d_q).permute(2, 0, 1, 3).contiguous().view(-1, n_q, d_q)
        k = k.view(batch, n_k, n_head, d_k).permute(2, 0, 1, 3).contiguous().view(-1, n_k, d_k)
        v = v.view(batch, n_v, n_head, d_v).permute(2, 0, 1, 3).contiguous().view(-1, n_v, d_v)


        if mask is not None:
            mask = mask.repeat(n_head, 1, 1)
        attn, output = self.attention(q, k, v, mask=mask) # 2.当成单头注意力求输出


        output = output.view(n_head, batch, n_q, d_v).permute(1, 2, 0, 3).contiguous().view(batch, n_q, -1) # 3.Concat
        output = self.fc_o(output) # 4.仿射变换得到最终输出


        return attn, output




if __name__ == "__main__":
    n_q, n_k, n_v = 2, 4, 4
    d_q_, d_k_, d_v_ = 128, 128, 64


    q = torch.randn(batch, n_q, d_q_)
    k = torch.randn(batch, n_k, d_k_)
    v = torch.randn(batch, n_v, d_v_)    
    mask = torch.zeros(batch, n_q, n_k).bool()


    mha = MultiHeadAttention(n_head=8, d_k_=128, d_v_=64, d_k=256, d_v=128, d_o=128)
    attn, output = mha(q, k, v, mask=mask)


    print(attn.size())
    print(output.size())

手撕自注意力机制函数（SelfAttention）

Self-Attention。和Attention类似，他们都是一种注意力机制。不同的是Attention是source对target，输入的source和输出的target内容不同。例如英译中，输入英文，输出中文。而Self-Attention是source对source，是source内部元素之间或者target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力机制。

class SelfAttention(nn.Module):
    """ Self-Attention """


    def __init__(self, n_head, d_k, d_v, d_x, d_o):
        self.wq = nn.Parameter(torch.Tensor(d_x, d_k))
        self.wk = nn.Parameter(torch.Tensor(d_x, d_k))
        self.wv = nn.Parameter(torch.Tensor(d_x, d_v))


        self.mha = MultiHeadAttention(n_head=n_head, d_k_=d_k, d_v_=d_v, d_k=d_k, d_v=d_v, d_o=d_o)


        self.init_parameters()


    def init_parameters(self):
        for param in self.parameters():
            stdv = 1. / np.power(param.size(-1), 0.5)
            param.data.uniform_(-stdv, stdv)


    def forward(self, x, mask=None):
        q = torch.matmul(x, self.wq)   
        k = torch.matmul(x, self.wk)
        v = torch.matmul(x, self.wv)


        attn, output = self.mha(q, k, v, mask=mask)


        return attn, output




if __name__ == "__main__":
    n_x = 4
    d_x = 80


    x = torch.randn(batch, n_x, d_x)
    mask = torch.zeros(batch, n_x, n_x).bool()


    selfattn = SelfAttention(n_head=8, d_k=128, d_v=64, d_x=80, d_o=80)
    attn, output = selfattn(x, mask=mask)


    print(attn.size())
    print(output.size())

基础机器学习算法篇

手撕 k-means 算法

import numpy as np
def kmeans(data, k, thresh=1, max_iterations=100):
  # 随机初始化k个中心点
  centers = data[np.random.choice(data.shape[0], k, replace=False)]


  for _ in range(max_iterations):
    # 计算每个样本到各个中心点的距离
    distances = np.linalg.norm(data[:, None] - centers, axis=2)


    # 根据距离最近的中心点将样本分配到对应的簇
    labels = np.argmin(distances, axis=1)


    # 更新中心点为每个簇的平均值
    new_centers = np.array([data[labels == i].mean(axis=0) for i in range(k)])


    # 判断中心点是否收敛，多种收敛条件可选
    # 条件1：中心点不再改变
    if np.all(centers == new_centers):
      break
    # 条件2：中心点的阈值小于某个阈值
    # center_change = np.linalg.norm(new_centers - centers)
    # if center_change < thresh:
    #     break
    centers = new_centers


  return labels, centers


# 生成一些随机数据作为示例输入
data = np.random.rand(100, 2)  # 100个样本，每个样本有两个特征


# 手动实现K均值算法
k = 3  # 聚类数为3
labels, centers = kmeans(data, k)


# 打印簇标签和聚类中心点
print("簇标签:", labels)
print("聚类中心点:", centers)

手撕 Layer Normalization 算法

import torch
from torch import nn
 
class LN(nn.Module):
    # 初始化
    def __init__(self, normalized_shape,  # 在哪个维度上做LN
                 eps:float = 1e-5, # 防止分母为0
                 elementwise_affine:bool = True):  # 是否使用可学习的缩放因子和偏移因子
        super(LN, self).__init__()
        # 需要对哪个维度的特征做LN, torch.size查看维度
        self.normalized_shape = normalized_shape  # [c,w*h]
        self.eps = eps
        self.elementwise_affine = elementwise_affine
        # 构造可训练的缩放因子和偏置
        if self.elementwise_affine:  
            self.gain = nn.Parameter(torch.ones(normalized_shape))  # [c,w*h]
            self.bias = nn.Parameter(torch.zeros(normalized_shape))  # [c,w*h]
 
    # 前向传播
    def forward(self, x: torch.Tensor): # [b,c,w*h]
        # 需要做LN的维度和输入特征图对应维度的shape相同
        assert self.normalized_shape == x.shape[-len(self.normalized_shape):]  # [-2:]
        # 需要做LN的维度索引
        dims = [-(i+1) for i in range(len(self.normalized_shape))]  # [b,c,w*h]维度上取[-1,-2]维度，即[c,w*h]
        # 计算特征图对应维度的均值和方差
        mean = x.mean(dim=dims, keepdims=True)  # [b,1,1]
        mean_x2 = (x**2).mean(dim=dims, keepdims=True)  # [b,1,1]
        var = mean_x2 - mean**2  # [b,c,1,1]
        x_norm = (x-mean) / torch.sqrt(var+self.eps)  # [b,c,w*h]
        # 线性变换
        if self.elementwise_affine:
            x_norm = self.gain * x_norm + self.bias  # [b,c,w*h]
        return x_norm
 
# ------------------------------- #
# 验证
# ------------------------------- #
 
if __name__ == '__main__':
 
    x = torch.linspace(0, 23, 24, dtype=torch.float32)  # 构造输入层
    x = x.reshape([2,3,2*2])  # [b,c,w*h]
    # 实例化
    ln = LN(x.shape[1:])
    # 前向传播
    x = ln(x)
    print(x.shape)

手撕 Batch Normalization 算法

class MyBN:
    def __init__(self, momentum=0.01, eps=1e-5, feat_dim=2):
        """
        初始化参数值
        :param momentum: 动量，用于计算每个batch均值和方差的滑动均值
        :param eps: 防止分母为0
        :param feat_dim: 特征维度
        """
        # 均值和方差的滑动均值
        self._running_mean = np.zeros(shape=(feat_dim, ))
        self._running_var = np.ones((shape=(feat_dim, ))
        # 更新self._running_xxx时的动量
        self._momentum = momentum
        # 防止分母计算为0
        self._eps = eps
        # 对应Batch Norm中需要更新的beta和gamma，采用pytorch文档中的初始化值
        self._beta = np.zeros(shape=(feat_dim, ))
        self._gamma = np.ones(shape=(feat_dim, ))


    def batch_norm(self, x):
        """
        BN向传播
        :param x: 数据
        :return: BN输出
        """
        if self.training:
            x_mean = x.mean(axis=0)
            x_var = x.var(axis=0)
            # 对应running_mean的更新公式
            self._running_mean = (1-self._momentum)*x_mean + self._momentum*self._running_mean
            self._running_var = (1-self._momentum)*x_var + self._momentum*self._running_var
            # 对应论文中计算BN的公式
            x_hat = (x-x_mean)/np.sqrt(x_var+self._eps)
        else:
            x_hat = (x-self._running_mean)/np.sqrt(self._running_var+self._eps)
        return self._gamma*x_hat + self._beta

解码算法篇

手撕贪心搜索（greedy search）

贪心搜索（greedy search）在每个时间步 t 都选取当前概率分布中概率最大的词，即

直到 yt 为或达到预设最大长度时停止生成。
贪心搜索本质上是局部最优策略，但并不能保证最终结果一定是全局最优的。由于贪心搜索在解码的任意时刻只保留一条候选序列，所以在搜索效率上，贪心搜索的复杂度显著低于穷举搜索。

def greedy_decoding(input_ids, max_tokens=300):
 with torch.inference_mode():
 for _ in range(max_tokens):
            outputs = model(input_ids)
            next_token_logits = outputs.logits[:, -1, :]
            next_token = torch.argmax(next_token_logits, dim=-1)
 if next_token == tokenizer.eos_token_id:
 break
            input_ids = torch.cat([input_ids, rearrange(next_token, 'c -> 1 c')], dim=-1)
        generated_text = tokenizer.decode(input_ids[0])
 return generated_text

手撕 Top-K Sampling算法

Top-K 采样（在每个时间步选择条件概率排名前 K 的词语，然后在这 K 个词语中进行随机采样。这种方法既能保持一定的生成质量，又能增加文本的多样性，并且可以通过限制候选词语的数量来控制生成文本的多样性。
这个过程使得生成的文本在保持一定的生成质量的同时，也具有一定的多样性，因为在候选词语中仍然存在一定的竞争性。

def top_k_sampling(input_ids, max_tokens=100, top_k=50, temperature=1.0):
 for _ in range(max_tokens):
 with torch.inference_mode():
            outputs = model(input_ids)
            next_token_logits = outputs.logits[:, -1, :]
            top_k_logits, top_k_indices = torch.topk(next_token_logits, top_k)
            top_k_probs = F.softmax(top_k_logits / temperature, dim=-1)
            next_token_index = torch.multinomial(top_k_probs, num_samples=1)
            next_token = top_k_indices.gather(-1, next_token_index)
            input_ids = torch.cat([input_ids, next_token], dim=-1)
    generated_text = tokenizer.decode(input_ids[0])
 return generated_text

神经网络篇

手撕卷积神经网络(CNN)法

import torch
import torch.nn.functional as F #使用functional中的ReLu激活函数


#CNN模型
class CNNNet(torch.nn.Module):
    def __init__(self):
        super(CNNNet, self).__init__()
        #两个卷积层
        self.conv1 = torch.nn.Conv2d(1, 10, kernel_size=5)  #1为in_channels 10为out_channels
        self.conv2 = torch.nn.Conv2d(10, 20, kernel_size=5)
        #池化层
        self.pooling = torch.nn.MaxPool2d(2)  #2为分组大小2*2
        #全连接层 320 = 20 * 4 * 4
        self.fc = torch.nn.Linear(320, 10)


    def forward(self, x):
        #先从x数据维度中得到batch_size
        batch_size = x.size(0)
        #卷积层->池化层->激活函数
        x = F.relu(self.pooling(self.conv1(x)))
        x = F.relu(self.pooling(self.conv2(x)))
        x = x.view(batch_size, -1)  #将数据展开，为输入全连接层做准备
        x = self.fc(x)
        return x
model = CNNNet()

手撕二维卷积算法

import numpy as np 
def conv2d(img, in_channels, out_channels ,kernels, bias, stride=1, padding=0):
    N, C, H, W = img.shape 
    kh, kw = kernels.shape
    p = padding
    assert C == in_channels, "kernels' input channels do not match with img"


    if p:
        img = np.pad(img, ((0,0),(0,0),(p,p),(p,p)), 'constant') # padding along with all axis


    out_h = (H + 2*padding - kh) // stride + 1
    out_w = (W + 2*padding - kw) // stride + 1


    outputs = np.zeros([N, out_channels, out_h, out_w])
    # print(img)
    for n in range(N):
        for out in range(out_channels):
            for i in range(in_channels):
                for h in range(out_h):
                    for w in range(out_w):
                        for x in range(kh):
                            for y in range(kw):
                                outputs[n][out][h][w] += img[n][i][h * stride + x][w * stride + y] * kernels[x][y]
                if i == in_channels - 1:
                    outputs[n][out][:][:] += bias[n][out]
    return outputs

位置编码篇

手撕绝对位置编码算法

class SinPositionEncoding(nn.Module):
    def __init__(self, max_sequence_length, d_model, base=10000):
        super().__init__()
        self.max_sequence_length = max_sequence_length
        self.d_model = d_model
        self.base = base


    def forward(self):
        pe = torch.zeros(self.max_sequence_length, self.d_model, dtype=torch.float)  # size(max_sequence_length, d_model)
        exp_1 = torch.arange(self.d_model // 2, dtype=torch.float)  # 初始化一半维度，sin位置编码的维度被分为了两部分
        exp_value = exp_1 / (self.d_model / 2)


        alpha = 1 / (self.base ** exp_value)  # size(dmodel/2)
        out = torch.arange(self.max_sequence_length, dtype=torch.float)[:, None] @ alpha[None, :]  # size(max_sequence_length, d_model/2)
        embedding_sin = torch.sin(out)
        embedding_cos = torch.cos(out)


        pe[:, 0::2] = embedding_sin  # 奇数位置设置为sin
        pe[:, 1::2] = embedding_cos  # 偶数位置设置为cos
        return pe


SinPositionEncoding(d_model=4, max_sequence_length=10, base=10000).forward()

手撕可学习位置编码算法

class TrainablePositionEncoding(nn.Module):
    def __init__(self, max_sequence_length, d_model):
        super().__init__()
        self.max_sequence_length = max_sequence_length
        self.d_model = d_model


    def forward(self):
        pe = nn.Embedding(self.max_sequence_length, self.d_model)
        nn.init.constant(pe.weight, 0.)
        return pe

手撕相对位置编码算法

class RelativePosition(nn.Module):
    def __init__(self, num_units, max_relative_position):
        super().__init__()
        self.num_units = num_units
        self.max_relative_position = max_relative_position
        self.embeddings_table = nn.Parameter(torch.Tensor(max_relative_position * 2 + 1, num_units))
        nn.init.xavier_uniform_(self.embeddings_table)


    def forward(self, length_q, length_k):
        range_vec_q = torch.arange(length_q)
        range_vec_k = torch.arange(length_k)
        distance_mat = range_vec_k[None, :] - range_vec_q[:, None]
        distance_mat_clipped = torch.clamp(distance_mat, -self.max_relative_position, self.max_relative_position)
        final_mat = distance_mat_clipped + self.max_relative_position
        final_mat = torch.LongTensor(final_mat).cuda()
        embeddings = self.embeddings_table[final_mat].cuda()


        return embeddings


class RelativeMultiHeadAttention(nn.Module):
    def __init__(self, d_model, n_heads, dropout=0.1, batch_size=6):
        "Take in model size and number of heads."
        super(RelativeMultiHeadAttention, self).__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.batch_size = batch_size


        assert d_model % n_heads == 0
        self.head_dim = d_model // n_heads


        self.linears = _get_clones(nn.Linear(d_model, d_model), 4)
        self.dropout = nn.Dropout(p=dropout)
        self.relative_position_k = RelativePosition(self.head_dim, max_relative_position=16)
        self.relative_position_v = RelativePosition(self.head_dim, max_relative_position=16)


        self.scale = torch.sqrt(torch.FloatTensor([self.head_dim])).cuda()


    def forward(self, query, key, value):
        # embedding
        # query, key, value = [batch_size, len, hid_dim]
        query, key, value = [l(x).view(self.batch_size, -1, self.d_model) for l, x in
                             zip(self.linears, (query, key, value))]


        len_k = query.shape[1]
        len_q = query.shape[1]
        len_v = value.shape[1]


        # Self-Attention
        # r_q1, r_k1 = [batch_size, len, n_heads, head_dim]
        r_q1 = query.view(self.batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        r_k1 = key.view(self.batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        attn1 = torch.matmul(r_q1, r_k1.permute(0, 1, 3, 2))


        r_q2 = query.permute(1, 0, 2).contiguous().view(len_q, self.batch_size * self.n_heads, self.head_dim)
        r_k2 = self.relative_position_k(len_q, len_k)
        attn2 = torch.matmul(r_q2, r_k2.transpose(1, 2)).transpose(0, 1)
        attn2 = attn2.contiguous().view(self.batch_size, self.n_heads, len_q, len_k)
        attn = (attn1 + attn2) / self.scale


        attn = self.dropout(torch.softmax(attn, dim=-1))
        # attn = [batch_size, n_heads, len, len]
        r_v1 = value.view(self.batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        weight1 = torch.matmul(attn, r_v1)
        r_v2 = self.relative_position_v(len_q, len_v)
        weight2 = attn.permute(2, 0, 1, 3).contiguous().view(len_q, self.batch_size * self.n_heads, len_k)
        weight2 = torch.matmul(weight2, r_v2)
        weight2 = weight2.transpose(0, 1).contiguous().view(self.batch_size, self.n_heads, len_q, self.head_dim)


        x = weight1 + weight2
        # x = [batch size, n heads, query len, head dim]


        x = x.permute(0, 2, 1, 3).contiguous()
        # x = [batch size, query len, n heads, head dim]


        x = x.view(self.batch_size * len_q, self.d_model)
        # x = [batch size * query len, hid dim]


        return self.linears[-1](x)

手撕 rope 算法

import torch
import torch.nn as nn
import torch.nn.functional as F
import math


# %%


def sinusoidal_position_embedding(batch_size, nums_head, max_len, output_dim, device):
    # (max_len, 1)
    position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(-1)
    # (output_dim//2)
    ids = torch.arange(0, output_dim // 2, dtype=torch.float)  # 即公式里的i, i的范围是 [0,d/2]
    theta = torch.pow(10000, -2 * ids / output_dim)


    # (max_len, output_dim//2)
    embeddings = position * theta  # 即公式里的：pos / (10000^(2i/d))


    # (max_len, output_dim//2, 2)
    embeddings = torch.stack([torch.sin(embeddings), torch.cos(embeddings)], dim=-1)


    # (bs, head, max_len, output_dim//2, 2)
    embeddings = embeddings.repeat((batch_size, nums_head, *([1] * len(embeddings.shape))))  # 在bs维度重复，其他维度都是1不重复


    # (bs, head, max_len, output_dim)
    # reshape后就是：偶数sin, 奇数cos了
    embeddings = torch.reshape(embeddings, (batch_size, nums_head, max_len, output_dim))
    embeddings = embeddings.to(device)
    return embeddings


# %%
def RoPE(q, k):
    # q,k: (bs, head, max_len, output_dim)
    batch_size = q.shape[0]
    nums_head = q.shape[1]
    max_len = q.shape[2]
    output_dim = q.shape[-1]


    # (bs, head, max_len, output_dim)
    pos_emb = sinusoidal_position_embedding(batch_size, nums_head, max_len, output_dim, q.device)


    # cos_pos,sin_pos: (bs, head, max_len, output_dim)
    # 看rope公式可知，相邻cos，sin之间是相同的，所以复制一遍。如(1,2,3)变成(1,1,2,2,3,3)
    cos_pos = pos_emb[...,  1::2].repeat_interleave(2, dim=-1)  # 将奇数列信息抽取出来也就是cos 拿出来并复制
    sin_pos = pos_emb[..., ::2].repeat_interleave(2, dim=-1)  # 将偶数列信息抽取出来也就是sin 拿出来并复制


    # q,k: (bs, head, max_len, output_dim)
    q2 = torch.stack([-q[..., 1::2], q[..., ::2]], dim=-1)
    q2 = q2.reshape(q.shape)  # reshape后就是正负交替了


    # 更新qw, *对应位置相乘
    q = q * cos_pos + q2 * sin_pos


    k2 = torch.stack([-k[..., 1::2], k[..., ::2]], dim=-1)
    k2 = k2.reshape(k.shape)
    # 更新kw, *对应位置相乘
    k = k * cos_pos + k2 * sin_pos


    return q, k


# %%
def attention(q, k, v, mask=None, dropout=None, use_RoPE=True):
    # q.shape: (bs, head, seq_len, dk)
    # k.shape: (bs, head, seq_len, dk)
    # v.shape: (bs, head, seq_len, dk)


    if use_RoPE:
        q, k = RoPE(q, k)


    d_k = k.size()[-1]


    att_logits = torch.matmul(q, k.transpose(-2, -1))  # (bs, head, seq_len, seq_len)
    att_logits /= math.sqrt(d_k)


    if mask is not None:
        att_logits = att_logits.masked_fill(mask == 0, -1e9)  # mask掉为0的部分，设为无穷大


    att_scores = F.softmax(att_logits, dim=-1)  # (bs, head, seq_len, seq_len)


    if dropout is not None:
        att_scores = dropout(att_scores)


    # (bs, head, seq_len, seq_len) * (bs, head, seq_len, dk) = (bs, head, seq_len, dk)
    return torch.matmul(att_scores, v), att_scores


if __name__ == '__main__':
    # (bs, head, seq_len, dk)
    q = torch.randn((8, 12, 10, 32))
    k = torch.randn((8, 12, 10, 32))
    v = torch.randn((8, 12, 10, 32))


    res, att_scores = attention(q, k, v, mask=None, dropout=None, use_RoPE=True)


    # (bs, head, seq_len, dk),  (bs, head, seq_len, seq_len)

print(res.shape, att_scores.shape)

面试题汇总

致谢

LLMs 千面郎君更新版 https://mp.weixin.qq.com/s/C6NdO_Ebj3DQx2AVAAgQRQ
LLMs九层妖塔 https://mp.weixin.qq.com/s/Eh0tY1zx2FqXQqIGa2dIBA
NLP 面无不过 https://github.com/km1994/NLP-Interview-Notes

来自: 算法工程师面试常考手撕题（更新）

秋招金山面试分享

2024-11-06T11:40:37.000Z

一面

今天9.30面的金山，金山这个面试基本是我面试过程最难的几个了，本来面试计划时间半小时，结果面了一个小时，面试官非常深挖项目，问的非常细，而且非常的耐心，里面就问了两个八股，看来要准备的还真的需要很多。

首先是自我介绍，然后问了下我的实习，第一部分主要是针对实习的具体内容展开，我先讲完做了啥，

用了什么模型，参数是多少，量级是多少，为什么用千问，盘古智子，千问大模型版本，结构，最大上下文长度是多少，怎么评测，选取哪个大模型。大模型训练出来的结果如何评价，用的什么指标。

LoRA微调原理，训练哪些层，都哪些超参数，超参数怎么设置的。

前面这块我了解的不是特别深入，然后就开始讲Prompt这块关于具体任务的内容，数据集怎么构造的，为什么这么构建，标注数据有什么问题，数据量多少，这个项目最终的好坏如何评价。

后面上线需要解决什么问题，是效果达不到，还是速度达不到，还是其他问题，千问的模型是否可以上线，解决方案是什么，后续怎么做。

还问了大模型的分布式这块了解不，我问是不是deepspeed这种，是，这块说了两句，不是特别懂。

然后问我后面哪个项目感觉做的比较深入，然后我说了第一个项目做的深入而且有论文，然后他就开始问了我最后一个项目，这个项目做的比较浅。问到这个项目，量化和剪枝如何做的，参数量是多少，剪枝之后是多少，速度提升多少。量化如何做的，量化之后的参数量是多少，速度提升多少。其中的CPP需要写哪些部分。

最后是八股，问了下现在各个大模型的架构是啥，主流都是哪些模型，都是啥样的。除了Transformer之外还了解mamba和kan不。

反问问了他们主要是大模型还是传统，说都有。

被拷打的很惨，感觉这次面试是最难的，感觉肯定G了。

结果没想到，过了，这次面试真的是很难，感觉自己很多地方都答的不好，但是还是过了，感觉有点意外。

二面

10.15今天金山二面，面了一个小时，过去自我介绍，然后面试官说让找一个印象最深的项目深入的讲。

然后我就讲了我做的第一个项目，也有论文，就屏幕共享讲论文，这次讲比第一次讲论文好多了，大致是讲清楚了，虽然后面面试官说可延展性不太行，不过确实，一个横向项目论文，确实挺水的，但也没办法。

然后是手撕，还是屏幕共享，让打开IDE，然后我Pycharm手撕一道题，这次问的是数组中找两个数之和，使其和target之差最小，然后用的双指针，说了下思路，然后写了出来，然后问算法复杂度，是O(nlogn)，然后是延伸，是否能用二分查找法做，如果这样做如何来设计，然后我说了下，应该说的没问题，这块也追问了好几个，比如两个数的时候有没有啥问题，边界条件是不是对，差不多都答上来了。

然后是一个八股，问大模型和小模型的区别，这块见得多了，从实用角度，可解释性，成本，大模型幻觉啥的展开讲，基本没啥问题，面试官差不多还夸了下。

然后是反问环节，问部门做啥，大模型还是小模型，都有，然后是base，问我报的哪里，他们这边有珠海、武汉、北京，后面会培训然后协商部门和base地。

然后是问我有没有其他offer，我说有几个在排序中，还在看。

总体来说感觉也还行，应该是过了吧。

三面HR面

11.5HR打电话，问我有没有时间，我说有，然后就直接电话面了。

首先问了下我实习7~9月华子实习，问结束了没，是结束了。然后问为什么没有华子内部转正，我说华子的不能转正，而且只有特别的可以评A直通三面，但是我一起的都是C9的，然后问那个部门招多少人，这个我不清楚。然后问华子比例多少，我说那个比例不超过20%。然后问实习为什么时间短，没想着转正或者没有机会吗，还是不喜欢工作内容。我说一方面前面在学校老师安排的活和毕设中期，就拖到了7.3；另一方面九月份就要秋招了，后面就没时间了，而且华子本身也不能转正。

然后问都拿到了哪些公司的offer或者哪家公司已经走到了后面的流程了，我说现在有几家已经到二面三面了，但是地方还没看好，更想去粤港澳地方。然后问头的是珠海，是什么原因呢有家里家人朋友在这边吗？我说不是，因为更看好这边的发展，我家里是河南，但是不是很想回去，粤港澳这边中国发展比较好，从未来考虑。然后问哪些公司比较后面了，我说讯飞理想都在后面了，但是还没有发offer，然后问他们的地点是哪里，我说还没仔细看。

然后问对未来工作的规划，你应聘的是算法，我说一直在做AI相关的，这块也比较了解。一方面从发展维度来说，进去前两年做技术，后面再考虑带团队，从学校和公司的差异。另一方面从就业的具体内容来说也希望更好的用到前面学的人工智能方面的知识，其他的也是可以快速学习的。然后我问这边工作是偏研发还是工程，他们说偏向工程产品落地。

然后问前面面试的过程中觉得他们关注的一些方向以及他们去问的一些问题跟您未来的那个发展的规划相符吗。我说基本还是可以。对于他们关注等一些内容有哪些方面女士没有涉及到或者是没有了解和学习接触过的吗？我说主要是从学校和公司的差异，对于性能效率方面的一些差异吧，这个我举了个例子来说的。

然后问：目前在学校期间的话是在做毕业论文还是做一些什么样的方向的一些学习吗？目前主要是秋招，后面做毕设，也是AI方面的。最近的话最近肯定是还是以秋为主，就是现在还没有就是还没有拿到不错的offer，暂时还没有走到那个offer这一步。

然后问薪酬的预期，我说我也不知道下面咱们这个行情到底应该是个什么情况。那你身边的同学有啊拿到什么样的一些offer你有了解到吗？我大致说了下，很多在等华为。然后问我为什么不是很想去华子，我说华子应该不算互联网。然后问我身边小米美团他们的薪酬大致多少，我说年三十多到四十多，具体也要看地方。然后问我珠海如何，我说年薪也要30多以上吧，也不知道行情如何。然后问珠海的薪资和深圳的薪资比较比较下来的话会有什么样的差异吗？我说肯定比深圳低。

然后HR说这边暂时没有其他问题了，晚一点确定录取和信息待遇什么的回尽快打电话，然后反问环节，我就问了下地方，武汉珠海是一样的，可以后面转，然后就结束了。

oc

11.6早晨HR打电话，谈了下薪酬福利，工作时间，这种类似的。

秋招中金所面试分享

2024-11-01T14:39:37.000Z

一面

11.1下午这次面的是中金所的子公司，总共就面了15分钟，几乎没问技术。

过去首先自我介绍，然后问了下华为实习是不是能转正，我说不能，然后说现在华子秋招还没开。

然后问我是否了解这个公司，我说是金融方面的，具体还不是很了解。

问我最近在看什么书，我说最近秋招，所以在看人工智能方面的书，根据不不同的阶段和任务看书。

然后问我找工作有多个offer的时候看重什么，我说第一看公司的发展，第二个人能力的培养，第三个是薪资福利。

然后让我找一个印象深刻的经历，展开讲讲，我就讲了下实习的内容，讲完他都没问问题，直接就到了反问环节。

我就反问部门具体是什么业务，哪方面的，他说前沿技术岗，一个是跟踪行业发展，探索落地，各种大模型区块链都有涉及，这个部门是运维的，就是前沿技术在这块的应用。

然后我问了下后面还有几面，他说如果一面过了的话二面是具体岗位相关的技术，三面是HR面。

总体来说还是太简短了，相比上午面一个小时还是差很多。

秋招蔚来面试分享

2024-11-01T12:08:37.000Z

一面

这次面的是蔚来，开始面试官很热情，上来介绍他们部门是自动驾驶的芯片的，然后我自我介绍，然后就开始问问题了。这次面了一个小时，可以说底裤都被扒的干干净净，好多问题都没回答上来，感觉是要G了。

这次没问实习，毕竟实习是做大模型的，这边完全不做大模型了，纯视觉，所以问的我的项目。

首先第一个项目，这个是我研究生做的第一个项目，讲完问了效果误差如何，是否满足需要，我说误差1%差不多是可以用了，而且成本低，这块简单问了下，还问了整个过程都用了哪些模型。又问了我用的MMPose框架内部是怎么实现的，这个框架我还真不是特别了解，只是用过，所以回答的不是很好。然后问我这块目标检测用的模型，这块是项目中很小的一个点，我都没准备，结果问到了，我就回答不好了。

然后第二个项目，这个讲完主体后，让我讲下这个过程用了什么模型，我讲了下还有效果。然后问实时性什么的是否满足需要，我就讲了下整体的流程架构。然后问这个项目的难点是什么，我说主要应该是解决具体的问题。然后问我有没有做边缘部署，我说这个本来有这个需求，但是后面没谈好，就没做了。还问了项目指标到多少，评价指标如何设计的，这块也是回答了个大概。

然后问第三个项目，这个项目做的浅，问了前面部分用的什么做的，这块用的接口做的，只做了后面的不难的部分，大致说了下，也是说的很水。

然后问第四个项目，我把整个流程说了下，然后说了下主要的难点和处理方法，也是大致说了下就完了。

然后开始问卷积内部实现和计算，这块我大致说了，然后又问了参数量规模，大致说了下，回答的一般。然后问我NMS怎么算的，我大致把理论说了下，然后问IOU怎么算的，这个比较容易，我还会手写。

然后问Python相关的，问了下*args和**kargs什么区别，这块大致说出来了。

然后问浅拷贝和深拷贝有什么区别，python中有哪些数据类型是浅拷贝，哪些是深拷贝。第一个浅拷贝和深拷贝大致说了下，第二个还真不知道。

然后问CPP相关的，问虚函数和纯虚函数什么区别，泛型编程是什么，模板是什么。这些就真不会了。

然后反问，我就问了下部门业务，然后他问我愿不愿意做这种比较底层的，我说还是很有兴趣的，然后就结束了。

感觉这次面试官开始还是很热情的，但是我回答的不太行，感觉是要G了，这些问题都太底层了，还有很多八股，我都没准备，感觉是要准备下这些问题了。

秋招广联达

2024-10-31T00:04:37.000Z

一面

30下午面试的广联达，这是个做建筑设计的公司，过去自我介绍完，他们好像主要是偏视觉一些，所以先问了我第一个项目，讲完之后追问了一些细节，包括问用的什么模型，模型的结构是什么。然后其他的问了下实习的内容，我就把实习的内容讲了一遍，他就问了下相比之前的效果如何，我说主要是业务流程上的改进，用大模型来完成这些事情。

之后他想问八股，我说计组计网操作系统编译原理都没学过，他就问了下如何处理类别不均的问题，这个我举了我实习时候的例子，再结合了之前做一般小模型时候的一些处理方法，给出了一些回答。

然后是问他们部门，他介绍了下他们公司主要偏视觉一些，是建筑信息化方面的公司，涉及图文生成和3DGS之类的，我也聊了下先关的内容。

秋招上海银行面试分享

2024-10-25T14:49:37.000Z

一面AI面

虽然是AI面试，但是还是记录一下，面试的内容，这个相当于是综合面试的题提前到了技术面之前了。这些内容还是需要总结一下，也是后面面试可能会问的问题。

具体有7个题分别需要录制两分钟的视频，第一个是自我介绍，包含学校、实习、项目、技能、兴趣爱好这些部分。

后面有印象最深的项目是什么，具体哪个？

第五个题目是如何促成他人意见和自己达成一致，会因此感到压力吗？

第六个题目是你制定过最成功的计划是什么？

最后一个题目是简述自己的优势和劣势和未来的职业规划？

这些题目有30秒的思考时间，难度有一些的，还是要提前准备一下的。

二面人工面

这次面试大概35分钟，基本问的也算全，不过后面的都没问。线上腾讯会议面试，有两个面试官，第一个面的时候第二个听。

第一个面试官，过去先自我介绍，然后讲实习做的啥，先讲了背景，然后按照要求说了输入输出和目的，只讲了一个点，中间问了很多细节，数据多少条，正负样本配比是否合适。用的啥模型训练的，现在主流的大模型结构是什么样的，这个我都没回答完，就打断了。然后问我大模型在银行场景中如何应用，我就说了下目前主要在知识库和智能客服结合RAG和Agent这块做的，其他倒是不太多。然后问了我是否会开发，问技术栈，我说主要会Python和Pytorch，C++只会一点，还有就是机器学习和深度学习算法，比如Kmeans啥的。Java不太会，不过学起来应该也问题不大。然后问我是否了解SQL，我说本科用过，速成了一下增删查改，后面没有用过就不太懂了，不过要学应该挺快的。

然后让第二个面试官问，面试官首先说你既然比较了解Pytorch，那Pytorch中的基本数据结构是什么，我说了下Tensor，他问和numpy中的有什么区别，我说主要是需要计算梯度和更新参数，所以主要是梯度累计记录这块的区别。然后问我前向传播和反向传播有什么区别，简单说了下更新参数和梯度这块的内容。然后说你刚才说Kmeans，那你说一下这个算法，我就介绍了下原理，然后问我距离计算有哪些类型，我就说了下L1和L2欧式距离，还有0范数和无穷范数啥的。然后他问我如何确定聚类数目，我说这是个超参数，不过其他聚类如DBSCAN不需要指定聚类个数，如果Kmeans需要预估的话，需要进行数据分析一下，大致预估。然后是问我大模型在银行中如何应用落地，这块我也是只能从知识库智能客服这块说了下，然后就是结合华为实习的风控场景类似银行场景中也可以进行应用。这个开放性问题其实我回答的不算出彩，感觉这个问题很多领导还是很看重的，还是需要重点准备一下。

然后是反问，我就说了下我技术栈过去是否适配适应，面试官说这个数据岗主要细分数据分析和人工智能大模型算法应用，然后就结束了。

秋招百信银行面试分享

2024-10-21T21:35:37.000Z

一面

这次面试是电话面试，大概40分钟。

首先自我介绍，然后问实习，讲完问的问题有，大模型相比传统业务的优势，样本的评测标准是否和之前的一样，这个项目后面是否可以做成纯大模型提取学习，等等之类的。问了这些就是八股了，现在主流都有哪些大模型，他们的结构是啥样的，我介绍完问ChatGLM为什么不是纯Decoder的，具体是采用了什么结构，这块我就答不上来了。

然后是问后面的第一个项目，有论文这个，把大致的内容讲了下，这块没怎么问。

然后就问到最后一个项目，说其中的量化剪枝这块怎么做的，这块我讲的不太清楚，涉及CPP的这块讲了下，还有部署和服务这块怎么做的大致讲了下。

然后反问，问具体部门做啥，具体是大模型的工程应用团队，然后就结束了。

秋招虾皮面试分享

2024-10-19T18:39:37.000Z

一面

这次面了33分钟，过去他先简单介绍他们情况，搜广推部门啥的，自我介绍完，先问了实习做的啥，然后我讲完了点，然后面试官说后面不用讲了，然后开始问，相对之前相比的优点，也问了一些里面的细节，主要还是业务流程方面的，没有仔细问模型本身相关的东西。然后是关于后面是否能上线，有啥问题。还问了大模型实际提高速度如何做，我说选用性能足够的小模型，量化剪枝蒸馏。

后面的项目好像没问，毕竟确实也不怎么相关。

然后说既然是搜广推，出个算法题，模型预测的一个排序和实际的排序，如[1,3,2,5,4]和实际的顺序[1,2,3,4,5]，设计一个函数给模型的输出打分，这块我大致思考了下，说了个思路，然后让实现，我就开始写

def main():
    n = len(rank1)


    rank1_dict = {value: idx for idx, value in enumerate(rank1)}
    rank2_dict = {value: idx for idx, value in enumerate(rank2)}


    loss_sum = 0
    for value in rank1:
        loss = rank1_dict[value] - rank2_dict[value]  # 计算排名差
        loss_sum += loss ** 2  # 差值平方累计

写了这些，然后分数差不多就是损失归一化然后反过来，然后就差不多了。

然后反问环节，我就问了下我技术栈过去转换是否大，面试官说他们也有大模型岗位，我说大模型不一定能火多少年，不过搜广推是互联网的基础，更看好一些，面试官让回去了解一下搜广推，上手做下项目啥的，毕竟是不能只靠兴趣，我说回去看看。

总体来看，这是第一个投搜广推给面的，虽然我也基本没怎么投搜广推，感觉面的也凑合，不过匹配程度确实是个问题。

秋招招联面试分享

2024-10-19T15:39:37.000Z

一面

这次面试的时间还挺短的，应该是22分钟，过去自我介绍完，先问了实习做的啥，然后大致讲了讲，然后问效果和之前的比如何，然后问了一些细节，是否上线。

然后问哪个项目做的深，第一个项目讲了讲，讲了大致背景和做法，都没有讲具体的结构流程，问了几个问题，包括数据、标注，和之前的比做的意义，做出的效果啥的，还有这个项目是不是自己做的，在其中什么角色。

然后问我如何职业规划和方向，想做啥，我说这些都比较通，都可以做。然后是城市的问题，这些城市我都差不多可以接受。

然后问我了不了解他们公司，这块我还真不怎么了解。然后问我有没有其他的offer，我说有几个在流程中。

最后反问，问了公司具体的业务，他们这个包括的比较多，CV、NLP大模型、语音这些都做。

秋招华为面试分享

2024-10-15T13:42:37.000Z

一面

15号的比较早，9：30左右，等了一会，叫号，过去面试，自我介绍完，先拿出来了笔试时候的题目让复盘一下，我用的还是投实习时候过的，正式批就没有笔试，简单看下，大致说出了思路。

然后说重点讲三个项目，我就讲一个实习+两个项目了。

开始问实习，也是介绍完之后问细节，具体也问了不少，然后讲第一个和第二个项目，讲完让手撕个题目，题目是一段01的比特流字符串，给一个target是0或者1，然后比特流只能变一位，求最多多少个连续的target，想了几分钟双指针写了出来。总体来说，一面还是比较友好的。

二面

等了一会就二面了，二面过去自我介绍完，我讲完实习，就问了几个套路性的常用问题，大概不到十分钟，然后就给一个手撕题目，场景题，用卷积算二阶导，对图像做边缘检测。这个没怎么见过，没想出来，要用题目给定的方法做，大致写了下，然后就结束了，写的应该不太对。面试官直接说今天面试结束了可以回去了，然后就短信通知今天的结束了，进入系统一看，果然挂了。

这种手撕场景题不太好准备，没得办法，二面都没怎么问，手撕g就g了，这题真没见过，太难了，全程都没问八股，二面一堆项目都没问，实习问的比一面还浅，没办法。

我回头问了我我同学们，还没有见过有二面挂的，他们题目都可以三选一，而且基本都是力扣，还都不是很难的那种，出这个题他们也都不会，让面试官给提示也不给，只报还剩下多少时间。毕竟连项目和八股都不问的面试我还是第一次见，一面的面试官就好的多。

我回去复盘了一下，这个题大致应该是这样的，总体来说也不能算完全的hard，但是难就难在开始这部分，如何用[1,-1]和$[1,-1]^T$计算拉普拉斯算子，后面的就很容易了。

ChatGPT给的答案是：

def edge_detection_laplacian(image):
    # 获取图像尺寸
    rows, cols = len(image), len(image[0])
    
    # 定义Laplacian卷积核g
    g = [[0, -1, 0],
         [-1, 4, -1],
         [0, -1, 0]]
    
    # 添加padding, 初始化f为图像+2边框的0矩阵
    f = [[0 for _ in range(cols + 2)] for _ in range(rows + 2)]
    
    # 将原始图像数据填充到f的中心部分
    for i in range(rows):
        for j in range(cols):
            f[i + 1][j + 1] = image[i][j]
    
    # 创建结果矩阵，用于存储边缘检测的结果
    result = [[0 for _ in range(cols)] for _ in range(rows)]
    
    # 主卷积循环，遍历图像中的每一个像素
    for i in range(1, rows + 1):
        for j in range(1, cols + 1):
            # 进行卷积操作
            conv_sum = 0
            for m in range(3):
                for n in range(3):
                    conv_sum += f[i + m - 1][j + n - 1] * g[m][n]
            
            # 将卷积结果存入结果矩阵
            result[i - 1][j - 1] = conv_sum
    
    return result

# 示例输入
image = [
    [1, 2, 1, 0],
    [4, 5, 6, 1],
    [7, 8, 9, 2],
    [3, 4, 5, 6]
]

# 调用Laplacian边缘检测函数
edge_result = edge_detection_laplacian(image)

# 输出结果
for row in edge_result:
    print(row)

但是他这个回答没有给出拉普拉斯算子怎么算的，其实这个算子我也是知道，也会用，其实早在投实习的时候一面就问了这个算子，我直接手写了出来，但是如果不给算子，而是用[1,-1]和$[1,-1]^T$计算拉普拉斯算子，再算的话，就不太容易了。我当时只算了水平的，没有算垂直的，水平垂直的叠加其实就可以了，有算子之后后面就容易了。

chatgpt给出了推导过程：

1. 一阶导数的离散化

在连续情况下，函数 f(x) 的一阶导数是：

$$
f’(x) = \frac{d}{dx}f(x)
$$

在离散情况下，我们用差分来近似一阶导数。在离散网格上，假设 f(x) 是一组离散的数值表示（如图像中的像素值），我们可以用向前差分或向后差分来近似一阶导数。

向前差分表示为：

$$
f’(x) \approx f(x+1) - f(x)
$$

这相当于卷积核 [1, -1]，它计算当前点与下一个点的差值。

向后差分表示为：

$$
f’(x) \approx f(x) - f(x-1)
$$

这相当于卷积核 [-1, 1]。

如果我们想取中间值（中心差分），可以将这两个差分的平均值作为一阶导数的离散近似：

$$
f’(x) \approx \frac{f(x+1) - f(x-1)}{2}
$$

这一中心差分可以表示为卷积核 [1, 0, -1]，它计算左右相邻点的差异。

2. 二阶导数的离散化

二阶导数表示的是函数变化的变化率。二阶导数是通过对一阶导数再次求导数得到的。在连续情况下，二阶导数是：

$$
f’’(x) = \frac{d^2}{dx^2}f(x)
$$

对于离散网格，我们可以用差分的形式来近似二阶导数。

3. 从一阶导数推导二阶导数

假设我们已经知道一阶导数的离散近似表示为 f'(x) = f(x+1) - f(x)，那么二阶导数可以通过对一阶导数再次取差分来计算：

$$
f’’(x) \approx f’(x+1) - f’(x)
$$

将一阶导数的表达式代入：

$$
f’’(x) \approx (f(x+2) - f(x+1)) - (f(x+1) - f(x))
$$

展开后得到：

$$
f’’(x) \approx f(x+2) - 2f(x+1) + f(x)
$$

这就是二阶导数的离散近似形式。其卷积核为 [1, -2, 1]，它计算当前像素值及其左右两个像素值的加权和，能够检测到亮度变化的速率，也就是图像中的曲率。

4. 解读 `[1, -2, 1]`

1：代表距离当前像素一个单位距离的前后像素值的贡献。
-2：代表当前像素的值，权重大，表示它与左右两个像素的关系。
1：再次代表左右相邻像素的贡献。

这个差分算子 [1, -2, 1] 通过结合当前像素与其左右像素的值，近似计算二阶导数，检测出图像中变化最剧烈的部分（例如边缘或轮廓）。

5. 二维情况：Laplacian 算子

在二维图像处理的场景下，类似的二阶导数可以推广到多个方向。我们可以分别对 x 方向和 y 方向应用上述 [1, -2, 1] 的差分算子，得到图像在这两个方向的二阶导数。然后通过将两个方向的二阶导数合并，我们得到 Laplacian 算子，其标准形式是：

$$
g = \begin{bmatrix} 0 & -1 & 0 \ -1 & 4 & -1 \ 0 & -1 & 0 \end{bmatrix}
$$

其中：

中心位置的 4 对应着当前像素值的权重。
-1 表示与上下左右像素的二阶差分贡献。

这一卷积核检测的是像素与其邻域的二阶亮度变化，从而可以用于边缘检测。

总结

总之，这个题不算拉普拉斯的推导就是easy，但是算上的话，就不太容易，我当时算出来了水平的梯度了$[-1,2,-1]$，垂直的应该也是一样的，但是把垂直的和水平的合并就不会了，合并了就是拉普拉斯算子了，后面就没啥了。

血亏

秋招携程面试分享

2024-10-15T13:42:37.000Z

一面

10.16下午一面，这次面试体验很差，面试官过去之后不开摄像头，然后先自我介绍。

然后面试官让讲实习，就讲了下，后面问了几个问题，主要是指标相比之前的业务是否有提升，还有如何判断效果如何，和之前的比较有啥区别，这块也问了几个问题。

然后是讲第一个项目，到这面试官就已经开始不耐烦了，讲完就没问问题，然后开始八股，先问了池化层是什么作用，简单回答了下，然后问平均池化和最大池化的区别，回答完问了解SQL不，我说曾经做过一点，但不是太会，然后给了个SQL题目，我确实不太会，就让改成算法题，然后简单写了下，写完喊面试官几次都不应答，后面基本也都是嗯一下答复。

然后反问了下部门，面试官说了下，然后就结束了，感觉这次面试官不太耐烦，可能是我回答的不太好，希望能过吧。

秋招荣耀面试分享

2024-10-14T14:40:37.000Z

一面

这次是预定半小时的线上面试，最后面了35分钟，总体还行，首先过去在等候线上会议室签到，签到之后等下进去特定的会议，然后查验学生证和身份证。

自我介绍，然后面试官说时间紧咱们挑三个项目讲，就挑了实习+两个横向的项目。

首先问实习，也是先介绍背景和做了啥，然后是问细节，badcase怎么处理的，用大模型做这个流程相比之前的意义和优势，然后问我是否了解多头LoRA，我说不知道。

然后问了发了论文的项目，讲完主要内容，然后细节，各个模块是如何做的，都用了什么模型，是否进行了创新，然后问是否可以优化更改，我说可以，不过成本会更高，然后面试官问是否可以那样说更好，我说可以。最后问发的论文是不是人工智能领域的，我说是的。

然后是第二个横向的项目，这个时候时间不多了，让快点讲，我就快速讲完背景和主要方法和思路，问用了什么做的，我说分割，然后问具体用了什么模型，是否自己训练了，我说用的框架啥的，进行了训练，再问了一点细节。

最后又问了我是不是会CPP，我说会一点，但不多，涉及部署的用到一点会一些。

没有手撕环节。

然后反问是问了他们部分是做啥的，都有哪些业务，后面会不会进行部门匹配，就讲了他部门，然后说后续应该还是会进行业务匹配的。

二面

二面就是主管面了，就完全不问技术了，时间也不是很长，大概也就半小时。

自我介绍完，问我将来进去想做AI哪方面的，我说之前视觉、大模型、NLP都做过，一方面看个人能力，还看行业发展趋势和需要。

问研究生期间遇到了什么困难，如何解决的。

问研究生期间什么时候压力最大，怎么解决的。

问自己的优点和缺点是什么。

然后说我填报的是上海，我说一线城市也都是可以的，年轻要多努力打拼。

然后问我期望薪酬是多少，我说上海的话要年40以上吧，毕竟是算法类，感觉是不是要的有点高了，应该说可以商量的。

最后问分配部门的情况和进去做什么的内容，说还要后续匹配。

中间还有其他问题，但是我没有什么印象特别深的，没有特别难的问题，都是之前被问到过的，回答起来也比较顺畅。

总的来说，倒是不难，没有问什么特别回答不上来的问题，第二天看还没挂，和理想一样都是二面就主管面，几乎不问技术了。

过了几天看，已经挂了，看样子大概率是我要价太高了，应该评级不到，40以上应该是ssp，但应该不到，所以直接G。

秋招科大讯飞面试分享

2024-10-11T21:56:37.000Z

一面

这次的面试和之前的都不一样，这次问的非常宏观，这应该也和我投的岗位有关，我投的是AI研发工程师，这个和之前投的大部分都是算法工程师还是很不一样的，按照他自己的说法，这个岗是做除了模型性能之外的其他事，模型性能当然是网络结构，调参，其他部分应该就包括他们做的数据自动预处理框架，机器学习平台，推理框架，还有推理引擎，吞吐量和服务部署，还有量化剪枝TensorRT、Openvino这种了。

面试首先问的还是我的最后一个项目，这个项目涉及一些CPP和量化剪枝，这个问法和前面的也很不一样，问数据从哪里来的，如何处理的，模型是用的创新性的还是网上找的，性能调优调了哪些参数，具体部署如何做的，cpp部分有哪些，量化剪枝是否自己做的。项目包括几个人，自己在其中是什么角色，最后部署服务如何做的。

然后问前面的一个项目，问这个项目是如何设计的，流程是啥样的，还是几个人，自己在其中做的啥，然后部署怎么做的，这个具体涉及几个部分，我就讲了讲这个服务的设计和数据的流程，最终部署上线的情况，在其中如何根据具体的场景做了针对性的改进。他还是问了问这个平台包括什么部分，我做的具体是那块的平台还是其中的一部分，这块讲清楚之后就问部署之后各个模块之间如何写作，http服务如何做的，都传递哪些参数。最后问了问最后的推理时间是多少，我说了后面试官问是否想过要进行性能优化，我说项目没要求就没做。

然后问第一个项目，也是问了问pipeline包括几个模块，也是不问模型本身的那些八股，然后我说这块没有多少创新，主要是根据任务设计了利用几个模型连起来做了个系统，然后问这个东西最终是否投入使用，我说这个是最终上线了，然后就是关于系统本身的一些问题，这块没有问太多。

之后就是几乎每个面试都会问的实习经历了，这块问了不少，关于前面的机器学习系统是如何做的，大模型是如何做的，他们之前的业务流程是什么样的，我做了之后业务流程是什么样的，评价指标是什么。然后是最经典的问题，和机器学习模型相比效果如何，然后是关于业务相关的一些问题。

最后问了问我是否了解python的gc，我说不太懂，然后问了一个东西我没听过，之后问多线程协程，我说这块我处理数据的时候用过，但是没有仔细研究过，然后是给了一个小场景题，有6个cpu，然后一个几百张图片需要处理，如何设计，一个进程和cpu之间的关系对应，这块我就完全不太懂了，这块跟我前面做的还是很不一样的，特别偏向底层了。

然后是反问，我就问了问算法工程师、AI工程师、AI研发工程师有什么区别，然后这块大致讲了讲，就结束了。

总的来说，关于模型部署和系统底层这块我了解的还是不太多，关于量化剪枝部署这块还是要好好学习一下，毕竟从纯算法角度我可能优势不大，这次面试关于这块问的还是挺多的，回答的不太行，感觉面试官也是有点失望的样子，不过这次面试问的问题还是很有意思的，也是我之前没有接触过的。

不过没想到的是一面竟然过了。

二面

10.17晚上七点二面，面试官也很忙，面试首先自我介绍，然后跳过了实习，直接问哪个项目认为做的比较深，然后我就讲了第一个项目，从头讲到尾，然后也是不问模型细节，而是关注流程，然后是问效果，还有怎么部署的，然后我就讲了下fastapi和flask启动服务这些，涉及推理部署这块做的不多，但是整体流程还是都做过的。

然后是问大模型方面都做过哪些，然后我说实习，就讲了下实习做的工作，第一个点讲了一些，也问了数据，评价指标，和之前的对比效果如何，等等，第二个点没讲完面试官就不让讲了，然后问其他还做过哪些，其他的我倒是没怎么做过，也是学了相关的知识。

然后是问我后面说的做了RAG相关的，就问让我讲讲，我大致讲了下概念和应用，优劣啥的，然后面试官问向量表示这些工具了解如何，这块我只能简单的介绍了下那些milvus、chroma、faiss这些我了解的不是很多，没有系统的研究过。

然后问Cpp了解的如何，这块我也是初步会用一些，但是不多，然后问我会不会Java、Golong这些，这些开发的我自然是不会的。

然后问我是想做哪方面的，是效果还是效率，效果就是模型调优，效率是机器学习平台、推理框架这种，我还是更喜欢效率这块，毕竟在学校做改网络调参的活我是不太喜欢的。

然后是问我对于挑选工作offer看重哪些地方，我说从公司的长期发展、个人具体做的事情和内容、薪酬这些角度来说，然后面试官问我期望薪酬是多少，我说这个要看城市，综合多家比较来看，大城市更高一些，生活成本也是要考虑的。

然后问我对科大讯飞了解多少，我说语音这块做的比较好，问其他，我说星火大模型也了解一些，然后从未来发展角度来说，语音这个业务总体还是很看好的。

然后说我github还经常更新，我说有博客，之前会写一些技术博客，现在主要是面试复盘。

然后反问，我就问了部门具体的内容和技术栈，这块大致说了下，然后就结束了，然后面试官说会综合一面和二面的情况，等HR联系。

秋招拼多多面试分享

2024-10-10T15:03:37.000Z

先说十一期间，十一当天下午阿里达摩院发消息要一会直接面试，我说下午有事，能否改成明天早晨，然后改完一会，面试官说要不你先笔试吧，我看笔试都已经10.12了，感觉不妙，也只能这样了，然后10.10直接被终止流程了，笔试被取消了。虽然达摩院我肯定去不了，但是这样一个笔试和面试的机会直接无也还是很难受，看来面试笔试尽量还是别推，不然一不小心直接无就难受了。

说到这不得不说科大讯飞了，九月中的线下面试，提前打电话说线下没有我这个岗的面试官了，然后说后面线上，结果过了三周了都没动静了，估计那边也不缺人了吧，应该也是直接g了。

一面

拼多多这次面试我面的也比较一般，过去自我介绍完然后开始问实习的内容，讲完之后开始问细节，大模型测评用的什么标准，具体是什么，如何衡量好坏，样本构造正负样本如何设置的，效果如何评价，然后我说主要用的精确率，极度不平衡的情况下结果是否有可参考性。对语义解释部分如何正则化提取，遇到无法提取的多吗，有多少，如何处理的。

然后是问的LoRA微调是否了解，原理是啥，如何做的，显存和速度是否有提升，如何体现，在推理过程中显存和速度是否有提升。

然后是八股，问我微调用的什么模型，我说盘古智子，然后让我讲下模型结构，这块我说都差不多，简单说了下，但是说的不详细。然后问我是否了解注意力机制，这块大致讲了讲，不是很细，然后追问QK相乘为什么要scale，为什么除以根号下向量长度。然后问大模型处理的整个流程是什么。

最后手撕，先给题目，然后说完思路再做，这次是依次给了两道题。

第一道是有1，2，5三种硬币若干，求组成价值为21的组合有多少种，这是个背包问题，用动态规划做，然后面试官问了问初始化1什么意义，两层循环是否可以调换。

第二道题是实现一个开根号的函数，保留n位有效数字，这个题目我写了，不过好像有一点小问题。面试官问了我是否确认这个能实现这个功能

最后问我是否了解拼多多的工作强度，是否可以接受，可以。然后反问，我问了问部门具体做啥，他们具体根据商家和客户需求找到可能有问题的，然后及时给出平台的措施，也是结合多模态的信息处理，涉及推荐。然后就结束了。

总体来说感觉面试中答的比较一般，好多问题都准备的不太好，感觉这次面试也是G了。

秋招滴滴面试分享

2024-09-27T20:20:37.000Z

一面

这次面的滴滴，刚好赶上交大线下双选会，就在交大的楼里面了下，面完十分钟就过了。

过去自我介绍完之后，面试官就问了下我之前的实习主要做的内容，也问了不少细节，不过大体也答了上来。

然后问了特征工程是如何做的，具体这块我讲了下数据预处理和筛选相关这些，实际场景一般怎么做的。

问是否做过大规模的分布式的数据处理，我说实验室没有这个条件，这块估计问的可能是hadoop这种，理论估计还是要了解下。

然后问了一些八股，过拟合如何处理，需要如何调节。

LoRA微调是什么，需要调节什么参数，啥时候调节啥参数，为啥要这样调节。

最后是手撕一道算法题，这个是个场景题，题目还很长，已知n个员工每个员工的工资，钱币有100 50 20 10 5 1六种，每个员工的工资都是这六种钱币的组合，现在要找出这n个员工的工资的组合，使得这n个员工的工资的组合的钱币数量最少，然后手撕了出来。

面完三天写的复盘，面试的时候问的哪些已经忘得差不多了，看后面约二面的时间。

二面

10.17二面的还行吧，过去自我介绍完让我选一个印象最深的项目讲，我就没讲实习，讲了第一个项目，然后就问细节，这块问的也挺多的，比如路线是啥样，相比传统方法的优势，遇到了什么问题，怎么解决的，这些都问了。

然后是八股，问了几个问题

YOLOv1到现在v11都有什么变化，大致说了说变化和大体的结构框架。
遇到过拟合欠拟合的时候如何做的，我讲了下小模型情况下从数据、预处理和增强方式、模型、训练方式这些展开讲了讲，还讲了大模型情况下LoRA调节遇到的如何解决这些问题。
优化器用的什么，如何调节的，我就从梯度衰减和优化器自动调节这些展开讲了讲。

然后是手撕阶段，出了一个题，给定一个字符串s和一个字符串数组words，（串联字串是指words中所有字符串以任意顺序排列起来的，而不是words中所有元素随机排列），然后求串联字串在s中的起始位置，我就用滑动窗口解决了。

然后就反问，问部门有哪些需要和技术栈，面试官就讲了下部门情况，然后问我有没有其他offer，我说有几个在排序中，然后就结束了。

秋招理想面试分享

2024-09-25T19:00:37.000Z

一面

开始投的机器学习，最后被调到LLM了，本来以为会问很多大模型八股，实际也没有那么多，还行，面试了38分钟。

过去首先自我介绍，然后开始问算法八股，第一个是介绍一下特征工程，我就先从传统特征工程来说的，然以在面试官的提示下也说了数据预处理相关的内容。问RNN、LSTM、Transformer的区别，这块是经典八股了，差不多答了。

然后是问大模型的实习具体做了啥，这块我讲了好多，感觉后面面试官都不是很耐烦了，毕竟这块东西还挺多。然后是经典的问题，既然机器学习方法能做，为什么用大模型做，这块大致答了下。然后面试官问了解CoT不，我说了解一点，面试官说这个任务也是可以用CoT来做的，然后我也简单回答了具体做的相关性。

最后是手撕，给了个经典题，word1到word2最少的操作，插入、删除、替换，然后手撕了出来。

最后反问，问部门做啥，不同岗位之间的区别和调整，面试官说虽然这个岗是LLM，不过还是有很多机器学校方法等的内容，然后就结束了。

总体答的大差不差，不过感觉有一点KPI面，不过也可能是我自己感觉的，毕竟面试官也是很忙的。

二面

10.23二面，面了差不多40分钟吧，这次面的感觉还行，这次是主管面，没怎么问技术。

过去自我介绍完，然后面试官说视觉做的多，我说大模型这块也做了一些，就问目前主流都有哪些大语言模型和视觉大模型，大语言模型我大致介绍和点评了下，然后视觉大模型就不太了解了，多模态大模型简单说了一点。

然后问我更想做大语言模型还是视觉大模型，我这块犯了个忌讳，我说他们底层都差不多，其实CV和NLP差别还是过大了，直接说差不多还是不太合适，这块我又解释了下我都能做，这块回答的不太好。然后我说的目前技术栈偏向大语言模型，但是从长期发展更看好视觉大模型，视觉大模型的发展还处于比较早期。

然后是问关于大模型如何赚钱落地和商业模型这块如何看待，这个问题就比较宏观了，就不是技术，而是如何赚钱了。这块我首先谈了下RAG、Agent啥的，面试官说不是技术，而是盈利模式这块。我就大致谈了谈目前大模型各行各业的应用，然后说了下商业模式的一些看法，对于个人、开发者、以及做产品的角度如何看待，关于做产品我还是从交互方式的角度谈了下，大模型可能和新一代的硬件，改变交互方式有关。这块的回答应该还是很不错的，面试官说本来前面的回答让他很不满意想直接给我挂了，但是这个回答他还是很高兴的。然后就是谈了下这个关于这个领域和行业发展后面可能的一些方向之类的，这块感觉还是很不错的。

然后还是聊关于部门内部两个细分大语言模型和视觉大模型的组，面试官说视觉大模型这块都是博士和院士团队在做，我履历达不到，所以进去还是会给我安排大语言模型这块。

然后反问，我就问的我过去是否需要什么技术上的学习和准备，面试官说不用，反正进来还是会有相关培训，然后就结束了。

总体来说，面试前面面的不太行，中后期回答基本还算可以，感觉还是有希望的。

HR面

11.27面直接过过了，然后问问题。

是理想北京，是否接受
毕业时间
西电本硕否
是否都全日制
是否签三方
薪酬保密，给不错的薪酬，年终奖
六险一金
工作时间和加班情况
租房情况
有食堂需要自费
工作内容和晋升机制
是否有末位淘汰
家乡在哪，是否支持
加微信

秋招蚂蚁面试分享

2024-09-24T20:40:37.000Z

一面

昨天有人加我，说是网商银行的智能引擎部门，主要基于蚂蚁集团大规模数据结合大模型，提升数据的感知和认知能力，帮助千万小商家的信用成长。部门包括多个NLP、大模型、时序和图方向，技术自由度高，且有业务价值。

然后约了今天上午的一面，今天上午到点是个电话面试，之前还没电话面过。面试首先自我介绍，然后主要讲实习的工作，他们这边应该是大模型比较相关的，所以实习相对契合一点。然后就开始非常细致的讨论实习做的内容，包括很多细节，文件如何处理的，如何表示的，如何训练的，任务是怎么样的，系统的架构，用了哪些机器学习方法，改进使用大模型的意义都有哪些方面，还有如何微调的，用了哪些方面，具体参数如何调整和设置的。然后问到LoRA，问为什么用，原理是什么，需要调整什么，啥时候怎么调整。总之这个问的细致程度基本是其他面试二面的强度，深挖一个项目，还是非常深入的。

然后面试官说看你简历里面有了解RAG相关内容，然后开始问相关的问题，原理是什么，为什么用RAG，解决了什么问题，还有相关的一些问题，最后问到向量表征都有哪些方法，如何做的，这个确实不是很懂，没怎么研究过。

然后反问，问了下后面有几面怎么安排，然后就结束了。后面看果然G了

秋招快手面试分享

2024-09-23T17:11:37.000Z

一面

这次面试的岗位是机器学习算法，面了一个小时，这次面试也算有质量。

过去先简单自我介绍，面试官说你这专业算计算机是吧，那计算机相关的理论你应该会，我说我专业属于计算机，不过学的还是偏向电子信息，然后让讲一下堆和栈的区别，这块没怎么讲清楚，只是简单讲了下定义，这块应该从内存中的开辟使用管理啥的开始说的。毕竟这块也是算基础吧，还是要准备下的，前面这块的都没背。

然后面试官说有论文，是不是人工智能领域的，我说是的。让讲一下论文，然后我翻出来自己的论文，从前到后讲了一遍，不过前面部分我用的时间太多，讲的有点乱，后面讲的就挺快了，讲完面试官说讲的有点乱，听的不是很清楚。

然后说去实习了就讲下实习的内容，然后我大致讲了讲，面试官简单问了两个小问题，比如效果不好的时候，如何判断是哪里的问题导致的，怎么改正。

之后面试官说给个数学题你想下：一个圆上取三点，构成锐角三角形的概率是多少，这个我尬住了，想了半天没思路，然后面试官说构成直角三角形的概率是多少，然后再到锐角，最后还是没回答出来。这块答的感觉不太行，没有体现出遇到未知问题解决问题的能力，这个思考过程不够清晰。

然后让手撕一道题，找无序数组中第K大的数，这个是一个很经典的题了，我用python堆来做的，写出来自然很简单，写完面试官说你用库实现的太简单，要不换个方法，然后说要不你自己用数组实现一个堆，然后我写不出来，又尬住了半天，然后面试官说让用快排的方法写，写了出来了。

然后反问环节，问他们部门具体做啥，然后哪方面的，说是搜广推的，还有一点具体的方向，然后刚好一个小时，就结束了。

然后晚上看，果然已经挂了。

秋招合肥安迅精密技术面试分享

2024-09-23T14:15:37.000Z

一面

这次面试的岗位是图像算法工程师，就面了15分钟7秒，特别短，面的不太行，应该也G了。

过去先自我介绍，介绍完之后面试官说看你简历里面有cpp，面试官说你会C++是吧，然后我说我只是在前面的一个项目中用到了一点，也是去年初了，后面几乎没怎么用到，所以也不是特别会。然后问CPP基础，第一个问题问值传递和引用有什么区别，第二个问题问虚函数定义是什么，这些都不会，毕竟cpp真很久不用了。

然后问其中一个项目，问是怎么做的，讲了讲，然后问做了什么创新点，当然是没有，把技术路线讲了讲，问这个项目的难点是什么。之后又问了一个项目，这个也问的不多，简单问问就够了。然后问训练模型都调节什么超参数，过拟合和欠拟合如何处理，注意力机制是什么。

然后反问，问他们这边是偏应用还是开发啥的，说开发的多一点，很多地方要用cpp，所以这块比较需要。

这个才是目前线上问的时间最短的，实习都没问，毕竟这边是图像算法。感觉不是很契合，第二天通知果然挂了。

秋招比亚迪面试分享

2024-09-22T19:20:37.000Z

一面

这次是线下面，就在南校区C楼面了，过去也不用叫号啥的，就是随便看人自己排队，这个面试就是人事面，相当于填简历的面试。

过去先看证件，给简历，然后看本硕学历证明，成绩单，四六级，还要本科的成绩单，我没打印，就给记录上没本科成绩单，然后问有没有挂科，当然没有；然后挨个问，问完记录，就是纯粹当面填简历信息，问论文，然后把英文论文翻译成中文录进去，问简历号，然后是竞赛有啥，然后记录专利是啥名字；然后挨个问项目是做的啥，记完名字一句话描述做的啥，然后录系统，挨个问完之后问编程语言，然后是研究方向是啥，也是简历上有的信息。

然后问了问实习，她好像都没看简历，简历上写的有实习，他还问我有没有，我给他指出来她才看到然后对着把信息填系统。

问完这些然后问家是哪里的，父母是什么工作，将来想去哪里工作，将来想做啥方面的，我说人工智能这块都比较通，这块都可以做。

后面还是说本科成绩单的事，所以只好加上微信，后面发过去，然后反问，问他们后面有几面，是不是分配，说一面是人事面，二面技术面，然后也是根据人匹配岗位啥的，然后就结束了。

后面就发现挂了，进入人才库。

后面10.10被软开捞了，电话打过来问对开发有没有兴趣，我完全没有学过开发，前后端啥的完全不会，问cpp的也不太会，问了数据结构，还有堆栈、ArrayList、LinkedList这些就问了一二十分钟吧，然后就完了。

然后10.15就直接给offer了，但是13k，这个价在深圳只能说有点离谱，*1.36也没有太大意义。

offer是高级系统开发工程师。

秋招得物面试分享

2024-09-22T02:40:37.000Z

一面

这次面试进去面试官就说时间紧，咱们尽快，晚上七点半的面试，看起来这公司还是要加班很多的。

进去先自我介绍，然后问了我最后面的一个项目，谈谈做的啥，然后问了下细节，数据处理，标注，处理啥的。然后问有啥项目感觉比较有内容的，然后我说了下第一个项目，讲讲背景和具体怎么做的，讲了一些，但是创新性不够，问这个项目的难点在哪里。后面又问了问实习做的啥，然后我就讲具体做的什么，这块也追问了一些细节，然后没讲完，面试官就说时间不多了，然后反问，我问进去是做啥，他说一面只是初筛，具体的方向和部分还是会具体分配，然后就结束了。

总的来说，得物这个一面是目前线上面试的里面时间最短的，没有之一，部分线下面试有不超过半小时的，这个面试都不到半小时，就问了下项目和实习，没有八股和手撕部分，像淘天这种，八股和手撕是主要，风格还很不一样，不过我八股和手撕都准备的不太好，所以这种风格也不能算太差吧，至少比手撕不出来好。

面完后面看果然已经挂了。

秋招淘天凉经

2024-09-19T13:14:20.000Z

一面

9.19面试的，前面投实习的时候再加秋招前面简历挂了好多次了，这次面的时候就感觉大概率也g了，果然面完半小时就挂了。

面试过去首先面试官介绍了他们部门是做什么的，然后我做了自我介绍，然后面试官说给你三十分钟，让手撕三个力扣题，第一个是写一个查找字符串数组中的最长公共前缀；

def longest_common_prefix(strs):
    if not strs:
        return ""
    
    # 取第一个字符串作为基准进行比较
    prefix = strs[0]
    
    # 遍历数组中剩下的字符串
    for s in strs[1:]:
        # 逐渐缩短前缀，直到找到公共前缀
        while s[:len(prefix)] != prefix:
            prefix = prefix[:-1]
            if not prefix:
                return ""
    
    return prefix

# 测试用例
strs = ["flower", "flow", "flight"]
result = longest_common_prefix(strs)
print("Longest common prefix:", result)

时间复杂度：O(S)，其中 S 是数组中所有字符串的字符总数。在最坏情况下，算法需要逐个字符比较每个字符串的前缀。
空间复杂度：O(1)，除了输入数据外，额外使用的空间主要用于存储前缀。

关于这点我就说的很差，时间空间复杂度说的完全不对，我还以为是$O(mn)$， g

第二个是找出数组中所有可以使得数字和为target的组合，每个元素只能出现一次；

def combination_sum(nums, target):
    # 先对数组排序，这样可以更容易地进行剪枝操作
    nums.sort()
    result = []

    # 定义回溯函数
    def backtrack(start, path, remaining_target):
        # 当剩余的target为0时，说明我们找到了一个有效的组合
        if remaining_target == 0:
            result.append(path[:])  # 将当前路径加入结果中
            return
        
        # 遍历从当前索引开始的每个数字
        for i in range(start, len(nums)):
            # 如果当前数字大于剩余的target，则无需继续搜索
            if nums[i] > remaining_target:
                break
            
            # 为了避免重复的组合，我们跳过相同的数字
            if i > start and nums[i] == nums[i - 1]:
                continue

            # 选择当前数字，继续递归搜索
            path.append(nums[i])
            # 递归，i + 1表示每个元素只能使用一次
            backtrack(i + 1, path, remaining_target - nums[i])
            # 回溯，撤销选择
            path.pop()

    # 调用回溯函数
    backtrack(0, [], target)
    return result

# 测试示例
nums = [10, 1, 2, 7, 6, 1, 5]
target = 8
combinations = combination_sum(nums, target)
print(combinations)

时间复杂度是指数级的 $O(2^n)$，属于递归经典的时间复杂度了，我这里说成了$O(N^2)$，明显的直接g了，这里的空间复杂度好像不太好算，应该是$O(k*2^n + n)$， k 是每个组合的平均长度， n是数组的长度。

第三题是一个链表数组，其中每个已经按照升序排列，合并成一个升序链表。写完后说时间和空间复杂度，这块没说清楚，对于第三题，问我为什么用堆，有什么优势，堆的几种基本操作的时间复杂度是多少。

import heapq

# 定义链表节点的类
class ListNode:
    def __init__(self, val=0, next=None):
        self.val = val
        self.next = next

def merge_k_sorted_lists(lists):
    # 创建一个最小堆
    heap = []
    
    # 将每个链表的头节点加入最小堆
    for i, lst in enumerate(lists):
        if lst:
            heapq.heappush(heap, (lst.val, i, lst))
    
    # 哨兵节点，用于构建最终的合并链表
    dummy = ListNode()
    current = dummy
    
    # 进行堆的操作，直到堆为空
    while heap:
        # 弹出堆中的最小值
        val, i, node = heapq.heappop(heap)
        
        # 将弹出的节点连接到最终结果链表中
        current.next = node
        current = current.next
        
        # 如果弹出的节点还有后续节点，将它的后续节点加入堆中
        if node.next:
            heapq.heappush(heap, (node.next.val, i, node.next))
    
    # 返回合并后的链表
    return dummy.next

# 测试用例
# 构建几个升序链表
list1 = ListNode(1, ListNode(4, ListNode(5)))
list2 = ListNode(1, ListNode(3, ListNode(4)))
list3 = ListNode(2, ListNode(6))

lists = [list1, list2, list3]

# 合并链表
merged_list = merge_k_sorted_lists(lists)

# 输出合并后的链表
while merged_list:
    print(merged_list.val, end=" -> ")
    merged_list = merged_list.next
print("None")

第三题这个不算特别难的，感觉比第二题还好一点，但是对于堆的相关概念说的不是很清楚，这个时间复杂度是$O(Nlogk)$，N是所有链表的节点总数，k是链表的个数，空间复杂度是$O(k)$，k是链表的个数。

然后让我讲下transformer结构，大致说了下，然后问transformer相比RNN有什么优势。这块实习的时候淘天就问过这个问题，当时说的模糊，思路不是很清晰，现在秋招了这块也没怎么看过，仍然说的不是很清楚，八股还是要背的，这种基础知识都说不好的肯定不行。

GPT总结了一些：

并行计算能力
RNN：RNN 是一种序列模型，必须按时间步依次处理输入数据。也就是说，第 t 时刻的输出依赖于第 t-1 时刻的计算结果，因此不能并行化处理序列中的元素，这导致训练时间较长。
Transformer：Transformer 利用自注意力机制（Self-Attention），使得每个输入位置的处理可以与其他位置的元素并行进行。这意味着 Transformer 能够在同一时间处理整个输入序列，从而大大加快了训练和推理速度。这种并行化特性使 Transformer 非常适合在 GPU 上运行，尤其对于长序列，训练速度相较 RNN 显著提升。
捕捉长距离依赖关系的能力
RNN：RNN 的主要缺点之一是难以有效捕捉长距离依赖关系。由于其每个时间步的状态依赖于上一个时间步的状态，随着序列的增长，长距离的依赖可能被遗忘（梯度消失问题）。虽然 LSTM 和 GRU 在一定程度上缓解了这个问题，但仍然存在限制。
Transformer：通过自注意力机制，Transformer 可以直接建模序列中任意两个位置之间的依赖关系，无论这两个位置相隔多远。这意味着 Transformer 在处理长序列时，能够高效且准确地捕捉长距离的依赖关系，而不会像 RNN 那样受到序列长度的限制。
消除递归结构，提升效率
RNN：RNN 的递归结构需要依次处理序列中的每个元素，这种顺序性导致模型无法并行执行，尤其在长序列任务中，RNN 的训练和推理效率较低。
Transformer：Transformer 通过完全消除递归结构，取而代之的是基于全局自注意力机制的并行计算，这大大提升了计算效率。每个位置的输出只需通过矩阵运算来计算，无需逐个时间步依赖前一个输出，极大地提升了效率。
更好的记忆和上下文捕捉
RNN：RNN 的记忆是通过隐状态（hidden state）来传递的，每一步的状态依赖于前一步的信息传递。这种方式在处理长序列时会因为过多的信息传递而产生信息损失，导致模型难以保留远距离的上下文信息。
Transformer：Transformer 使用自注意力机制，使得每个词或元素能够直接与其他所有元素建立联系。这种全局视角能够让模型在同一层次上捕捉到整个输入序列的全局信息，从而更好地保留上下文信息。
避免梯度消失问题
RNN：RNN 依赖于逐步传递的隐状态，训练时容易遇到梯度消失或梯度爆炸的问题，尤其是在处理长序列时，梯度的传播会变得非常困难。
Transformer：Transformer 没有依赖于序列传递的隐状态，而是通过自注意力机制和前馈神经网络来计算输出。这样就避免了在长序列上梯度消失或爆炸的问题，训练更为稳定，尤其在长文本或长序列任务中表现尤为显著。
更强的表示能力
RNN：RNN 只能通过顺序计算来处理序列信息，这种线性的计算方式在处理复杂序列依赖时可能有局限。
Transformer：通过多头自注意力机制（Multi-Head Attention），Transformer 可以从多个子空间同时处理信息，每个注意力头关注不同的信息模式，增强了模型的表示能力。多头自注意力机制允许模型同时关注输入序列中的不同部分，获取不同层次的特征。
适应性更强的输入表示
RNN：RNN 的输入表示是通过序列顺序传递的，缺乏对输入元素之间关系的灵活表示。
Transformer：Transformer 通过**位置编码（Positional Encoding）**来为序列中的每个位置引入位置信息。这种设计使得 Transformer 在处理文本等有序数据时，不会像 RNN 一样依赖于输入的顺序，还可以灵活适应各种输入长度和结构。
更容易并行扩展
RNN：RNN 的递归结构天然不适合并行处理，尤其在训练非常深层的 RNN 模型时，计算资源的利用效率较低。
Transformer：Transformer 的并行性和层级结构使其更容易扩展到大规模数据和模型，特别适合深层模型的并行计算。因为没有递归关系，Transformer 可以利用 GPU 进行大规模的并行计算，大幅提升训练效率和处理能力。
更适合预训练和迁移学习
RNN：尽管 RNN 可以在特定任务上进行预训练，但其能力有限，尤其在处理大规模数据和迁移学习时，效果不如 Transformer。
Transformer：Transformer 的架构非常适合大规模预训练模型，如 BERT、GPT 系列。这些模型通过在大规模数据上进行无监督预训练，能够很好地迁移到各种下游任务中，并且预训练的表示可以用于不同领域的任务，大大提高了模型的泛化能力和迁移学习能力。

之后是问简历上的实习经历，大致问了下，讲了背景，然后说具体是做了哪方面的工作，经典的一个问题就是，这个任务用大模型做有什么优势，这块我说我就是预研的一个探索，用大模型端到端的做这件事，实际上需要的数据什么的还是用的传统方法获得的，这块其实这样说还是不太好。另外涉及具体的工作，他们这边好像也是有做类似的东西，但是我也没讲的很出彩，然后中间问到了一个问题，我听的不是很明白，面试官就没什么兴趣了，我这块还没说完然后差不多就一个小时了，就让反问，然后就结束了。

面完就感觉不行了，过一会去看就挂了，淘天还是这么喜欢让手撕代码，这块还是要准备下。总之投实习的时候就淘天面的最差，现在秋招了，淘天还是面的最差的，问题还是有很多，面完要复盘总结经验。

秋招中兴面试分享

2024-09-18T16:46:37.000Z

一面

这次面试是秋招正式批的第一个线下面试，问的比较浅显，我查了下，一面应该是技术面，不过好像技术的东西问的不多。

过去首先检查学生证和身份证，然后给简历，自我介绍，然后就要看成绩单，问有没有论文，我说有论文，之后让介绍实习做了啥，难点是啥，大致说下我的工作。其他的项目都没怎么问到。

然后问我是想做哪方面的，是大模型研发微调还是应用，我说尽可能的偏向研发，然后问从哪个项目可以提现这个能力，我说前面做的项目应用的比较多，但是倾向还是偏向更技术一些的。

然后反问，然后我问了问部门是做啥的，他说看我意愿分配到适合的部门，面试二十多分钟就结束了，也没有力扣环节。

二面

一面完很快就发了二面的预约，9.18 上午的面试，这次人巨多，等了好久，过去还是先检查学生证和身份证，然后给简历，自我介绍，这次涉及技术的更少了。问了爱好，实习的收获有哪些，然后我就详细讲了讲这块关于实习和在学校。

之后是问对中兴了解如何，如何看待加班，期望薪酬是多少，有没有其他的offer，我说了下，然后问我有没有问题，我问了问部门是做啥的，然后面试官说一面没问吗，确实没问，然后问意向地点去哪里，我说杭州或者北上广深这种一线城市，大致也就这些。

没想到面这么随意，后面就挂了，进入了人才库

秋招美团机器学习面试分享

2024-09-12T00:14:37.000Z

一面

这次面试是秋招正式批的第一个面试，八股什么的也都没有准备，就直接开始面试了。

首先介绍一下自己，介绍完之后问实习的经历，然后我就讲了讲业务背景是什么，自己在里面干了什么，但是面试官应该不是做这个的，所以也不是很感兴趣。

然后开始问我的第一个项目，这个发了论文的，问这个项目是背景和做了什么，问了下细节，把大致的流程讲了差不多，然后问这个项目的难点是什么，这个我倒是没有怎么总结，因为都没有说很难的地方。

然后面试官开始问八股了，YOLO相关的内容，按说我做的视觉项目比较多，这块应该比较懂，不过这块确实很久没看过了，连续问了三个问题回答的都一般，首先让我讲yolo的大致结构，我讲到提特征用darknet，然后讲为什么用darknet不用resnet，这块我就已经忘了，然后讲池化金字塔融合有哪些形式是什么样的，我就简单讲了下，也说的不是很清楚，然后后面的模块简单说了下，之后问发展过程的演变我也是只简单说了下。然后问了下yolo的图像增强方法都有哪些，我简单说了一两个，不太行，回去还是要准备下。

之后是问第二个项目是做什么的，然后我大致讲了下背景和具体怎么做的，然后这块也没有问太多，毕竟这个含金量也不是很高。

之后就直接让手撕了，这次考的题目是求最长的斐波那契数列子序列的长度，想了会也写了出来。

然后是反问环节，我问了问他们部门具体是做什么的，然后这块我也简单聊了聊3dgs和无人机相关那些东西，然后面试官说感谢你的参与，然后就结束了。

二面

9.18号下午三点的面试，这次面的挺延伸的。

过去首先自我介绍，然后让我挑一个认为做的深的项目讲一下，我就讲了下第一个项目，然后首先讲背景，这里就讲了好久，我说这个可以降温增效，面试官就要很清楚的了解，到底降低了什么成本，是在性能的改进，还是成本的改进，还是时间的改进，这个明确之后，才继续讲。然后是讲技术方案，这块也是细致的扣，技术如何这样做会不会有误差，如何保证，具体怎么做。然后是问认为这个项目的难点是什么，我说主要是把这个整个体系实现出来，然后大致讲讲如何看待这个事，是因为在学校和公司的差异。之后就是一个问题，关于测量的真实值如何获得，我简单说了下。然后是开放性问题，问给很多很多钱的情况下如何找到精准真实值，我说找很多专业人士，然后用好的仪器，然后面试官问还有啥，我说不知道了，然后面试官给了点提示，无人驾驶的，然后我说多模态融合激光雷达什么的，也算是答的差不多。后面也是开放的聊了一些。

之后是代码环境，要求实现一个容器，其中两个函数实现增加元素和删除元素，然后一开始懵逼，提示了下大致写了下思路，时间不够就把大致怎么实现的说了下，也算是差不多说清楚了，就是代码写的还不太完整。

总体来说，这种很延伸的还是很难的。

秋招提前批百度机器学习/数据挖掘/自然语言处理工程师面试分享

2024-08-06T01:03:37.000Z

一面

今天周一我六点多下班就回来面试，面试官首先让我自我介绍，然后我自我介绍完，然后是简单问一下我项目情况以及简历上各种内容的情况，然后展开论文讲解，然后我就把论文的背景和内容，然后创新点什么的讲解了一下，然后突出自己的优势，做的比较多学习新东西比较快。

然后问了问自己在华为实习，这段时间都做了什么？然后我也是简单讲了讲背景，然后讲自己在做的东西这块儿内容有些单薄，后面要丰富一下，这块儿我都没有怎么准备，所以说着坑坑巴巴的。

然后面试官问自己，在之前遇到什么困难，然后怎么解决的，然后我就换方向这个内容展开讲了讲，说之前遇到这些困难，当然现在解决了，现在做新东西学东西新东西都挺快。

然后面试官说让手撕代码，然后我说这块儿还没怎么开始准备秋招，然后给了一个题，对于一个长度为六的链表，然后如何反转456项，然后我就按照最简单粗暴的方法，然后他说长度不定，用通用的方法来做，然后我就用一般的方法做基本思路，还是说出来了，先找到一半的节点的头节点，然后面试官说，既然有思路，那就让本地IDE写了。我简单写了写，然后卡住了，翻转这块。想了一会儿，想出来了，这块儿也花了一会儿，还是不是很熟练。

然后面试官问还有什么想问的，我看面试官都有点不耐烦了，然后简单问了问他们部门儿是做什么的，然后因为我投的是语音部门，所以感觉还是不太match，最后说完面试官说感谢你的参与，全程面了一个小时，这样回答感觉大概率是G了，问题不大就第一场，后面还有机会慢慢准备先把实习做好。

2024.8.19二面

这次面试问的非常细，让自己选一个项目，然后深挖。首先讲了讲自己的项目大致背景、流程、以及主要用到的模型，然后提问这个数据是什么，要提特征，然后讲用了什么模型，模型输入输出是什么，架构是什么，我简单说了之后面试官让详细讲，我就讲了讲思路，但是整个模型的结构就忘了。之后问主体模型是啥，输入输出，架构是啥，为啥用这个模型，然后这个模型是单向还是双向的，为什么，然后单向双向网络有什么区别，感觉可以从模型设计的区别和代理任务的区别展开。然后问了问，这个项目你做了两年了，现在回过头来看，你会用什么来做，如何设计训练，输入输出是什么，预训练的话用什么做，对应的任务如何设置。这些还是挺难的，而且还不是那种能查出来的问题。

然后问了问未来发展如何想，是只做算法还是什么，然后我说因为本硕都学的这个，所以选这个感觉适合，后面做其他的学习能力也很强可以快速学好。

然后是简单的编程，写一个排序算法，然后我写了个插入排序。

最后是提问，我问了我部门做啥，具体什么场景。

2024.9.2三面

二面完本来约上周，但是上周都抽不出时间，只好这周，还是周一。这次面试主要还是聊聊天，首先做自我介绍，然后就问实习这段时间有什么收获，和学校有什么不同，我说一方面是技术上的，另一方面是从学生到职场转换这一过渡；在学校是一个人做项目，在企业分工合作做一个大的，然后问这两个哪个好，我说看根据具体的项目来定，大项目合作分工，小项目单人做。然后就是聊现在技术发展趋势和未来职业规划，我说跟着时代趋势走，同时积累自己的核心能力，然后面试官就在说时代趋势和语音这块发发展。
后面到反问环节，我问部门主要做什么，然后主要就是语音交互，相关的技术。最后我问了问部门升职和培养机制。

其他还问了有没有拿到其他offer，投了哪些了，我就如实说，还没offer，也基本没开始投。

总的来说，比较偏向于聊天，但是具体要不要我真看不出来，希望能过吧，然后就说联系HR了。后面如果过的话应该就进池子了，不知道啥时候能泡出来。

2024.12.17HR面

本来以为开不出来了，没想到打电话过来，首先问我签了哪里，我说已经签了一家中厂了，并问了问方向，然后问了问毁约到什么时间可以。之后问了问我后续投递计划以及现在的年终奖月份了。

然后问我是否还有其他offer，之后问我关于方向的问题，以及预期薪酬。

第二天就给我确定了薪酬和工作内容，让我等着发offer就行，审批中，之后过了几天offer就发下来了。

腾讯AI Lab暑实面试分享

2024-05-28T10:59:37.000Z

面试前的内容

本来投的计算机视觉，但是一直在简历筛选中，5.26我看腾讯实习都快结束了，视觉这块肯定做不了，改投了机器学习，然后昨天就接到了约面，今天上午面，腾讯的算法好像就叫技术研究-机器学习方向。

面试

面试首先让做自我介绍，之后让选一个项目深入讲解，我做的通用项目比较多，然后大致概括了下，之后选了一个项目，然后问这个项目做的啥，技术亮点是啥，这里问的也是很细，然后我说主要还是任务上应用到这个领域，然后问如何衡量效果，设计什么指标，效果如何，误差是多少；然后是问数据量多少，是否足够，如何判断数据量足够，质量如何，进行了什么预处理；讲具体用了mmseg这个框架，然后问具体用了什么模型，为什么选这个模型，这个模型结构是什么，模型的优缺点是什么。

然后让讲解一下YOLO系列，这块我没法详细的讲解，只能说个大体框架，然后每一代的改进简单提了一点，也没详细讲出来。

然后让讲transformer的结构，我大致讲了下，然后问qkv的物理意义，问为什么现在大模型都是decoder结构的，大致说了下和bert的区别，然后其中讲的比较宏观。

所以面试官问了SAM了解的如何，这块我还真不太了解，然后说用了下，感觉太慢，效果还行。然后问关于大模型理论这块的看法，然后我说现在视觉大模型还不太够，主要还是基于LLM，然后简单问了下LLM相关。

之后就是手撕，一个字符串求最大的无重复字符串长度，这个不算难，用的滑动窗口法，面试官说复杂度O(n)太高，有没有优化空间，不知道。

之后就是反问环节了，我问了问他们部门是做什么的，说是游戏和强化学习相关的，我说这块感觉是未来的方向。之后问我啥时候能去，我说六月多到九月多可以三个月，然后问老师放不放，我说没问题。

总结

总的来说感觉问题跳跃度非常高，从一个问题回答中间提到了其他技术，就继续追问，很多新技术我了解的并不深入，比如SAM这样。但是我在项目准备上略有欠缺，YOLO系列也没有系统的整理，这次面试官也只问了一个项目，让捡着一个详细说然后不断发散，前面的钉钉和淘天的视觉面就问的特别细，几乎每个项目，论文，竞赛等等都问了一遍。

一个问题就是我做的项目虽然多，但是大部分都是含金量不太够的项目，一深挖就会发现很工程，嗑盐创新点不够，不够深入，还是要有至少一个项目做的非常深，这样每次面试的时候只需要对这一个做的非常好的项目做准备就可以了，毕竟大部分面试也不会把每个项目都拷问一遍，贪多没用，简历写了一大堆也就那样。

这可是腾讯AI Lab，我也是太勇了，这种感觉几乎没有可能过，level太高了，这应该是我面试这么多以来最高的了。

最后

非常合理的面试挂了，毕竟面试开始前我就预估不通过率能有95%，这要是能过我只能说腾讯是真没人了，没有意外的非常合理。

阿里国际暑实面试分享

2024-05-23T13:43:37.000Z

面试前的内容

本来阿里国际投的算法工程，结果简历筛选就没过，然后给调到了大模型应用开发，这块我没做过具体项目，感觉是要G了。

果然G了

面试

这块首先是做了两分钟的自我介绍，然后问哪个项目印象深刻，然后讲了下，之后问论文，然后简单讲下，然后说有没有网络模型的创新，我说这块没有；然后简单问下大模型知道多少，我简单说了一点理论和应用上的了解；关于项目和论文，也基本没有追问，没有仔细考察，可能毕竟和大模型差的也很多吧，然后就是反问环节，问了部门是做啥的，然后说主要是做大模型的应用开发，然后具体说是做应用，设计一些模型改进和调整什么的。

手撕代码

力扣这块我做的确实还是不到位，大部分手撕都做不出来，这次出的是对一个$\m \times n$的矩阵，从每行中取出一个数然后相加，使得总和与一个target值的绝对差最小，绝对差是值两个数之差的绝对值，然后我就想半天也没想出来，然后就结束了。

总结

这次面试感觉还是挺差的，毕竟大模型这块我没做过，也没怎么了解，力扣这块也是要多刷题，总之这次感觉是有点KPI面，问的也比较粗略，感觉肯定是G了。

钉钉和淘天机器学习捞暑期实习面试分享

2024-05-22T15:43:37.000Z

面试前的内容

本来今天中午是打算面钉钉的，前面推了三次，终于约到了今天中午，结果提前淘天打电话让直接面试了，所以今天就先面了淘天

淘天面试

在之前的时候淘天的视觉已经G了

事实证明，视觉这块真不行，要求太高了，真做不了，不是简历挂就是面试挂，今天给调到了机器学习。

面试首先就是自我介绍，然后开始问项目，问哪个项目印象深刻，然后就重点讲了第三个项目，讲了之后问论文做了啥，大致都讲了下，然后是比赛，问做的过程中用了什么方法，前几名是用的什么方法，有什么差距，具体是哪里的差距；然后我用的什么方法，有什么亮点，我说前几名用的主要方法都差不太多，重点在于策略和具体的应用调整。反正这块主要就是拷问简历上的项目了，毕竟前面笔试啥的都弄了，算法八股倒是没问。

之后是反问环节，然后问他们部门是做什么的，然后说他们主要是做搜广推的，主要是搜索和广告，然后大致讲了做啥。

已经G了

钉钉面试

刚面完淘天就是面钉钉，钉钉的这个笔试和面试挨着的，这个笔试不是力扣算法题，而是深度学习方面的题，首先手撕三选二：

层归一化
多头注意力
kmeans

层归一化我确实不太会理论，就没写，多头注意力是经典手撕了，凑合写了下，kmeans我是很熟悉的，毕竟大三第一次写这种算法就是kmeans，手撕完之后让逐行讲解，凑合讲了下，不过细节还是有点漏，这块可以再看看。

之后是说怎么项目都是去年的，我说前面也有个，然后问了问论文，也问的详细，相比前人贡献是啥，我说这块前人工作很少，我主要是开辟了这样一个流程和处理方法，然后各种细节问了下，这块问的很细，具体来说，这个部分包括一个流程，其中视频部分具体用了什么模型，为什么用这个模型，这个模型架构是什么样的，具体是如何实现这个功能的，对比效果如何；检测和关键点部分用了什么模型，相应的模型架构是什么样的，卷积神经网络和transformer相比特点分别是什么。

然后问常见的激活函数都有哪些，然后都介绍一下，这块比较新的我都没怎么记，就只说了下之前的激活函数。

然后问最喜欢的网络模型是什么，为什么喜欢这个模型，讲一下结构，然后相比前人工作改进是什么，我大致讲了下，不过模型结构讲的不够细节。

之后是说看我简历上写了多模态大模型啥的，我说这块了解了些，但是发现算力什么的差很多，然后主要是做老师的项目，所以这块只是了解。

然后问职业规划，这块我没准备，也没经验，只能凑合说下，后面还是要准备下。

之后是说我学习能力强，各种项目都做，所以迁移到学习新东西也很快，然后问具体如何体现，这块我就不是很知道怎么回答了。

最后反问环节，我也是问了部门是做的什么，说部门主要三个方向，第一是风控，第二个是啥我给忘了，第三个就是大模型文生文，图生成文，语言和图文多模态啥的。

总结

这两场面完仍然是汗流浃背，总之还是比上次淘天的要好一点吧，至少手撕八股准备了下。具体这次问项目和论文的细节也是非常的细致，具体很多问题已经记不清了，总之简历上的东西还是要详细到问每个细节都能答得上来。

淘天暑期实习计算机视觉面试凉经

2024-04-29T20:43:37.000Z

面试凉经

估计没有二面了，这次被拷打的狠狠的，估计是无了，第一次视觉面，没有准备相关内容,第二天去看，果然已经流程结束

自我介绍

和前面一样先自我介绍。

项目拷打

这次我投的计算机视觉算法，面试的比较对口，面试官就问的很细，面试首先是问了几个项目的内容，我前面做的任务主要是通用视觉目标检测、姿态估计、分割等这些的项目，这些项目都没什么深度，主要是用，然后问的很细，就很难受，被拷打出来了没做啥有深度的内容，主要是应用，这块就不太行了。前面的面试面试官不是研究视觉的，就只大致问问做项目过程中遇到的难点，困难如何解决的，这次要先把做的任务说清楚，不清楚就会继续不断追问，然后说清楚做了什么，涉及较难的部分还会重点追问。但是这部分我往往都是只应用，并没有结构上的创新，然后具体用的什么模型，如何训练，如何处理，等等都会追问，问的非常细，项目虽然是自己做的，但是很多东西也没怎么想到，就非常难受。这里面除了一个配准的专利面试官可能没做过没问，其他所有项目比赛都非常仔细的抠细节。

现在想想，前面做过的项目也没有系统的整理里面的亮点和创新点等等，而且做的时候也很多时候只是用现有的技术做了，但是没有去想过创新点，含金量就不太够，还是要把做过的东西包装一下。

简单的数据处理脚本

然后面试官说让做题，首先是一个简单的路径字符串列表变成文件树的任务，这个非常简单的，这种类似的见得多了，但是当时太紧张了，然后这个我就没写出来，实在是不应该，其实另外一个写不出来的问题在于，平时写代码都有Github Copilot辅助，基本都是只需要写个大致的思路，辅助编程就能自动补全了，具体某个函数名字和参数什么的真不怎么记住，这个也是一个问题，以后要多写多记住一些基础的东西。

具体题目是：

news/car/suv
news/car/mpv
news/sport/basketball
news/sport/football

def tree(str_list):
    n = len(str_list)
    category_dict = {}
    for i in range(n):
        strs = str_list[i].split('/')
        category, name = strs[1], strs[2]
        if category not in category_dict:
            # 这一步我都没想起来，实在是太离谱了
            category_dict[category] = [name]
        else:
            category_dict[category].append(name)
    return category_dict

def print_tree(category_dict, depth=1):
    print('news')
    for key, value in category_dict.items():
        print('\t' * depth + key)
        if isinstance(value, dict):
            print_tree(value, depth + 1)
        else:
            for v in value:
                print('\t' * (depth + 1) + v)
if __name__ == '__main__':
    str_list = ['news/car/suv', 'news/car/mpv', 'news/sport/basketball', 'news/sport/football']
    category_dict = tree(str_list)
    print_tree(category_dict)

logistic回归

让说一下logistic回归，我就说了下公式，然后说前些年用，因为方便求导，简单说了下，具体用来更新模型的参数没说。这相关的算法也是学过的，但是要清晰讲出来还是要准备的。

手撕注意力

然后让写一个attention的公式，然后也没写出来，就简单说了下原理，肯定是不行的，这种都是算法的八股，我应该提前准备下的。

chatgpt答案

注意力机制是一种让模型能够在处理信息时自动地聚焦于最重要信息的技术。在深度学习中，注意力机制通常用于序列模型，特别是在自然语言处理领域。最常见的注意力机制是由 Vaswani 等人在 2017 年提出的“Scaled Dot-Product Attention”。

注意力机制的数学公式

基础的注意力机制可以表示为三个核心组件：查询（Query），键（Key），值（Value）。给定查询 ( Q )，键 ( K )，和值 ( V )，注意力权重计算通常包括以下步骤：

注意力得分（Score）计算：
[ \text{Score}(Q, K) = QK^T ]
缩放（Scaling）：
[ \text{Scaled Score} = \frac{\text{Score}}{\sqrt{d_k}} ]
其中 ( d_k ) 是键向量的维度，这一步骤是为了避免计算中的梯度过小。
Softmax 归一化：
[ \text{Attention Weights} = \text{softmax}(\text{Scaled Score}) ]
输出计算：
[ \text{Output} = \text{Attention Weights} \cdot V ]

代码实现

在 Python 中，可以使用 PyTorch 这样的深度学习框架来实现注意力机制。下面是一个简单的 Scaled Dot-Product Attention 的实现示例：

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(Q, K, V, mask=None):
    """
    实现 Scaled Dot-Product Attention。
    参数:
    Q: 查询张量 [batch_size, num_heads, query_len, key_dim]
    K: 键张量 [batch_size, num_heads, key_len, key_dim]
    V: 值张量 [batch_size, num_heads, value_len, value_dim]
    mask: 掩码张量，用于遮蔽不需要的值 [batch_size, 1, 1, key_len]
    
    返回:
    output: 注意力机制的结果 [batch_size, num_heads, query_len, value_dim]
    attention_weights: 注意力权重 [batch_size, num_heads, query_len, key_len]
    """
    d_k = Q.size(-1)
    
    # 计算 Q 和 K 的点积，然后除以 sqrt(d_k)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    
    # 如果有掩码，将掩码加到 scores 上
    if mask is not None:
        scores = scores.masked_fill(mask == 0, float('-inf'))
    
    # 应用 Softmax 函数获取注意力权重
    attention_weights = F.softmax(scores, dim=-1)
    
    # 计算最终的输出
    output = torch.matmul(attention_weights, V)
    
    return output, attention_weights

这段代码实现了 Scaled Dot-Product Attention，其中 Q, K, V 是输入的张量，可来自相同的或不同的输入源。mask 参数用于可选的掩码操作，通常用在处理变长序列时忽略填充项。注意力权重通过点积、缩放、Softmax 计算得出，最后使用这些权重对值 V 进行加权求和，得到每个查询的输出。

手撕Attention

class Attention(nn.Module):
    def __init__(self, dim, num_heads=8, qkv_bias=False, qk_scale=None, attn_drop=0., proj_drop=0.):
        super().__init__()
        self.num_heads = num_heads
        head_dim = dim // num_heads
        # NOTE scale factor was wrong in my original version, can set manually to be compat with prev weights
        self.scale = qk_scale or head_dim ** -0.5

        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
        self.attn_drop = nn.Dropout(attn_drop)
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

    def forward(self, x):
        B, N, C = x.shape
        qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]  # make torchscript happy (cannot use tensor as tuple)

        attn = (q @ k.transpose(-2, -1)) * self.scale
        attn = attn.softmax(dim=-1)
        attn = self.attn_drop(attn)

        x = (attn @ v).transpose(1, 2).reshape(B, N, C)
        x = self.proj(x)
        x = self.proj_drop(x)
        return x

MLP的代码

class Mlp(nn.Module):
    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.):
        super().__init__()
        out_features = out_features or in_features
        hidden_features = hidden_features or in_features
        self.fc1 = nn.Linear(in_features, hidden_features)
        self.act = act_layer()
        self.fc2 = nn.Linear(hidden_features, out_features)
        self.drop = nn.Dropout(drop)

    def forward(self, x):
        x = self.fc1(x)
        x = self.act(x)
        x = self.drop(x)
        x = self.fc2(x)
        x = self.drop(x)
        return x

扩散模型

然后问扩散模型知道不，然后我说没做过，这里也是改准备下的，毕竟这么著名的模型，我虽然大致了解原理还有DDPM什么的，但是如果认真的讲出来，不成体系，我也就没敢说，这块还是要准备下。

chatgpt回答

扩散模型是一种新兴的深度学习方法，特别是在生成模型领域中表现出色。这种模型基于随机过程理论，特别是扩散过程，通过逐步增加随机性来转换数据，然后再逐步学习如何逆转这一过程，从而生成高质量的数据样本。这一方法在图像和声音生成中尤其流行。

扩散模型的基本原理

扩散模型包括两个主要阶段：正向过程（forward process）和反向过程（reverse process）。

正向过程（噪声添加过程）：
在正向过程中，模型逐步地将噪声引入到原始数据中。这通常通过多个时间步骤实现，每个时间步骤都会向数据添加更多的高斯噪声，直到数据完全转变为纯噪声。这个过程可以用以下等式表示：
[
x_{t} = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \epsilon_t
]
其中，( x_t ) 是在时间 ( t ) 的数据，( \alpha_t ) 是时间步骤中噪声的比例，而 ( \epsilon_t ) 是从标准正态分布中采样的噪声。
反向过程（噪声去除过程）：
反向过程旨在学习如何从纯噪声数据逐步恢复出原始数据。这是通过一个参数化的神经网络模型实现的，该模型试图预测给定噪声数据的前一时间步骤的状态。反向过程的目标是逐渐减少数据中的噪声，最终恢复出接近原始数据的状态。

训练扩散模型

扩散模型的训练通常依赖于变分下界（ELBO，Evidence Lower Bound）的优化。模型的目标是最小化重构数据和原始数据之间的差异，同时也优化生成数据的概率分布。训练过程需要大量的计算资源，因为它涉及到大量的正向和反向模拟步骤。

FM算法

然后问机器学习算法FM算法，然后我说不知道，这个我还真没听说过，查了下，是推荐的算法，因子分解机，真不懂，现学记住吧，chatgpt说：

chatgpt回答

FM（Factorization Machines，因子分解机）是一种广泛用于推荐系统和预测任务的机器学习算法。它被设计用来处理具有极大稀疏性的数据集，特别是在用户-物品交互数据中常见的那种稀疏性。

基本原理: 因子分解机模型主要是为了解决传统线性模型（如线性回归、逻辑回归）在处理大规模稀疏数据集时的不足。在传统的线性模型中，每个特征的权重是独立学习的，这使得模型难以捕捉特征间的交互作用。FM通过引入隐向量来为每个特征学习潜在的交互效应，这样可以有效地捕捉到特征之间的相互作用。
数学表示: 给定一个包含$n$个特征的数据集，FM模型的预测$\hat{y}$由下式给出：
$$
\hat{y}(\mathbf{x}) = w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j
$$
其中：

$w_0$ 是模型的全局偏置。
$w_i$ 是第$i$个特征的权重。
$\mathbf{x}$ 是输入特征向量。
$\mathbf{v}_i$ 和 $\mathbf{v}_j$ 是特征$i$和$j$的隐向量，隐向量的维度$k$通常远小于特征数量$n$。
$\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ 表示特征$i$和$j$的隐向量的点积，用于模拟这两个特征的交互效果。

优势:

高效性：虽然FM模型包含二阶特征交互项，但是它可以在$O(kn)$的时间复杂度内完成计算，其中$k$是隐向量的维度，$n$是特征的数量。这种高效性主要来源于隐向量的点积运算方式，使得算法适用于大规模的数据集。
灵活性：FM模型不仅适用于任何实数特征，还可以很容易地扩展到高阶交互，如三阶或更高阶的交互。
泛化能力：由于特征间的交互是通过低维隐向量学习的，FM可以很好地泛化到新的、未见过的特征组合，尤其是在数据稀疏的场景下。

应用场景：

推荐系统：FM广泛用于推荐系统，能有效处理用户和物品的特征交互。
点击率预测：在线广告和搜索引擎优化中，FM可以用来预测用户点击广告或搜索结果的概率。
排名和分类任务：通过适当的目标函数和优化方法，FM可以适用于各种排名和分类问题。

因子分解机因其在处理稀疏数据和特征交互中的优势而被广泛研究和应用。

手写交叉熵损失

然后让写CrossEntropy，我还是没写出来，然后简单说了下公式的思想，

chatgpt回答

交叉熵损失（Cross-Entropy Loss）是用于衡量模型预测概率分布与真实标签概率分布之间的差异的一个常用损失函数。它在分类任务中特别常见，尤其是在处理二分类或多分类问题时。

交叉熵损失的公式

对于二分类问题，交叉熵损失可以表示为：

[ L = -\frac{1}{N} \sum_{i=1}^N [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)] ]

其中：

( N ) 是样本的数量。
( y_i ) 是第 ( i ) 个样本的真实标签，通常为 0 或 1。
( \hat{y}_i ) 是模型预测第 ( i ) 个样本为正类的概率。

对于多分类问题，公式扩展为：

[ L = -\frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{i,c} \log(\hat{y}_{i,c}) ]

其中：

( C ) 是类别的总数。
( y_{i,c} ) 是一个指示变量，如果样本 ( i ) 属于类别 ( c )，则为 1，否则为 0。
( \hat{y}_{i,c} ) 是模型预测第 ( i ) 个样本属于类别 ( c ) 的概率。

代码实现

如果不使用库函数，可以手动实现交叉熵损失函数。这里我们将以 Python 为例展示如何实现多分类交叉熵损失函数。这将涉及到计算模型输出的对数概率，然后根据真实标签计算损失。

二分类交叉熵损失

首先，我们从较简单的二分类交叉熵损失开始：

import numpy as np

def binary_cross_entropy_loss(y_true, y_pred):
    # 防止 log(0) 导致数值问题，所以加上一个非常小的值 epsilon
    epsilon = 1e-12
    y_pred = np.clip(y_pred, epsilon, 1 - epsilon)
    loss = -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
    return loss

# 示例
y_true = np.array([0, 1, 1, 0])
y_pred = np.array([0.1, 0.9, 0.8, 0.2])
print("Binary Cross Entropy Loss:", binary_cross_entropy_loss(y_true, y_pred))

多分类交叉熵损失

对于多分类问题，我们通常使用独热编码的方式来表示真实的标签，然后计算每个类别的交叉熵损失：

def categorical_cross_entropy_loss(y_true, y_pred):
    # 防止 log(0) 导致数值问题，所以加上一个非常小的值 epsilon
    epsilon = 1e-12
    y_pred = np.clip(y_pred, epsilon, 1.0 - epsilon)
    # 计算交叉熵
    loss = -np.sum(y_true * np.log(y_pred)) / y_true.shape[0]
    return loss

# 示例
y_true = np.array([[0, 1, 0], [0, 0, 1], [1, 0, 0], [0, 1, 0]])
y_pred = np.array([
    [0.05, 0.9, 0.05],
    [0.1, 0.1, 0.8],
    [0.7, 0.2, 0.1],
    [0.1, 0.8, 0.1]
])
print("Categorical Cross Entropy Loss:", categorical_cross_entropy_loss(y_true, y_pred))

在这些示例中，y_pred 中的值必须是有效的概率分布，即所有预测概率的和应为1，且各概率值应在0到1之间。在实际应用中，模型的输出通常通过 softmax 函数来保证这一点。np.clip 用于防止数值问题，如计算对数时输入值为0。这些实现提供了对交叉熵损失计算的直接控制，避免了依赖外部库函数的需求。

U-Net相关

我说研究方向主要是医学影像分割分类，然后面试官说前面做的这些和这个也没什么关系，然后问医学影像出了什么成果，然后我也没，然后问U-Net，我说了下，然后问U-Net的原理，我说了下，然后后上下采样是如何做的，残差连接是如何做的，我说是拼接，这块要说原理我也是说的不太清楚，也没系统准备过。

然后问那个医学影像的竞赛，说用到nnUNet了，然后介绍下，也说不清。

然后问科研医学影像现在做到什么阶段了，我就说是分割分类任务的大致框架，具体仍然说不系统。

反问

然后就是反问，我问了实习那边任务是应用还是偏科研，然后面试官说不会以发论文为目的，是算法在具体任务重应用和优化，然后就结束了。

总结

总之这个面试是最差的一次，属于是项目没啥东西被拷打，后面问八股我也一点没准备，直接凉透，面完直接胳膊下面全是汗，湿透了，估计是凉了，不过也是一次经验，以后要多准备一些基础知识，吃一堑长一智，加油吧。

最后补个学习的内容：算法工程师面试常考手撕题

引用链接https://mp.weixin.qq.com/s/TAFvUlqdyqP-W6C10F1Hzw

算法工程师面试常考手撕题
- 注意力（Attention）篇
  - 手撕单头注意力机制（ScaledDotProductAttention）函数
  - 手撕多头注意力（MultiHeadAttention）
  - 手撕自注意力机制函数（SelfAttention）
  - GPT2 解码中的KV Cache
  - 手撕 MQA 算法
- 基础机器学习算法篇
  - 手撕 numpy写线性回归的随机梯度下降（stochastic gradient descent，SGD）
  - 手撕 k-means 算法
- 手撕 Layer Normalization 算法
- 手撕 Batch Normalization 算法
- 解码算法篇
  - 手撕贪心搜索（greedy search）
  - 手撕集束搜索 beamsearch 算法
  - 手撕温度参数采样（Temperature Sampling）算法
  - 手撕 Top-K Sampling算法
  - 手撕 Top-P (Nucleus) Sampling 算法
- 神经网络篇
  - 手撕反向传播(backward propagation，BP)法
  - 手撕卷积神经网络(CNN)法
  - 手撕循环神经网络(RNN)法
  - 手撕 LSTM法
  - 手撕二维卷积算法
- 位置编码篇
  - 手撕绝对位置编码算法
  - 手撕可学习位置编码算法
  - 手撕相对位置编码算法
  - 手撕 rope 算法
- 面试题汇总
- 致谢

注意力（Attention）篇

手撕单头注意力机制（ScaledDotProductAttention）函数

class ScaledDotProductAttention(nn.Module):
    """ Scaled Dot-Product Attention """


    def __init__(self, scale):
        super().__init__()


        self.scale = scale
        self.softmax = nn.Softmax(dim=2)


    def forward(self, q, k, v, mask=None):
        u = torch.bmm(q, k.transpose(1, 2)) # 1.Matmul
        u = u / self.scale # 2.Scale


        if mask is not None:
            u = u.masked_fill(mask, -np.inf) # 3.Mask


        attn = self.softmax(u) # 4.Softmax
        output = torch.bmm(attn, v) # 5.Output


        return attn, output




if __name__ == "__main__":
    n_q, n_k, n_v = 2, 4, 4
    d_q, d_k, d_v = 128, 128, 64


    q = torch.randn(batch, n_q, d_q)
    k = torch.randn(batch, n_k, d_k)
    v = torch.randn(batch, n_v, d_v)
    mask = torch.zeros(batch, n_q, n_k).bool()


    attention = ScaledDotProductAttention(scale=np.power(d_k, 0.5))
    attn, output = attention(q, k, v, mask=mask)


    print(attn)
    print(output)

手撕多头注意力（MultiHeadAttention）

class MultiHeadAttention(nn.Module):
    """ Multi-Head Attention """


    def __init__(self, n_head, d_k_, d_v_, d_k, d_v, d_o):
        super().__init__()


        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v


        self.fc_q = nn.Linear(d_k_, n_head * d_k)
        self.fc_k = nn.Linear(d_k_, n_head * d_k)
        self.fc_v = nn.Linear(d_v_, n_head * d_v)


        self.attention = ScaledDotProductAttention(scale=np.power(d_k, 0.5))


        self.fc_o = nn.Linear(n_head * d_v, d_o)


    def forward(self, q, k, v, mask=None):


        n_head, d_q, d_k, d_v = self.n_head, self.d_k, self.d_k, self.d_v


        batch, n_q, d_q_ = q.size()
        batch, n_k, d_k_ = k.size()
        batch, n_v, d_v_ = v.size()


        q = self.fc_q(q) # 1.单头变多头
        k = self.fc_k(k)
        v = self.fc_v(v)
        q = q.view(batch, n_q, n_head, d_q).permute(2, 0, 1, 3).contiguous().view(-1, n_q, d_q)
        k = k.view(batch, n_k, n_head, d_k).permute(2, 0, 1, 3).contiguous().view(-1, n_k, d_k)
        v = v.view(batch, n_v, n_head, d_v).permute(2, 0, 1, 3).contiguous().view(-1, n_v, d_v)


        if mask is not None:
            mask = mask.repeat(n_head, 1, 1)
        attn, output = self.attention(q, k, v, mask=mask) # 2.当成单头注意力求输出


        output = output.view(n_head, batch, n_q, d_v).permute(1, 2, 0, 3).contiguous().view(batch, n_q, -1) # 3.Concat
        output = self.fc_o(output) # 4.仿射变换得到最终输出


        return attn, output




if __name__ == "__main__":
    n_q, n_k, n_v = 2, 4, 4
    d_q_, d_k_, d_v_ = 128, 128, 64


    q = torch.randn(batch, n_q, d_q_)
    k = torch.randn(batch, n_k, d_k_)
    v = torch.randn(batch, n_v, d_v_)    
    mask = torch.zeros(batch, n_q, n_k).bool()


    mha = MultiHeadAttention(n_head=8, d_k_=128, d_v_=64, d_k=256, d_v=128, d_o=128)
    attn, output = mha(q, k, v, mask=mask)


    print(attn.size())
    print(output.size())

手撕自注意力机制函数（SelfAttention）

class SelfAttention(nn.Module):
    """ Self-Attention """


    def __init__(self, n_head, d_k, d_v, d_x, d_o):
        self.wq = nn.Parameter(torch.Tensor(d_x, d_k))
        self.wk = nn.Parameter(torch.Tensor(d_x, d_k))
        self.wv = nn.Parameter(torch.Tensor(d_x, d_v))


        self.mha = MultiHeadAttention(n_head=n_head, d_k_=d_k, d_v_=d_v, d_k=d_k, d_v=d_v, d_o=d_o)


        self.init_parameters()


    def init_parameters(self):
        for param in self.parameters():
            stdv = 1. / np.power(param.size(-1), 0.5)
            param.data.uniform_(-stdv, stdv)


    def forward(self, x, mask=None):
        q = torch.matmul(x, self.wq)   
        k = torch.matmul(x, self.wk)
        v = torch.matmul(x, self.wv)


        attn, output = self.mha(q, k, v, mask=mask)


        return attn, output




if __name__ == "__main__":
    n_x = 4
    d_x = 80


    x = torch.randn(batch, n_x, d_x)
    mask = torch.zeros(batch, n_x, n_x).bool()


    selfattn = SelfAttention(n_head=8, d_k=128, d_v=64, d_x=80, d_o=80)
    attn, output = selfattn(x, mask=mask)


    print(attn.size())
    print(output.size())

GPT2 解码中的KV Cache

无论是encoder-decoder结构，还是现在我们最接近AGI的decoder-only的LLM，解码生成时都是自回归auto-regressive的方式。
也就是，解码的时候，先根据当前输入，生成下一个，然后把新生成的拼接在后面，获得新的输入，再用生成，依此迭代，直到生成结束。
我们可以注意到，下一个step的输入其实包含了上一个step的内容，而且只在最后面多了一点点（一个token）。那么下一个step的计算应该也包含了上一个step的计算。
但是模型在推理的时候可不管这些，无论你是不是只要最后一个字的输出，它都把所有输入计算一遍，给出所有输出结果。
也就是说中间有很多我们用不到的计算，这样就造成了浪费。
而且随着生成的结果越来越多，输入的长度也越来越长，上面这个例子里，输入长度就从step0的10个，每步增长1，直到step5的15个。如果输入的instruction是让模型写作文，那可能就有800个step。这个情况下，step0被算了800次，step1被算了799次…这样浪费的计算资源确实不容忽视。
有没有什么办法可以重复利用上一个step里已经计算过的结果，减少浪费呢？
答案就是KV Cache，利用一个缓存，把需要重复利用的中间计算结果存下来，减少重复计算。
而 k 和 v 就是我要缓存的对象。
想象一下，在上面的例子中，假设我们一开始的输入就是3个字，我们第一次预测就是预测第4个字，那么由于一开始没有任何缓存，所有我们每一层还是要老实地计算一遍。然后把 k 、 v 值缓存起来。
则有

kv cache的下标l表示模型层数。
在进行第二次预测，也就是预测第5个字的时候，在第l层的时候，由于前面我们缓存了每层的ku 值，那本层就只需要算新的 o3，而不用算 o0、o1、o2。
因为第l层的 o0、o1、o2本来会经过FNN层之后进到 l十1 层，再经过新的投影变换，成为 l + 1 层的 k、υ 值，但是l十 1 层的 k、υ值我们已经缓存过了!
然后我们把本次新增算出来的 k、υ 值也存入缓存。

这样就节省了attention和FFN的很多重复计算。
transformers中，生成的时候传入use_cache=True就会开启KV Cache。
也可以简单看下GPT2中的实现，中文注释的部分就是使用缓存结果和更新缓存结果

Class GPT2Attention(nn.Module):
    ...
    ...
    def forward(
        self,
        hidden_states: Optional[Tuple[torch.FloatTensor]],
        layer_past: Optional[Tuple[torch.Tensor]] = None,
        attention_mask: Optional[torch.FloatTensor] = None,
        head_mask: Optional[torch.FloatTensor] = None,
        encoder_hidden_states: Optional[torch.Tensor] = None,
        encoder_attention_mask: Optional[torch.FloatTensor] = None,
        use_cache: Optional[bool] = False,
        output_attentions: Optional[bool] = False,
    ) -> Tuple[Union[torch.Tensor, Tuple[torch.Tensor]], ...]:
        if encoder_hidden_states is not None:
            if not hasattr(self, "q_attn"):
                raise ValueError(
                    "If class is used as cross attention, the weights `q_attn` have to be defined. "
                    "Please make sure to instantiate class with `GPT2Attention(..., is_cross_attention=True)`."
                )


            query = self.q_attn(hidden_states)
            key, value = self.c_attn(encoder_hidden_states).split(self.split_size, dim=2)
            attention_mask = encoder_attention_mask
        else:
            query, key, value = self.c_attn(hidden_states).split(self.split_size, dim=2)


        query = self._split_heads(query, self.num_heads, self.head_dim)
        key = self._split_heads(key, self.num_heads, self.head_dim)
        value = self._split_heads(value, self.num_heads, self.head_dim)


        # 过去所存的值
        if layer_past is not None:
            past_key, past_value = layer_past
            key = torch.cat((past_key, key), dim=-2)  # 把当前新的key加入
            value = torch.cat((past_value, value), dim=-2)  # 把当前新的value加入


        if use_cache is True:
            present = (key, value)  # 输出用于保存
        else:
            present = None


        if self.reorder_and_upcast_attn:
            attn_output, attn_weights = self._upcast_and_reordered_attn(query, key, value, attention_mask, head_mask)
        else:
            attn_output, attn_weights = self._attn(query, key, value, attention_mask, head_mask)


        attn_output = self._merge_heads(attn_output, self.num_heads, self.head_dim)
        attn_output = self.c_proj(attn_output)
        attn_output = self.resid_dropout(attn_output)


        outputs = (attn_output, present)
        if output_attentions:
            outputs += (attn_weights,)


        return outputs  # a, present, (attentions)

总的来说，KV Cache是以空间换时间的做法，通过使用快速的缓存存取，减少了重复计算。（注意，只有decoder结构的模型可用，因为有mask attention的存在，使得前面的token可以不用关注后面的token）

手撕 MQA 算法

MQA 让所有的头之间共享同一份 Key 和 Value 矩阵，每个头只单独保留了一份 Query 参数，从而大大减少 Key 和 Value 矩阵的参数量。

class MultiQueryAttention(nn.Module):
    """Multi-Query self attention.


    Using torch or triton attention implemetation enables user to also use
    additive bias.
    """


    def __init__(
        self,
        d_model: int,
        n_heads: int,
        attn_impl: str = 'triton',
        clip_qkv: Optional[float] = None,
        qk_ln: bool = False,
        softmax_scale: Optional[float] = None,
        attn_pdrop: float = 0.0,
        low_precision_layernorm: bool = False,
        verbose: int = 0,
        device: Optional[str] = None,
    ):
        super().__init__()


        self.attn_impl = attn_impl
        self.clip_qkv = clip_qkv
        self.qk_ln = qk_ln


        self.d_model = d_model
        self.n_heads = n_heads
        self.head_dim = d_model // n_heads
        self.softmax_scale = softmax_scale
        if self.softmax_scale is None:
            self.softmax_scale = 1 / math.sqrt(self.head_dim)
        self.attn_dropout_p = attn_pdrop


        self.Wqkv = nn.Linear(
            d_model,
            d_model + 2 * self.head_dim,
            device=device,
        )


        fuse_splits = (d_model, d_model + self.head_dim)
        self.Wqkv._fused = (0, fuse_splits)  # type: ignore


        self.attn_fn = scaled_multihead_dot_product_attention
        self.out_proj = nn.Linear(self.d_model, self.d_model, device=device)
        self.out_proj._is_residual = True  # type: ignore


    def forward(
        self,
        x,
        past_key_value=None,
        attn_bias=None,
        attention_mask=None,
        is_causal=True,
        needs_weights=False,
    ):
        qkv = self.Wqkv(x)                                      # (1, 512, 960)


        if self.clip_qkv:
            qkv.clamp_(min=-self.clip_qkv, max=self.clip_qkv)


        query, key, value = qkv.split(                                  # query -> (1, 512, 768)
            [self.d_model, self.head_dim, self.head_dim],               # key   -> (1, 512, 96)
            dim=2                                                       # value -> (1, 512, 96)
        )


        key_padding_mask = attention_mask


        if self.qk_ln:
            # Applying layernorm to qk
            dtype = query.dtype
            query = self.q_ln(query).to(dtype)
            key = self.k_ln(key).to(dtype)


        context, attn_weights, past_key_value = self.attn_fn(
            query,
            key,
            value,
            self.n_heads,
            past_key_value=past_key_value,
            softmax_scale=self.softmax_scale,
            attn_bias=attn_bias,
            key_padding_mask=key_padding_mask,
            is_causal=is_causal,
            dropout_p=self.attn_dropout_p,
            training=self.training,
            needs_weights=needs_weights,
            multiquery=True,
        )


        return self.out_proj(context), attn_weights, past_key_value

基础机器学习算法篇

手撕 numpy写线性回归的随机梯度下降（stochastic gradient descent，SGD）

在每次更新时用1个样本，可以看到多了随机两个字，随机也就是说我们用样本中的一个例子来近似我所有的样本，来调整θ，因而随机梯度下降是会带来一定的问题，因为计算得到的并不是准确的一个梯度，对于最优化问题，凸问题，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。

# 数据加载
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split


X, Y = fetch_california_housing(return_X_y=True)
X.shape, Y.shape  # (20640, 8), (20640, )


# 数据预处理
ones = np.ones(shape=(X.shape[0], 1))
X = np.hstack([X, ones])
validate_size = 0.2
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=validate_size, shuffle=True)


# batch 函数
def get_batch(batchsize: int, X: np.ndarray, Y: np.ndarray):
    assert 0 == X.shape[0]%batchsize, f'{X.shape[0]}%{batchsize} != 0'
    batchnum = X.shape[0]//batchsize
    X_new = X.reshape((batchnum, batchsize, X.shape[1]))
    Y_new = Y.reshape((batchnum, batchsize, ))


    for i in range(batchnum):
        yield X_new[i, :, :], Y_new[i, :]


# 损失函数
def mse(X: np.ndarray, Y: np.ndarray, W: np.ndarray):
    return 0.5 * np.mean(np.square(X@W-Y))


def diff_mse(X: np.ndarray, Y: np.ndarray, W: np.ndarray):
    return X.T@(X@W-Y) / X.shape[0]


# 模型训练
lr = 0.001          # 学习率
num_epochs = 1000   # 训练周期
batch_size = 64     # |每个batch包含的样本数
validate_every = 4  # 多少个周期进行一次检验
def train(num_epochs: int, batch_size: int, validate_every: int, W0: np.ndarray, X_train: np.ndarray, Y_train: np.ndarray, X_test: np.ndarray, Y_test: np.ndarray):
    loop = tqdm(range(num_epochs))
    loss_train = []
    loss_validate = []
    W = W0
    # 遍历epoch
    for epoch in loop:
        loss_train_epoch = 0
        # 遍历batch
        for x_batch, y_batch in get_batch(64, X_train, Y_train):
            loss_batch = mse(X=x_batch, Y=y_batch, W=W)
            loss_train_epoch += loss_batch*x_batch.shape[0]/X_train.shape[0]
            grad = diff_mse(X=x_batch, Y=y_batch, W=W)
            W = W - lr*grad


        loss_train.append(loss_train_epoch)
        loop.set_description(f'Epoch: {epoch}, loss: {loss_train_epoch}')


        if 0 == epoch%validate_every:
            loss_validate_epoch = mse(X=X_test, Y=Y_test, W=W)
            loss_validate.append(loss_validate_epoch)
            print('============Validate=============')
            print(f'Epoch: {epoch}, train loss: {loss_train_epoch}, val loss: {loss_validate_epoch}')
            print('================================')
    plot_loss(np.array(loss_train), np.array(loss_validate), validate_every)


# 程序运行
W0 = np.random.random(size=(X.shape[1], ))  # 初始权重
train(num_epochs=num_epochs, batch_size=batch_size, validate_every=validate_every, W0=W0, X_train=X_train, Y_train=Y_train, X_test=X_test, Y_test=Y_test)

手撕 k-means 算法

import numpy as np
def kmeans(data, k, thresh=1, max_iterations=100):
  # 随机初始化k个中心点
  centers = data[np.random.choice(data.shape[0], k, replace=False)]


  for _ in range(max_iterations):
    # 计算每个样本到各个中心点的距离
    distances = np.linalg.norm(data[:, None] - centers, axis=2)


    # 根据距离最近的中心点将样本分配到对应的簇
    labels = np.argmin(distances, axis=1)


    # 更新中心点为每个簇的平均值
    new_centers = np.array([data[labels == i].mean(axis=0) for i in range(k)])


    # 判断中心点是否收敛，多种收敛条件可选
    # 条件1：中心点不再改变
    if np.all(centers == new_centers):
      break
    # 条件2：中心点的阈值小于某个阈值
    # center_change = np.linalg.norm(new_centers - centers)
    # if center_change < thresh:
    #     break
    centers = new_centers


  return labels, centers


# 生成一些随机数据作为示例输入
data = np.random.rand(100, 2)  # 100个样本，每个样本有两个特征


# 手动实现K均值算法
k = 3  # 聚类数为3
labels, centers = kmeans(data, k)


# 打印簇标签和聚类中心点
print("簇标签:", labels)
print("聚类中心点:", centers)

手撕 Layer Normalization 算法

import torch
from torch import nn
 
class LN(nn.Module):
    # 初始化
    def __init__(self, normalized_shape,  # 在哪个维度上做LN
                 eps:float = 1e-5, # 防止分母为0
                 elementwise_affine:bool = True):  # 是否使用可学习的缩放因子和偏移因子
        super(LN, self).__init__()
        # 需要对哪个维度的特征做LN, torch.size查看维度
        self.normalized_shape = normalized_shape  # [c,w*h]
        self.eps = eps
        self.elementwise_affine = elementwise_affine
        # 构造可训练的缩放因子和偏置
        if self.elementwise_affine:  
            self.gain = nn.Parameter(torch.ones(normalized_shape))  # [c,w*h]
            self.bias = nn.Parameter(torch.zeros(normalized_shape))  # [c,w*h]
 
    # 前向传播
    def forward(self, x: torch.Tensor): # [b,c,w*h]
        # 需要做LN的维度和输入特征图对应维度的shape相同
        assert self.normalized_shape == x.shape[-len(self.normalized_shape):]  # [-2:]
        # 需要做LN的维度索引
        dims = [-(i+1) for i in range(len(self.normalized_shape))]  # [b,c,w*h]维度上取[-1,-2]维度，即[c,w*h]
        # 计算特征图对应维度的均值和方差
        mean = x.mean(dim=dims, keepdims=True)  # [b,1,1]
        mean_x2 = (x**2).mean(dim=dims, keepdims=True)  # [b,1,1]
        var = mean_x2 - mean**2  # [b,c,1,1]
        x_norm = (x-mean) / torch.sqrt(var+self.eps)  # [b,c,w*h]
        # 线性变换
        if self.elementwise_affine:
            x_norm = self.gain * x_norm + self.bias  # [b,c,w*h]
        return x_norm
 
# ------------------------------- #
# 验证
# ------------------------------- #
 
if __name__ == '__main__':
 
    x = torch.linspace(0, 23, 24, dtype=torch.float32)  # 构造输入层
    x = x.reshape([2,3,2*2])  # [b,c,w*h]
    # 实例化
    ln = LN(x.shape[1:])
    # 前向传播
    x = ln(x)
    print(x.shape)

手撕 Batch Normalization 算法

class MyBN:
    def __init__(self, momentum=0.01, eps=1e-5, feat_dim=2):
        """
        初始化参数值
        :param momentum: 动量，用于计算每个batch均值和方差的滑动均值
        :param eps: 防止分母为0
        :param feat_dim: 特征维度
        """
        # 均值和方差的滑动均值
        self._running_mean = np.zeros(shape=(feat_dim, ))
        self._running_var = np.ones((shape=(feat_dim, ))
        # 更新self._running_xxx时的动量
        self._momentum = momentum
        # 防止分母计算为0
        self._eps = eps
        # 对应Batch Norm中需要更新的beta和gamma，采用pytorch文档中的初始化值
        self._beta = np.zeros(shape=(feat_dim, ))
        self._gamma = np.ones(shape=(feat_dim, ))


    def batch_norm(self, x):
        """
        BN向传播
        :param x: 数据
        :return: BN输出
        """
        if self.training:
            x_mean = x.mean(axis=0)
            x_var = x.var(axis=0)
            # 对应running_mean的更新公式
            self._running_mean = (1-self._momentum)*x_mean + self._momentum*self._running_mean
            self._running_var = (1-self._momentum)*x_var + self._momentum*self._running_var
            # 对应论文中计算BN的公式
            x_hat = (x-x_mean)/np.sqrt(x_var+self._eps)
        else:
            x_hat = (x-self._running_mean)/np.sqrt(self._running_var+self._eps)
        return self._gamma*x_hat + self._beta

解码算法篇

手撕贪心搜索（greedy search）

def greedy_decoding(input_ids, max_tokens=300):
 with torch.inference_mode():
 for _ in range(max_tokens):
            outputs = model(input_ids)
            next_token_logits = outputs.logits[:, -1, :]
            next_token = torch.argmax(next_token_logits, dim=-1)
 if next_token == tokenizer.eos_token_id:
 break
            input_ids = torch.cat([input_ids, rearrange(next_token, 'c -> 1 c')], dim=-1)
        generated_text = tokenizer.decode(input_ids[0])
 return generated_text

手撕集束搜索 beamsearch 算法

在NLP翻译或对话任务中，在句子解码阶段，经常用到一种搜索算法beam search。这个算法有时候在大厂面试中，甚至可能会被要求手写实现。这里就从beam search的原理出发，最后手写实现一个beam search。

思路：beam search在贪心搜索上进一步扩大了搜索范围，贪心搜索每下一步只考虑当前最优的top-1结果，beam search考虑最优的top-k个结果。

import torch
import torch.nn.functional as F


def beam_search(LM_prob,beam_size = 3):
    batch,seqlen,vocab_size = LM_prob.shape
    #对LM_prob取对数
    log_LM_prob = LM_prob.log()
    #先选择第0个位置的最大beam_size个token，log_emb_prob与indices的shape为(batch,beam)
    log_beam_prob, indices = log_LM_prob[:,0,:].topk(beam_size,sorted = True)
    indices = indices.unsqueeze(-1)
    #对每个长度进行beam search
    for i in range(1,seqlen):
        #log_beam_prob (batch,beam,vocab_size),每个beam的可能产生的概率
        log_beam_prob = log_beam_prob.unsqueeze(-1) + log_LM_prob[:,i,:].unsqueeze(1).repeat(1,beam_size,1)
        #选择当前步概率最高的token
        log_beam_prob, index = log_beam_prob.view(batch,-1).topk(beam_size,sorted = True)
        #下面的计算：beam_id选出新beam来源于之前的哪个beam;index代表真实的token id
        #beam_id,index (batch,beam)
        beam_id = index//vocab_size
        index = index%vocab_size
        mid = torch.Tensor([])
        #对batch内每个样本循环，选出beam的同时拼接上新生成的token id
        for j,bid,idx in zip(range(batch),beam_id,index):
            x = torch.cat([indices[j][bid],idx.unsqueeze(-1)],-1)
            mid = torch.cat([mid,x.unsqueeze(0)],0)
        indices = mid
    return indices,log_beam_prob


if __name__=='__main__':
    # 建立一个语言模型 LM_prob (batch,seqlen,vocab_size)
    LM_prob = F.softmax(torch.randn([32,20,1000]),dim = -1)
    #最终返回每个候选，以及每个候选的log_prob，shape为(batch,beam_size,seqlen)
    indices,log_prob = beam_search(LM_prob,beam_size = 3)
    print(indices)

手撕温度参数采样（Temperature Sampling）算法

温度参数采样（Temperature Sampling）常用于基于概率的生成模型，如语言模型。它通过引入一个称为“温度”（Temperature）的参数来调整模型输出的概率分布，从而控制生成文本的多样性。
在温度参数采样中，模型在每个时间步生成词语时，会计算出词语的条件概率分布。然后模型将这个条件概率分布中的每个词语的概率值除以温度参数，对结果进行归一化处理，获得新的归一化概率分布。较高的温度值会使概率分布更平滑，从而增加生成文本的多样性。低概率的词语也有较高的可能性被选择；而较低的温度值则会使概率分布更集中，更倾向于选择高概率的词语，因此生成的文本更加确定性。最后模型根据这个新的归一化概率分布进行随机采样，选择生成的词语。

import torch
import torch.nn.functional as F


def temperature_sampling(logits, temperature=1.0):
    logits = logits / temperature
    probabilities = F.softmax(logits, dim=-1)
    sampled_token = torch.multinomial(probabilities, 1)
 return sampled_token.item()

手撕 Top-K Sampling算法

def top_k_sampling(input_ids, max_tokens=100, top_k=50, temperature=1.0):
 for _ in range(max_tokens):
 with torch.inference_mode():
            outputs = model(input_ids)
            next_token_logits = outputs.logits[:, -1, :]
            top_k_logits, top_k_indices = torch.topk(next_token_logits, top_k)
            top_k_probs = F.softmax(top_k_logits / temperature, dim=-1)
            next_token_index = torch.multinomial(top_k_probs, num_samples=1)
            next_token = top_k_indices.gather(-1, next_token_index)
            input_ids = torch.cat([input_ids, next_token], dim=-1)
    generated_text = tokenizer.decode(input_ids[0])
 return generated_text

手撕 Top-P (Nucleus) Sampling 算法

Nucleus Sampling（核采样），也被称为Top-p Sampling旨在在保持生成文本质量的同时增加多样性。这种方法可以视作是Top-K Sampling的一种变体，它在每个时间步根据模型输出的概率分布选择概率累积超过给定阈值p的词语集合，然后在这个词语集合中进行随机采样。这种方法会动态调整候选词语的数量，以保持一定的文本多样性。
在Nucleus Sampling中，模型在每个时间步生成词语时，首先按照概率从高到低对词汇表中的所有词语进行排序，然后模型计算累积概率，并找到累积概率超过给定阈值p的最小词语子集，这个子集就是所谓的“核”（nucleus）。模型在这个核中进行随机采样，根据词语的概率分布来选择最终输出的词语。这样做可以保证所选词语的总概率超过了阈值p，同时也保持了一定的多样性。
参数p是Nucleus Sampling中的重要参数，它决定了所选词语的概率总和。p的值会被设置在(0,1]之间，表示词语总概率的一个下界。
Nucleus Sampling 能够保持一定的生成质量，因为它在一定程度上考虑了概率分布。通过选择概率总和超过给定阈值p的词语子集进行随机采样，Nucleus Sampling 能够增加生成文本的多样性。

def top_p_sampling(input_ids, max_tokens=100, top_p=0.95):
 with torch.inference_mode():
 for _ in range(max_tokens):
                outputs = model(input_ids)
                next_token_logits = outputs.logits[:, -1, :]
                sorted_logits, sorted_indices = torch.sort(next_token_logits, descending=True)
                sorted_probabilities = F.softmax(sorted_logits, dim=-1) 
                cumulative_probs = torch.cumsum(sorted_probabilities, dim=-1)
                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 0] = False 
                indices_to_remove = sorted_indices[sorted_indices_to_remove]
                next_token_logits.scatter_(-1, indices_to_remove[None, :], float('-inf'))
                probs = F.softmax(next_token_logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)
                input_ids = torch.cat([input_ids, next_token], dim=-1)
        generated_text = tokenizer.decode(input_ids[0])
 return generated_text

神经网络篇

手撕反向传播(backward propagation，BP)法

BP算法就是反向传播，要输入的数据经过一个前向传播会得到一个输出，但是由于权重的原因，所以其输出会和你想要的输出有差距，这个时候就需要进行反向传播，利用梯度下降，对所有的权重进行更新，这样的话在进行前向传播就会发现其输出和你想要的输出越来越接近了。

# 生成权重以及偏执项layers_dim代表每层的神经元个数，
#比如[2,3,1]代表一个三成的网络，输入为2层，中间为3层输出为1层
def init_parameters(layers_dim):
    
    L = len(layers_dim)
    parameters ={}
    for i in range(1,L):
        parameters["w"+str(i)] = np.random.random([layers_dim[i],layers_dim[i-1]])
        parameters["b"+str(i)] = np.zeros((layers_dim[i],1))
    return parameters


def sigmoid(z):
    return 1.0/(1.0+np.exp(-z))


# sigmoid的导函数
def sigmoid_prime(z):
        return sigmoid(z) * (1-sigmoid(z))


# 前向传播，需要用到一个输入x以及所有的权重以及偏执项，都在parameters这个字典里面存储
# 最后返回会返回一个caches里面包含的 是各层的a和z，a[layers]就是最终的输出
def forward(x,parameters):
    a = []
    z = []
    caches = {}
    a.append(x)
    z.append(x)
    layers = len(parameters)//2
    # 前面都要用sigmoid
    for i in range(1,layers):
        z_temp =parameters["w"+str(i)].dot(x) + parameters["b"+str(i)]
        z.append(z_temp)
        a.append(sigmoid(z_temp))
    # 最后一层不用sigmoid
    z_temp = parameters["w"+str(layers)].dot(a[layers-1]) + parameters["b"+str(layers)]
    z.append(z_temp)
    a.append(z_temp)
    
    caches["z"] = z
    caches["a"] = a    
    return  caches,a[layers]


# 反向传播，parameters里面存储的是所有的各层的权重以及偏执，caches里面存储各层的a和z
# al是经过反向传播后最后一层的输出，y代表真实值
# 返回的grades代表着误差对所有的w以及b的导数
def backward(parameters,caches,al,y):
    layers = len(parameters)//2
    grades = {}
    m = y.shape[1]
    # 假设最后一层不经历激活函数
    # 就是按照上面的图片中的公式写的
    grades["dz"+str(layers)] = al - y
    grades["dw"+str(layers)] = grades["dz"+str(layers)].dot(caches["a"][layers-1].T) /m
    grades["db"+str(layers)] = np.sum(grades["dz"+str(layers)],axis = 1,keepdims = True) /m
    # 前面全部都是sigmoid激活
    for i in reversed(range(1,layers)):
        grades["dz"+str(i)] = parameters["w"+str(i+1)].T.dot(grades["dz"+str(i+1)]) * sigmoid_prime(caches["z"][i])
        grades["dw"+str(i)] = grades["dz"+str(i)].dot(caches["a"][i-1].T)/m
        grades["db"+str(i)] = np.sum(grades["dz"+str(i)],axis = 1,keepdims = True) /m
    return grades   


# 就是把其所有的权重以及偏执都更新一下
def update_grades(parameters,grades,learning_rate):
    layers = len(parameters)//2
    for i in range(1,layers+1):
        parameters["w"+str(i)] -= learning_rate * grades["dw"+str(i)]
        parameters["b"+str(i)] -= learning_rate * grades["db"+str(i)]
    return parameters
# 计算误差值
def compute_loss(al,y):
    return np.mean(np.square(al-y))


# 加载数据
def load_data():
    """
    加载数据集
    """
    x = np.arange(0.0,1.0,0.01)
    y =20* np.sin(2*np.pi*x)
    # 数据可视化
    plt.scatter(x,y)
    return x,y
#进行测试
x,y = load_data()
x = x.reshape(1,100)
y = y.reshape(1,100)
plt.scatter(x,y)
parameters = init_parameters([1,25,1])
al = 0
for i in range(4000):
    caches,al = forward(x, parameters)
    grades = backward(parameters, caches, al, y)
    parameters = update_grades(parameters, grades, learning_rate= 0.3)
    if i %100 ==0:
        print(compute_loss(al, y))
plt.scatter(x,al)
plt.show()

手撕卷积神经网络(CNN)法

import torch
import torch.nn.functional as F #使用functional中的ReLu激活函数


#CNN模型
class CNNNet(torch.nn.Module):
    def __init__(self):
        super(CNNNet, self).__init__()
        #两个卷积层
        self.conv1 = torch.nn.Conv2d(1, 10, kernel_size=5)  #1为in_channels 10为out_channels
        self.conv2 = torch.nn.Conv2d(10, 20, kernel_size=5)
        #池化层
        self.pooling = torch.nn.MaxPool2d(2)  #2为分组大小2*2
        #全连接层 320 = 20 * 4 * 4
        self.fc = torch.nn.Linear(320, 10)


    def forward(self, x):
        #先从x数据维度中得到batch_size
        batch_size = x.size(0)
        #卷积层->池化层->激活函数
        x = F.relu(self.pooling(self.conv1(x)))
        x = F.relu(self.pooling(self.conv2(x)))
        x = x.view(batch_size, -1)  #将数据展开，为输入全连接层做准备
        x = self.fc(x)
        return x
model = CNNNet()

手撕循环神经网络(RNN)法

# encoding:utf-8
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn


# 定义RNN模型(可以类别下方RNN简单测试代码理解)
class Rnn(nn.Module):
    def __init__(self, input_size):
        super(Rnn, self).__init__()
        # 定义RNN网络
        ## hidden_size是自己设置的，貌似取值都是32,64,128这样来取值
        ## num_layers是隐藏层数量，超过2层那就是深度循环神经网络了
        self.rnn = nn.RNN(
                input_size=input_size,
                hidden_size=32,
                num_layers=1,
                batch_first=True  # 输入形状为[批量大小, 数据序列长度, 特征维度]
                )
        # 定义全连接层
        self.out = nn.Linear(32, 1)


    # 定义前向传播函数
    def forward(self, x, h_0):
        r_out, h_n = self.rnn(x, h_0)
        # print("数据输出结果；隐藏层数据结果", r_out, h_n)
        # print("r_out.size()， h_n.size()", r_out.size(), h_n.size())
        outs = []
        # r_out.size=[1,10,32]即将一个长度为10的序列的每个元素都映射到隐藏层上
        for time in range(r_out.size(1)):  
            # print("映射", r_out[:, time, :])
            # 依次抽取序列中每个单词,将之通过全连接层并输出.r_out[:, 0, :].size()=[1,32] -> [1,1]
            outs.append(self.out(r_out[:, time, :])) 
            # print("outs", outs)
        # stack函数在dim=1上叠加:10*[1,1] -> [1,10,1] 同时h_n已经被更新
        return torch.stack(outs, dim=1), h_n 


TIME_STEP = 10
INPUT_SIZE = 1
LR = 0.02
model = Rnn(INPUT_SIZE)
print(model)

手撕 LSTM法

# -*- coding:UTF-8 -*-
import numpy as np
import torch
from torch import nn


# Define LSTM Neural Networks
class LstmRNN(nn.Module):
    """
        Parameters：
        - input_size: feature size
        - hidden_size: number of hidden units
        - output_size: number of output
        - num_layers: layers of LSTM to stack
    """
    def __init__(self, input_size, hidden_size=1, output_size=1, num_layers=1):
        super().__init__()
 
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers) # utilize the LSTM model in torch.nn 
        self.forwardCalculation = nn.Linear(hidden_size, output_size)
 
    def forward(self, _x):
        x, _ = self.lstm(_x)  # _x is input, size (seq_len, batch, input_size)
        s, b, h = x.shape  # x is output, size (seq_len, batch, hidden_size)
        x = x.view(s*b, h)
        x = self.forwardCalculation(x)
        x = x.view(s, b, -1)
        return x

手撕二维卷积算法

import numpy as np 
def conv2d(img, in_channels, out_channels ,kernels, bias, stride=1, padding=0):
    N, C, H, W = img.shape 
    kh, kw = kernels.shape
    p = padding
    assert C == in_channels, "kernels' input channels do not match with img"


    if p:
        img = np.pad(img, ((0,0),(0,0),(p,p),(p,p)), 'constant') # padding along with all axis


    out_h = (H + 2*padding - kh) // stride + 1
    out_w = (W + 2*padding - kw) // stride + 1


    outputs = np.zeros([N, out_channels, out_h, out_w])
    # print(img)
    for n in range(N):
        for out in range(out_channels):
            for i in range(in_channels):
                for h in range(out_h):
                    for w in range(out_w):
                        for x in range(kh):
                            for y in range(kw):
                                outputs[n][out][h][w] += img[n][i][h * stride + x][w * stride + y] * kernels[x][y]
                if i == in_channels - 1:
                    outputs[n][out][:][:] += bias[n][out]
    return outputs

位置编码篇

手撕绝对位置编码算法

class SinPositionEncoding(nn.Module):
    def __init__(self, max_sequence_length, d_model, base=10000):
        super().__init__()
        self.max_sequence_length = max_sequence_length
        self.d_model = d_model
        self.base = base


    def forward(self):
        pe = torch.zeros(self.max_sequence_length, self.d_model, dtype=torch.float)  # size(max_sequence_length, d_model)
        exp_1 = torch.arange(self.d_model // 2, dtype=torch.float)  # 初始化一半维度，sin位置编码的维度被分为了两部分
        exp_value = exp_1 / (self.d_model / 2)


        alpha = 1 / (self.base ** exp_value)  # size(dmodel/2)
        out = torch.arange(self.max_sequence_length, dtype=torch.float)[:, None] @ alpha[None, :]  # size(max_sequence_length, d_model/2)
        embedding_sin = torch.sin(out)
        embedding_cos = torch.cos(out)


        pe[:, 0::2] = embedding_sin  # 奇数位置设置为sin
        pe[:, 1::2] = embedding_cos  # 偶数位置设置为cos
        return pe


SinPositionEncoding(d_model=4, max_sequence_length=10, base=10000).forward()

手撕可学习位置编码算法

class TrainablePositionEncoding(nn.Module):
    def __init__(self, max_sequence_length, d_model):
        super().__init__()
        self.max_sequence_length = max_sequence_length
        self.d_model = d_model


    def forward(self):
        pe = nn.Embedding(self.max_sequence_length, self.d_model)
        nn.init.constant(pe.weight, 0.)
        return pe

手撕相对位置编码算法

class RelativePosition(nn.Module):
    def __init__(self, num_units, max_relative_position):
        super().__init__()
        self.num_units = num_units
        self.max_relative_position = max_relative_position
        self.embeddings_table = nn.Parameter(torch.Tensor(max_relative_position * 2 + 1, num_units))
        nn.init.xavier_uniform_(self.embeddings_table)


    def forward(self, length_q, length_k):
        range_vec_q = torch.arange(length_q)
        range_vec_k = torch.arange(length_k)
        distance_mat = range_vec_k[None, :] - range_vec_q[:, None]
        distance_mat_clipped = torch.clamp(distance_mat, -self.max_relative_position, self.max_relative_position)
        final_mat = distance_mat_clipped + self.max_relative_position
        final_mat = torch.LongTensor(final_mat).cuda()
        embeddings = self.embeddings_table[final_mat].cuda()


        return embeddings


class RelativeMultiHeadAttention(nn.Module):
    def __init__(self, d_model, n_heads, dropout=0.1, batch_size=6):
        "Take in model size and number of heads."
        super(RelativeMultiHeadAttention, self).__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.batch_size = batch_size


        assert d_model % n_heads == 0
        self.head_dim = d_model // n_heads


        self.linears = _get_clones(nn.Linear(d_model, d_model), 4)
        self.dropout = nn.Dropout(p=dropout)
        self.relative_position_k = RelativePosition(self.head_dim, max_relative_position=16)
        self.relative_position_v = RelativePosition(self.head_dim, max_relative_position=16)


        self.scale = torch.sqrt(torch.FloatTensor([self.head_dim])).cuda()


    def forward(self, query, key, value):
        # embedding
        # query, key, value = [batch_size, len, hid_dim]
        query, key, value = [l(x).view(self.batch_size, -1, self.d_model) for l, x in
                             zip(self.linears, (query, key, value))]


        len_k = query.shape[1]
        len_q = query.shape[1]
        len_v = value.shape[1]


        # Self-Attention
        # r_q1, r_k1 = [batch_size, len, n_heads, head_dim]
        r_q1 = query.view(self.batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        r_k1 = key.view(self.batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        attn1 = torch.matmul(r_q1, r_k1.permute(0, 1, 3, 2))


        r_q2 = query.permute(1, 0, 2).contiguous().view(len_q, self.batch_size * self.n_heads, self.head_dim)
        r_k2 = self.relative_position_k(len_q, len_k)
        attn2 = torch.matmul(r_q2, r_k2.transpose(1, 2)).transpose(0, 1)
        attn2 = attn2.contiguous().view(self.batch_size, self.n_heads, len_q, len_k)
        attn = (attn1 + attn2) / self.scale


        attn = self.dropout(torch.softmax(attn, dim=-1))
        # attn = [batch_size, n_heads, len, len]
        r_v1 = value.view(self.batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        weight1 = torch.matmul(attn, r_v1)
        r_v2 = self.relative_position_v(len_q, len_v)
        weight2 = attn.permute(2, 0, 1, 3).contiguous().view(len_q, self.batch_size * self.n_heads, len_k)
        weight2 = torch.matmul(weight2, r_v2)
        weight2 = weight2.transpose(0, 1).contiguous().view(self.batch_size, self.n_heads, len_q, self.head_dim)


        x = weight1 + weight2
        # x = [batch size, n heads, query len, head dim]


        x = x.permute(0, 2, 1, 3).contiguous()
        # x = [batch size, query len, n heads, head dim]


        x = x.view(self.batch_size * len_q, self.d_model)
        # x = [batch size * query len, hid dim]


        return self.linears[-1](x)

手撕 rope 算法

import torch
import torch.nn as nn
import torch.nn.functional as F
import math


# %%


def sinusoidal_position_embedding(batch_size, nums_head, max_len, output_dim, device):
    # (max_len, 1)
    position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(-1)
    # (output_dim//2)
    ids = torch.arange(0, output_dim // 2, dtype=torch.float)  # 即公式里的i, i的范围是 [0,d/2]
    theta = torch.pow(10000, -2 * ids / output_dim)


    # (max_len, output_dim//2)
    embeddings = position * theta  # 即公式里的：pos / (10000^(2i/d))


    # (max_len, output_dim//2, 2)
    embeddings = torch.stack([torch.sin(embeddings), torch.cos(embeddings)], dim=-1)


    # (bs, head, max_len, output_dim//2, 2)
    embeddings = embeddings.repeat((batch_size, nums_head, *([1] * len(embeddings.shape))))  # 在bs维度重复，其他维度都是1不重复


    # (bs, head, max_len, output_dim)
    # reshape后就是：偶数sin, 奇数cos了
    embeddings = torch.reshape(embeddings, (batch_size, nums_head, max_len, output_dim))
    embeddings = embeddings.to(device)
    return embeddings


# %%
def RoPE(q, k):
    # q,k: (bs, head, max_len, output_dim)
    batch_size = q.shape[0]
    nums_head = q.shape[1]
    max_len = q.shape[2]
    output_dim = q.shape[-1]


    # (bs, head, max_len, output_dim)
    pos_emb = sinusoidal_position_embedding(batch_size, nums_head, max_len, output_dim, q.device)


    # cos_pos,sin_pos: (bs, head, max_len, output_dim)
    # 看rope公式可知，相邻cos，sin之间是相同的，所以复制一遍。如(1,2,3)变成(1,1,2,2,3,3)
    cos_pos = pos_emb[...,  1::2].repeat_interleave(2, dim=-1)  # 将奇数列信息抽取出来也就是cos 拿出来并复制
    sin_pos = pos_emb[..., ::2].repeat_interleave(2, dim=-1)  # 将偶数列信息抽取出来也就是sin 拿出来并复制


    # q,k: (bs, head, max_len, output_dim)
    q2 = torch.stack([-q[..., 1::2], q[..., ::2]], dim=-1)
    q2 = q2.reshape(q.shape)  # reshape后就是正负交替了


    # 更新qw, *对应位置相乘
    q = q * cos_pos + q2 * sin_pos


    k2 = torch.stack([-k[..., 1::2], k[..., ::2]], dim=-1)
    k2 = k2.reshape(k.shape)
    # 更新kw, *对应位置相乘
    k = k * cos_pos + k2 * sin_pos


    return q, k


# %%
def attention(q, k, v, mask=None, dropout=None, use_RoPE=True):
    # q.shape: (bs, head, seq_len, dk)
    # k.shape: (bs, head, seq_len, dk)
    # v.shape: (bs, head, seq_len, dk)


    if use_RoPE:
        q, k = RoPE(q, k)


    d_k = k.size()[-1]


    att_logits = torch.matmul(q, k.transpose(-2, -1))  # (bs, head, seq_len, seq_len)
    att_logits /= math.sqrt(d_k)


    if mask is not None:
        att_logits = att_logits.masked_fill(mask == 0, -1e9)  # mask掉为0的部分，设为无穷大


    att_scores = F.softmax(att_logits, dim=-1)  # (bs, head, seq_len, seq_len)


    if dropout is not None:
        att_scores = dropout(att_scores)


    # (bs, head, seq_len, seq_len) * (bs, head, seq_len, dk) = (bs, head, seq_len, dk)
    return torch.matmul(att_scores, v), att_scores


if __name__ == '__main__':
    # (bs, head, seq_len, dk)
    q = torch.randn((8, 12, 10, 32))
    k = torch.randn((8, 12, 10, 32))
    v = torch.randn((8, 12, 10, 32))


    res, att_scores = attention(q, k, v, mask=None, dropout=None, use_RoPE=True)


    # (bs, head, seq_len, dk),  (bs, head, seq_len, seq_len)

print(res.shape, att_scores.shape)

面试题汇总

致谢

LLMs 千面郎君更新版 https://mp.weixin.qq.com/s/C6NdO_Ebj3DQx2AVAAgQRQ
LLMs九层妖塔 https://mp.weixin.qq.com/s/Eh0tY1zx2FqXQqIGa2dIBA
NLP 面无不过 https://github.com/km1994/NLP-Interview-Notes

来自: 算法工程师面试常考手撕题（更新）

华为暑期实习面试分享

2024-04-27T23:28:37.000Z

这个稿子是我面试完回忆用语音转文字记录的，然后我稍微整理了一下，然后就是这个样子。

一面

面试首先面试让我自我介绍然后简单介绍一下学校以及参加的项目。简单介绍完，然后就开始问题项目的情况。我说做的项目有一些。主要是研究方向是医学影像，然后前面做的视觉项目，然后我还有一个论文，然后论文做的啥。然后我说我参加了一些竞赛，本科参加的数学建模和数学竞赛。然后问我在项目中遇到了什么问题，然后怎么解决的然后我举了个在实际项目中解决问题的方法。

然后我说我个人比较喜欢学习新技术，各方面都了解了一些。其他简单问了一点，具体忘了。然后面试就让写个题，这个题就是类似131切割回文字符串，用最小的切割次数是分割字符串，每一个部分都是回文字符串。然后我煎熬了半天写不出来，只能跟面试官说这是一个动态规划问题。然后问我刷了多少题，我说我最近两个月才开始刷，才是力扣刷了100道。然后我说我数据结构算法是大二学的，现在才刚学，不是特别清楚。

机器学习相对更清楚一点，然后就开始问我图像处理算法。然后问我的边缘检测用什么算子，然后我忘了是叫什么名字，然后简单画了一个图，但是这个9×9的这个表格中间填啥我给忘了。然后又问我在项目中是用到了机器学习算法吗？然后我说一般图像预处理用机器学习算法，实际做一般用深度学习算法。然后往往都是用一些腐蚀膨胀等这些操作滤波。然后。面试官问，对于边缘检测比较模糊和清晰的分别用什么算子，然后面试官最后说让等待通知下一次面试。

二面

然后没几十分钟就到主管面试，主管面试问的非常多而且杂，我简单记一下吧。首先。是让自我介绍一下，介绍完。然后说我知识面相对比较广，面试官问，我就是新知识从哪儿学习，首先关注的公众号，我说就是一些特别前沿的技术的公众号，然后具体问我都是哪些公众号，然后我列举了几个，然后其他还有什么渠道，然后我说在哔哩哔哩上关注了一些博主，然后让我列举，然后我列举了几个，然后问我具体哪个博主印象深刻，然后我举了个哔哩哔哩上的zomi酱，然后说他做ai系统，全栈从底层硬件生态到大语言模型训练以及加速等等有很多很多，感觉学到了很多。然后除此之外还有哪些方面，我说我和朋友一起，他们也比较关注前沿技术，所以平时也会进行一些分享交流。

然后问我的项目在做的过程中有没有遇到什么问题和困难然后如何解决的，然后我就某一个问题，然后进行了稍微详细的回答，然后我说问题主要体现在技术方面和与人打交道方面，然后我说技术方面如何如何解决的，然后他又问，在与人打交道的过程中如何如何解决的，当和甲方遇到争议的时候，不配合的时候如何如何解决的，这个就是比较套路的准备的问题，然后这块说了一些。

然后问项目是自己做还是和其他人一起？然后这几个项目都是自己负责的，然后问写作这块的问题，我说只有一个项目，是我带了一个研一的，主要在做，然后问如何分配工作，然后我具体说我是做算法设计，然后给他说具体应该如何如何做，让他自己去查具体的内容，然后他来处理数据。然后问有没有参与别人的项目，说主要这块比较大的项目不是很多。

然后问在团队协作中有没有什么特别坚持的地方？当与其他人出现分歧的时候，如何解决。

然后还有后面问到了对华为了解多少，对于公司的狼性文化了解多少，我说。我说年轻就应该奋斗，华为狼性文化是给奋斗者的，其他有些公司向华为学习，但是只只学习内卷，不给钱就不好。然后面试官讲了好多好多关于华为的企业文化的奋斗者什么什么之类的内容，如何为公司创造效益。

然后问如何看待压力，然后有没有遇到什么有压力的情况，然后我说之前换方向的时候感觉压力很大，然后面试官问面对压力如何解决的，然后我说平时可以锻炼，然后周末找朋友一起玩儿，然后前面遇到压力的困难的时候我也会积极向其他人学习，去找清楚压力的来源，然后解决他。

然后我有没有参加什么社团，然后我说我本科的时候加入了一个技术社团，然后在这个过程中和很多人进行技术交流学习，然后面试官问，我在这个过程中学到了什么，然后我说一分半是学到了技术，另外一方面是交到了很多好朋友。然后面试官我参加活动的频率，我说我开始闲的时候参加的多，后面我们也举办了一些活动，再后面大三忙起来了就不怎么参加了。

然后是问我如何看待aigc对人类以及对公司的影响，我说一方面提升生产力，使得低端产业更多的被替代，类似一场工业革命，然后面试官说对公司是什么样的，然后重点说了下对于公司的影响，这块我感觉我说的不太好，这个挺宏观的，对公司的没怎么考虑过。

最后是反问问我有没有什么问题向他问，我说在学校学的东西，和实际实习过程中，是不是有一些差距？主要体现在什么地方？然后我有什么需要准备的没有？然后他讲了一些讲了不少东西，然后说在学校做的东西很多时候相对偏长远更偏理论一些，但是企业相对来说更重效益，既要看重长远地也要看中短期短期利益，如果一段时间内都没有的话，可能这个项目就要被砍掉。然后我还问了问他们的平时具体业务是做什么，然后他就是说也开发这块，包括很多技术，这些前沿算法，把他们做成软件落地。

总结

总之一面技术面问的时间相对比较短，也不是特别深，然后就半小时，后面半小时我都在写那道算法题，然后也没写出来。然后主管面面的时间还挺长的，然后问了好多。我现在暂时只能记得着这么多，其他应该还有一些问题。面试官说感觉还行，但是我不知道他是不是跟其他人也是这样说的，毕竟华为的池子还是挺大的，好多人都在泡池子。

6.7日oc

后续还是得好好刷题，做题这块还是差点意思。

Hexo博客配置Github Actions和仓库分支存储实现自动化编译部署

2024-03-03T02:19:37.000Z

Hexo博客配置Github Actions和仓库分支存储实现自动化编译部署

这次的这个自动化其实是解决了一个大的问题，之前不带自动化的处理太麻烦了，而且加上之前也没配置好图床，导致每次写博客不仅要准备很久的材料，还要一张一张的上传照片获取链接，然后源文件建了一个github仓库，然后一个仓库只用作github pages，这样的话，每次写博客都要手动编译，使用hexo g然后hexo d，部署，最后使用另外一个仓库提交更改，然后commit，push到github pages仓库，这样很麻烦，所以我就想到了使用github actions自动部署博客，然后使用仓库分支存储图片等资源。（虽然不怎么写博客）
相信以后写文章方便之后一定能经常写（大概）。
这块我参考了之前浪潮的一次技术讲座，不过那个稍微麻烦了一些，我这里就简化了一下，做了个升级版。

1.把源文件和github pages的文件分开

source文件和在github上编译好的github pages还是要区分开，这里选择的还是原来github pages的仓库，clone到本地后

随后建立静态界面的分支，同一个Bash窗口，键入

1 2	cd 你的Github用户名.github.io # 进入博客仓库文件夹 git branch html # 新建静态页面分支，存放生成的博客页面

2. main分支文件修改

首先将你的仓库文件夹清空。

注：所有清空操作建议在Git Bash窗口中进行，键入

1	rm -f * -r # 强制递归清空仓库文件夹

这样不会将.git/文件夹中的仓库记录(这里此文件夹作为隐藏文件没有显示)删除，否则后续Git无法定位，也就无法继续操作
随后将之前博客的文件夹中的所有文件复制到这个仓库文件夹中，注意不要复制.git/文件夹，因为这是仓库记录，复制后Git无法定位，也就无法继续操作；另外node_modules/文件夹也不需要复制，因为这是node.js的依赖包，不需要上传到仓库中，不然可能会报错。

3. 推送main分支更改

回到仓库文件夹下的Git Bash窗口，输入:

1
2
3

git add . # 添加所有文件
git commit -m "update branch main" # 提交更改
git push # 将修改推送到远程仓库

4. 配置GiHub Actions工作流文件

在仓库文件夹.github/下新建一个目录workflows/(注意有两层目录)，在里面新建一个hexo_build_deploy.yml文件，内容如下：

name: Hexo Build & Deploy

on:
# 触发事件
  push:
    # 排除分支
    branches-ignore:
      - 'html'

# 工作流
jobs:
  build:
    runs-on: ubuntu-latest

    steps:
        - name: Checkout branch main
          uses: actions/checkout@v2
          with:
            ref: main
            path: .

        # 工具安装
        - name: Use Node.js
          uses: actions/setup-node@v3
          with:
            node-version: '20'
        - name: Install dependencies
          run: npm install

        # 构建
        - name: Build
          run: npm run build

        # 部署
        - name: Deploy
          uses: JamesIves/github-pages-deploy-action@v4.5.0
          with:
            branch: html
            folder: public

5.修改GitHub仓库设置

先在博客仓库Settings的Pages中将Branch设置为html

然后将Actions下的General中的Workflow permissons设置为Read and write permissions

6. 推送更改

然后将更改推送到远程仓库

1
2
3

git add .
git commit -m "update"
git push

7. 等待部署完成

没有报错的话就完成了

https最好也打开。

一些其他问题

我在配置过程中碰到了一些其他问题，腾讯云配置DNS我开始弄的有点问题，就重新配的DNS Pod 。

除此之外，在配置的过程中node_modules是不需要的，我开始这里加了，后面报错，去掉就好了。

另外一个问题是我把源文件复制过去之后，最后部署完成之后网页是空白，最后发现是theme文件下的butterfly主题文件夹是空的，我把这个文件夹删了，然后重新clone了一遍butterfly主题，再部署就好了。

参考链接

https://www.xdu-inspur.club/blog/site/%E6%8A%80%E6%9C%AF%E6%96%87%E6%A1%A3/get_a_blog.html#_7

服务器常见技术问题与技巧

2023-09-03T12:29:37.000Z

目前碰到的一些技术问题与知识

ubuntu安装驱动时候出现的问题

1
2
3

echo -e “blacklist nouveau\noptions nouveau modeset=0” > /etc/modprobe.d/disable-nouveau.conf
update-initramfs -u

修改启动参数:在GRUB菜单中选择Ubuntu启动选项，按下”e”键以编辑启动参数。尝试在命令行中添加”nomodeset”参数，然后按下F10键启动。

ubuntu安装cuda驱动时候出现报错

安装显卡驱动需要关闭图形界面，在命令行完成安装（提前下好安装包）
关闭图形界面

1	sudo systemctl isolate multi-user.target

开机可能出现黑屏，按ctrl + shift + F2即可进入命令行窗口，登录即可，随后安装驱动，安装完成之后，执行下边命令开机默认进入图形用户界面。

1	systemctl isolate graphical.target

给Ubuntu安装驱动（nvidia）保姆级教程（方法一）_X.等雨停的博客-CSDN博客

ubuntu拨号上网以及各种方式上网设置

命令行输入即可进入图形管理界面

1	nm-connection-editor

ubuntu22.04 向日葵远程无法连接成功

需要切换桌面模式

ubuntu机械盘挂载

#创建挂载路径
sudo mkdir /data
#格式化硬盘
sudo mkfs -t ext4 /dev/sda
#挂载硬盘
sudo mount -t ext4 /dev/sda /data
#开机自动挂载
sudo vim /etc/fstab
#在最后一行加入
/dev/sda /data ext4  defaults 0 0

使用yaml创建虚拟环境

1	conda env create -f environment.yml

例如：

name: transformer
channels:
  - pytorch
  - conda-forge
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - _openmp_mutex=4.5=1_gnu
  - astor=0.8.1=py39h06a4308_0
  - autograd=1.3=pyhd3eb1b0_1
  - pip:
    - argparse==1.4.0
    - einops==0.3.2
    - nystrom-attention==0.0.11
prefix: /home/ps/anaconda3/envs/transformer

最后的prefix指定环境位置

使用`.gitkeep`文件保存空文件夹

创建一个新的普通用户

sudo useradd -m ai -s /bin/bash
sudo passwd ai
# sudo adduser ai sudo
su ai

创建了可以登录的ai用户并使用/bin/bash作为shell。
设置密码。
为ai用户增加管理员权限。
切换登录用户为ai。

为普通用户添加sudo权限

# 为用户username添加sudo权限
sudo usermod -a -G sudo username
 
# 去除用户username的sudo权限
sudo usermod -G usergroup username

给用户授权

1
2
3

groups ai
usermod -aG sudo meow
visudo

删除用户

1	sudo deluser --remove-home ai

删除用户目录

查看所有用户

1	grep bash /etc/passwd

linux新建用户也使用原来conda环境

a用户下安装anaconda，默认地址不变，b用户直接不可用，在b用户登录的终端编辑b用户的.bashrc文件，在文档最后一行加入

1	export PATH=$PATH:/home//anaconda3/bin

保存退出，并source .bashrc，然后conda init就可以了

高级配置参考Anaconda 多用户共享安装（Ubuntu） - 知乎 (zhihu.com)

给用户授予docker使用权限

1 2	sudo gpasswd -a $USER docker newgrp docker

$USER可以更换为其他，不换就是默认的。第二步有可能需要输密码，然后输入会发现错误，其实是没有设置密码，需要先设置密码，然后这样更新组

1	sudo chmod a+rw /var/run/docker.sock

1	sudo usermod -aG docker $USER

neofetch

方便的查看系统的工具

卸载图形界面

sudo apt-get remove gnome-shell
sudo apt-get remove gnome 
sudo apt-get autoremove
sudo apt-get purge gnome
sudo apt-get autoclean
sudo apt-get clean
reboot

ssh免密登录

1	ssh-keygen -t rsa

1	cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

1	ssh-copy-id -i ~/.ssh/id_rsa.pub root@服务器IP

lscpu

cudnn source problem

W: GPG error: file:/var/cudnn-local-repo-ubuntu2004-8.6.0.163  InRelease: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 323547C4B0FE0A41
E: The repository 'file:/var/cudnn-local-repo-ubuntu2004-8.6.0.163  InRelease' is not signed.
N: Updating from such a repository can't be done securely, and is therefore disabled by default.
N: See apt-secure(8) manpage for repository creation and user configuration details.

then input sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 323547C4B0FE0A41 to solve the problem.

But it doesn’t work. You can follow the steps below to solve the problem.

1	sudo cp /var/cudnn-local-repo-ubuntu2004-8.4.1.50/*.gpg /usr/share/keyrings/

复制到/usr/share/keyrings即可。

两个盘软raid命令

sudo apt-get install mdadm
#格式化两块硬盘
#sudo mkfs.ext4 -F /dev/sdb
#sudo mkfs.ext4 -F /dev/sdc
#mdadm管理 raid0
sudo mdadm --create --verbose /dev/md0 --level=0 --raid-devices=2 /dev/sd{b,c}
#格式化并挂载
sudo mkfs.ext4 -F /dev/md0 sudo mkdir -p /home/md0 sudo mount /dev/md0 /home/md0

每隔时间杀程序

kill_python.py

while [ true ];do
sleep 5
ps -ef |grep -w  python |grep -v grep | awk '{print $2}' | xargs kill -9
done

然后再讲其添加到crontab中，执行crontab -e，添加如下：

1	/30 * * * /usr/bin/sh /aa/bb/cleanFfmpegProcess.sh

:wq即可。

关闭服务器自动休眠

1	sudo systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target

查看系统休眠状态

1	systemctl status sleep.target

设置github的ssh连上github

生成ssh key

读取公钥

1	cat ~/.ssh/id_rsa.pub

复制粘贴到github。github配置ssh key的地方在
https://github.com/settings/keys

测试ssh key是否配置成功，在linux开发机上输入
$ ssh -T git@github.com

如果出现Hi xxx! You’ve successfully authenticated, but GitHub does not provide shell access 。这就表示已成功连上github

3、配置git的用户名和邮箱

1 2	$ git config --global user.name "your name" $ git config --global user.email "your_email@youremail.com"

以后可以通过git config –global -l来查看全局设置，git config –global -e来编辑

更新包导致cuda和驱动版本不对应，NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver

终端nvidia-smi出现这样，是内核版本更新的问题，导致新版本内核和原来显卡驱动不匹配

查看已安装内核

1	dpkg --get-selections \|grep linux-image

查看正在使用的内核

uname -a

利用命令 ll /usr/src/ 可查看下面有一个nvidia-470.82.00文件夹，版本号因电脑而异。

只需执行两条命令就好：

1 2	sudo apt-get install dkms sudo dkms install -m nvidia -v 470.82.00

（470.82.00表示的是驱动版本号）

禁止内核自动更新

1）命令行关闭系统自动更新，使用命令打开文件并编辑

1	sudo gedit /etc/apt/apt.conf.d/10periodic

将双引号中的“1”全部置“0”即可，修改后保存。

ubuntu默认启动了自动更新内核，为了避免出现重启系统后遇到错误进入不到系统中去，我们可以进一步关闭内核更新，使用当前内核。

1
2
3

$ sudo apt-mark hold linux-image-generic linux-headers-generic 
linux-image-generic set on hold.
linux-headers-generic set on hold.

如果要重启启动内核更新：

1	sudo apt-mark unhold linux-image-generic linux-headers-generic

文件格式问题

qsub:script is written in DOS/Windows text format

dos格式文件传输到unix系统时，会在每行的结尾多一个^M（/r），当然也有可能看不到。但是在vim的时候，会在下面显示此文件的格式，比如 “dos.txt” [dos] 120L, 2532C 字样,表示是一个[dos]格式文件，如果是MAC系统的，会显示[MAC]。因为文件格式的原因有时会导致我们的unix程序，或者shell程序出现错误，那么需要把这些dos文件格式转换成unix格式，方法是

1
2
3

vim dos.txt
:set fileformat=unix
:w

centos7安装驱动

https://www.cnblogs.com/2012blog/p/9431432.html

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

彻底卸载wsl

在powerShell上
先看还有哪些子系统

1	wsl --list --all

注销子系统

1	wsl --unregister Ubuntu

只读文件系统

在linux硬盘挂载时候，部分情况磁盘变成ro只读而不是rw
一般df查看挂载设备

1	umount -i 挂载路径

rm -rf 目录/文件

在部分情况下，先使用windows系统，后使用linux，可能有系统挂载问题，即使chmod 777 也没用，出现错误：

需要重新挂载

1	umount /dev/sda2

报错target busy
杀死使用该目录的进程：

1	fuser -mv -k /dev/sda2

再次卸载，卸载成功后重新挂载：

1	mount /dev/sda2 /data

报错解决：
报错1：“The disk contains an unclean file system (0, 0). Metadata kept in Windows cache, refused to mount. Falling back to read-only mount because the NTFS partition is in an unsafe state. Please resume and shutdown Windows fully (no hibernation or fast restarting.)”。说明是NTFS分区格式错误
解决方法：ntfsfix修复，需要安装工具：
sudo apt-get install ntfs-3g
安装完成后进行ntfsfix修复：
sudo ntfsfix /dev/sda2
提示修复成功。

报错2：“没有那个文件或目录”。说明/data目录不存在，需要创建。
解决方法：media根目录下创建新目录：
mkdir /media/jngk/data
然后重新挂载，即可挂载成功。
mount /dev/sda2 /media/jngk/data
现在该目录就不是只读文件系统了，在该目录下右键，新建文件夹选项也不再是灰色不可选状态了。

无法将“XXX”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次

进入PowerShell 模式
Get-ExecutionPolicy -List 查看当前所有作用域
1

上图显示就最后一个作用域有权限，其他作用域都没有权限，那么我们就需要去给它设置权限

设置权限
Set-ExecutionPolicy RemoteSigned -Scope < scopeName >,设置当前用户作用域具备权限，具体设置格

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
1

按照上面的格式，执行需要加权限的作用域，然后再去尝试之前的方法，发现就不会报错提示了。

挖矿病毒处理

找到病毒文件：

方法一：由于入侵者对程序的名称做了伪装，无法直接通过其进行查找。因此使用PID入手，查找其在/proc里的文件，进而发现了关键路径

将所有病毒文件展示出来，可以发现关键词miner

对里面的文件作进一步的查看，可以看到ETH（以太坊）、POOL、WALLET等关键词，实锤中了挖矿病毒

此外，查看run文件，可以发现这个病毒文件确实做了伪装

方法二：考虑到入侵者可能会用某些方式将病毒程序作一定的隐藏，这里通过查看用户的计划任务来定位病毒文件，因为病毒文件可能被kill掉而入侵者不会每次都自己手动启动的，肯定会设置自动启动。查看计划任务的命令为crontab -l
为了查看病毒文件在服务器上是否有多份，可以使用如下命令一次性查看所有用户的计划任务：

for u in $(cat /etc/passwd | cut -d":" -f1)
do
    echo $u>>temp.txt
    crontab -l -u $u >> temp.txt
done
cat temp.txt
rm temp.txt

方法三：尝试定位病毒文件中的特有关键词，比如“miner”
updatedb
locate miner

由于locate命令不能查找/dev/shm之类的路径，以防万一可以使用find命令，不过会很慢

find / -name miner

应对方法：

删除整个病毒文件夹（python），kill相关的PID，并删除相关定时任务（使用命令crontab -e，或者如果只有一个定时任务的话可以用命令crontab -r）

更改所有用户的密码，并设置一定的密码复杂度（可以使用cracklib）

移除所有除了管理员以外用户的sudo权限

admin="root,sudo,%sudo" # 填入管理员账号（前三个不能删）
for i in $(cat /etc/sudoers|grep  "ALL=(ALL:ALL) ALL"|cut -f 1|cut -f 1 -d ' ')
do
    echo $i
    if [ -z "$(echo $admin|grep $i)" ]
    then
        echo "*** deluser $i sudo"
        deluser $i sudo
    fi
done
for i in $(getent group sudo|cut -f 4 -d :|tr -s ',' '\n')
do
    echo $i
    if [ -z "$(echo $admin|grep $i)" ]
    then
        echo "*** deluser $i sudo"
        deluser $i sudo
    fi
done

删除现有的所有密钥&授权

updatedb

删除公钥+密钥

for pub in $(locate .pub|grep .pub$)
do
    u=$(ll $pub|awk '{printf $3}')
    # 根据UID判断所属用户是否为普通用户
    if [ 999 -lt $(id -u $u) ]
        then
            pri=$(echo ${pub%????})
            rm $pub
            rm $pri
            echo del  $u $pub $pri
        else
            echo save $u $pub
    fi
done
# 删除knowN_hosts
for i in $(locate known_hosts|grep known_hosts$)
do
    rm $i
    echo del $i
done
# 删除authorized_keys
for i in $(locate authorized_keys|grep authorized_keys$)
do
    rm $i
    echo del $i
done

查看剩余

updatedb
locate .pub|grep .pub$
locate known_hosts
locate authorized_keys

可能会遇到某个文件用root权限也删除不了

如果使用命令lsattr发现该文件的隐藏属性中存在除了e以外的属性，则用命令chattr来移除这些属性

设置远程连接只能使用密钥，不能使用密码

禁止使用root账号进行远程连接

使用终端安全杀毒软件、内网安全监控产品、漏洞扫描设备等专业工具

查杀病毒

1、crontab -e 发现一条自启动任务，且为“python”程序，但不确定是否为挖矿程序，暂时保留
2、根据挖矿程序PID，进入/proc/PID目录下检查
进入/tmp/…/Python目录

通过sudo vim config.ini检查config.ini文件，发现正是挖矿配置文件，从而自启动任务为挖矿任务

4、kill挖矿进程，删除挖矿文件及自启动任务，同时关闭挖矿病毒使用的端口
5、使用杀毒软件全盘查杀

在cuda版本过高的情况nvidia官方bug，会出现内存泄露no such progress

使用

1	python3 -m pip install --upgrade nvidia-ml-py

fsl 安装

使用本地安装包
解压缩到要安装的文件夹。推荐和我一样解压缩到/usr/local目录下
有可能会出现权限不足的问题无法解压缩，可以在usr目录中打开终端，输入
sudo chmod -R 777 local
输入密码后，打开权限
配置环境变量.bashrc

export FSLDIR=/usr/local/fsl
export PATH=$PATH:$FSLDIR/bin
source $FSLDIR/etc/fslconf/fsl.sh

卸载cuda

1
2
3

cd /usr/local/cuda-xx.x/bin/
sudo ./cuda-uninstaller
sudo rm -rf /usr/local/cuda-xx.x

微星tpm

微星gl63有TPM的，下面教你如何操作：
首先进bios
然后按右边的CTRL+SHIFT+左边的ALT+F2开启超级模式。
之后在高级选项中找到PCH-FW Configuration
找到PTT Configuratio
把dTPM改为PTT（如果已经是PTT可以跳过此步）。
之后在高级选项中找到Trusted Computing
找到Security Device Support，将Disable改为Enable
按F10保存。

浅谈《原神》游戏的理解

2023-02-07T00:00:00.000Z

浅谈《原神》游戏的理解

关于游戏本身

游戏本身而言是全平台兼容的角色扮演（RPG）游戏，在更多的时候是划分在手游类别的，在手游中属于天花板的水平，但是相比于很多主机游戏以及部分买断制游戏如埃尔登法环、赛博朋克2077、荒野大镖客等游戏还是有不小的差距。作为一款国产二次元游戏，该游戏做的已经很不错了，自从游戏发布以来，月充值流水屡创新高，小部分的重度氪金用户支撑起了大部分的零氪玩家，不氪金也可以体验到游戏的所有内容和大部分游戏体验，氪金的点主要就在于角色和武器需要抽取，而抽取的成本不低，16元一抽，在非常特殊的情况下甚至需要两千多元才能抽取到一个角色，这也是游戏被诟病的主要一点。

对于游戏受众

对于游戏受众而言，可以在游戏中体验到不同的国家，在扮演旅行者的过程中体验到多种多样的内容，很多人是冲着游戏角色来的，也有很多是体验高质量的画风等等。

游戏好的一点是游戏属于内容制作型，属于PVE即玩家对战环境，这样玩家与玩家之间不存在什么竞争关系，这样使得游戏的风气是非常和谐的，在这么长时间的游戏过程中和很多玩家交流，都是非常热心帮忙的，大佬后期长草经常会帮新玩家探索打boss等等；而很多游戏都是属于PVP，即玩家和玩家对战，这样的竞技性游戏很多时候几乎每次玩都会见到互相骂的情况。相比之下，原神游戏的环境还是好了太多。

相比于买断制游戏，这种无门槛体验所有内容的方式还是更适应实际的需要，很多人天天呼吁买断制如何好，然而叫好不叫座，动辄数百元的游戏，还没开始玩就要先花几百元，还不知道好不好以及能不能玩得来，成本还是太高了，所谓的外国人更喜欢3A大作也并没有，原神在海外的流水也非常高，也很受国外玩家喜爱。对于很多游戏玩家，不仅有很多买断游戏，也在原神中氪金了很多，很多游戏都玩，也有了不同的游戏体验。

除此之外，游戏制作中还花重金在音乐和画面上，在游戏中也能体验到各国传统的音乐，相关音乐很多时候都是各国的交响乐团演奏的，制作品质不低，高雅的艺术也变得易于接受和体验，对于玩家而言也是很不错的。游戏的制作过程中也发扬了部分中国传统文化，将很多传统傩舞戏剧等内容加入游戏，将非常晦涩难以接近体验的传统文化变得通俗易接受，也让外国人了解到这些内容，虽然不能完全成为文化输出，但是让外国人了解到这些，甚至进一步加深了解还是很好的，相比之前大价钱在各国建设孔子学院而收效甚微，这种潜移默化的方式还是更容易接受，也赚得了外国人的钱。虽然米哈游作为一个公司也是要盈利，但是在盈利的过程中确实对于中国文化的输出起到了一点的作用，这点也是值得肯定的。

对于网络喷子

一部分网络喷子的关注点在于《原神》的全平台兼容性，全平台中很多玩家都是手游玩家，而很多玩家是PC玩家或者主机玩家，在游戏圈中存在着所谓的鄙视链，即主机>PC>手游，这种鄙视究其根本在于经济基础，一般家庭很少会有花几千元买游戏机；个人电脑适用性较广；手游成本最低，可以玩手游的人最为广泛。《原神》更多的时候是作为手游来比较，因此很多时候处于鄙视圈底层。这种鄙视深究可以发现，相比人种歧视，很多时候贫富差距的歧视以及地域歧视都不容忽略。

另一部分原因是由于游戏做的过于好，游戏质量之高远高于之前的其他很多游戏，游戏火出圈后就存在几种问题：

很多人接触的游戏都是较少的，只有主流的《王者荣耀》、《和平精英》、《英雄联盟》或者吃鸡、守望、CF、csgo等等，部分游戏质量并不高，但是基于社交的游戏更符合大众推广，哪怕游戏质量一般，但是《原神》在手游上的天花板让很多人第一次接触到很好玩的游戏，日常痴迷甚至到处开喷说不如原神，在和《原神》毫无关系的地方刷游戏的相关内容或者引战。
游戏玩家数量过多导致的问题就是受众过于广泛，作为一款12+的游戏，游戏中可能有小中学生到高中大学生，再到不同年龄阶段和不同文化水平的人，俗话说林子大了什么鸟都有，存在部分不理智的玩家也很正常，这种就类似于一个地区的人有个别不文明就直接认为整个地区的人都有问题，这样的玩家毕竟是少数。很多游戏如英雄联盟等有时候玩家也会有不理智的行为，也不会有很多人认为这一群体就有问题了，同样也是受众广泛，表现很多时候并不同。
游戏质量高对于竞争对手的压力，相比之前的很多游戏，这都算是降维打击，演示的视频就是实际实机视频，这种就类似于吃了一碗红烧牛肉面，打开方便面发现包装和实物一样，这种在手游中从未遇到过，导致竞品难以望其项背，相比于投巨资做同等级别的游戏还可能竞争不过，抹黑反串引战已经是成本最低的最优解了，因此从两年半前游戏发布以及游戏刚出之前很多媒体都声称黑暗降临，至今很多都在抹黑并在各种无关的地方刷相关内容，或者取相关的名字换头像，然后发引战言论，这也就是最初所谓op的由来。
很多玩家的跟风心理，部分玩家也没玩过很多游戏，也没体验过《原神》，但是经常在很多地方刷到相关的反对言论就认为游戏如何不好，低人一等并鄙视玩游戏的人，很多这种人都是心智不成熟，玩游戏还能玩出优越感，也有的这些人后来也开始玩原神，也是出于跟风心理，不过这也正常，毕竟很多人都是这样的。
部分玩家的崇洋媚外心理，认为外国人做的东西就是好的，中国人做的就是不好的，就要抹黑，然而在国外，现在已经过去了两年半，《原神》游戏的流水还是很高，热度也不断，移动端2022年就超过了190亿，实际而言，身边玩原神的很多，大部分都不是手游玩家，实际流水要高很多，游戏质量得到了肯定。在国外都很受欢迎证明外国人也肯定，那么很多时候在国内黑的更多可能会有点奇怪。

对玩家潜在的风险

游戏制作较为精美，而且属于角色扮演类型的游戏可能会导致的问题有以下几点：

游戏较为精美而容易沉溺于虚拟世界，一玩就会花去很多时间，导致用于平时生活的时间减少，相比于很多游戏而言，《原神》用于每日基本任务等内容的时间约为半小时，加上活动抽时间做，实际而言消耗的时间并不是很严重的问题。
游戏中角色可以见到多样的世界，扮演能力强大的旅行者，而这种体验是在现实生活中不可能体验到的，出于人类的本能，这种落差是肯定会面对的，很多时候游戏玩家每天会花更多的精力在游戏中，进而影响现实生活。
游戏虽然可以联机，但是主要玩法和内容都是单机游戏，这种在互联网时代普遍存在的问题更严重了：缺乏和人的交流，更多的和游戏内探索互动，可能导致和人交往的能力下降，性格内向以及部分性格障碍，这种潜在的问题对于部分人而言是有影响的。
游戏的一大卖点在于人物角色，人物的塑造，声音以及服装的设计是非常优秀的。实事求是的来说，一定程度的软色情，很多时候经常“老婆”的这样叫着，很多时候是出于图一乐的心理，但是有时候也会有不小的问题。游戏中的角色很多时候都有一定的人设和意义，代表着一定的特点，很多时候都是较为完美的，让人非常喜爱，但是过于沉迷于虚拟的人往往会提高人的阈值，这样在现实生活中见到正常人都是不完美的时候产生的巨大落差有可能会使得不能很好的面对现实生活中的人。

总结

写这些更多的是为了树立一个正确的思想，《原神》也不可能非常完美，但是为了黑而黑或者跟风输出可能并没有什么意义，游戏作为日常生活的一个调剂，适度游戏放松也是很好的，过于沉迷游戏而忽略现实生活则会带来问题，游戏只是个工具，想玩什么就玩什么，但是借此非要打个标签就没必要了，愿读者也有正确的价值观。

ActionFormer论文分享

2022-11-09T18:01:37.000Z

ActionFormer论文分享

由于水平有限，讲的内容也可能会出现不是很正确的地方，欢迎大家批评指正，沟通交流。今天给大家分享的是之前做过的项目中使用到的一个模型，这个模型在时序定位中取得了非常好的效果，这是Papers with Code上在THUMOS14数据集上的结果，当后面几名还是相差一个点的时候，已经比第二名领先了十多个点，因此我拿来分享一下这个模型，讲一下关于模型的结构以及使用感受。

ActionFormer在THUMOS‘14效果

视频领域常用的数据集

**THUMOS14：**数据集包含大量的人类动作在真实环境中开源视频。动作包括日常生活动作。THUMOS14的主要挑战是动作实例持续时间的巨大变化。具体来说，短动作实例只能持续十分之一秒，而长动作实例可以持续数百秒。

**ActivityNet ：**是目前视频动作分析方向最大的数据集，包含分类和检测两个任务。目前的1.3版本有200个类别，涵盖了200种不同的日常活动。

**EPIC Kitchens 100：**记录了多个多角度、无脚本、本地环境中的厨房场景。它们均来自拍摄者真实的日常饮食生活，并且使用了一种新颖的实时音频评论方法来收集注释。

时序定位任务

动作识别可以看作是一个纯分类问题，其中要识别的视频基本上已经过剪辑，即每个视频包含一段明确的动作，视频时长较短，且有唯一确定的动作类别。而在时序动作定位领域，视频通常没有被剪辑，视频时长较长，动作通常只发生在视频中的一小段时间内，视频可能包含多个动作，也可能不包含动作，即为背景。找到视频中动作的起始和结束，很多时候还需要找出其中动作属于哪一类。这一任务类似于时间上的目标检测，因此很多目标检测中的方法也常常拿来应用在这一领域，比如Faster-RCNN中两阶段的思想，先找到候选区域，再筛选，回归修正。有基于滑窗的方法，基于候选区域的方法。而本次讲的ActionFormer则是单阶段无锚框的方法，如图中所示，直接通过Transformer模型预测出每一刻的动作类别和他们这一时间点到动作开始和结束的距离。

ActionFormer模型结构

这一模型使用分类分数以及回归分数来计算出动作的情况，分类的分数用于对动作进行分类，回归的分数用于回归出动作的开始和结束的时间点，这个过程就有点像目标检测，事实上，时序定位的很多方法都是从目标检测中借鉴过来的，这里的分类和回归也就像目标检测中找到锚框中目标的类别和对锚框体的回归，不过时序定位的这个任务是在时间上一维的。

总体结构、输入输出

模型的输入是首先对视频经过特征提取，根据视频的长度处理成很多个向量，随后把特征向量送入网络，网络的开始是使用卷积进行映射，随后是一个Transformer结构作为编码器，经过这个结构之后，使用了一个轻量级的卷积进行解码，最后使用分类和回归头得到每个时刻的预测类别，开始和结束，最后通过转化变成预测的结果。

在送入模型训练的时候，只有特征向量是不行的，还是需要一些信息的，比如训练的时候就需要标注信息，片段的起始和末尾，所属的类型，划分为训练还是测试，视频的持续时间和fps帧率信息，在测试的时候不需要标注信息，但是关于视频的帧率和持续时间这些信息还是需要的。

对于模型的输出，我们需要的是一段时间的开始时刻，结束时刻以及对应的分类，因此问题可以转化为

对于时间上的每一个时刻，预测出$p(a_t),d^s_t,d^e_t$，其中$p(a_t)$包含C个值，随后使用以下的公式来求出该时刻预测的结果

具体的结构可以划分为以下几个部分：

特征提取
使用卷积进行映射
Transformer编码器
卷积网络解码
分类和回归头
损失计算

接下来我讲详细讲这几个部分。

特征提取

特征提取是视频领域常用的操作，因为视频相比图片来说信息量更大，而且视频中存在着非常多的信息冗余，如果直接把视频放入网络，计算量也会很高，因此很多任务会使用特征提取后的特征进行处理。

使用预训练好的模型进行特征提取，一般常用双流I3D进行特征提取，双流I3D模型是视频领域中经典的模型，一路使用RGB信息建模空间信息，一路采用光流信息建模时间变化信息。预训练一般使用Kinetics-400这样的大型数据集，提取出1024*帧数的矩阵，向量和视频的帧具有时间上的对应关系，不过经过实验，其他模型如R(2+1)D、TSN等模型也可以，效果差不多。这里提取特征的时候，一般是采用一个特征向量对应16帧，然后每次向后移动1帧的这种形式，具体参数根据需要进行更改，这种得到的特征向量个数其实是总帧数-16，不过这点差别是不影响结果的。

用卷积进行映射

使用这一操作，论文中说有助于更好地结合时间序列数据的本地上下文，对于这一点，我的理解是卷积操作使得可以更好的捕捉到相邻时间前后的信息。

另一点是稳定视觉Transformer的训练，这一点怎么体现的具体论文也没说，我也不是很清楚。

多尺度Transformer进行编码

把$Z_0$进行特征表示，乘以一个W
$$
Q=Z^0W_Q, K=Z^0W_K, V=Z^0W_V
$$
自注意力输出，这里就是一般Transformer的这种方式，计算一个余弦相似度，然后进行缩放，进行softmax操作，最后和Value相乘得到结果。
$$
S=softmax(QK^T/\sqrt(D_q))V
$$
使用Transfomer的时候这里是通过使用可选的下采样构建特征池化金字塔，从而更好的关注到时间上不同距离的影响。

作者在后续的消融实验中证明了使用Transformer结构是取得好的效果最重要的原因。

在编码的时候作者也考虑使用位置编码，但是发现加上之后效果会更差，因此默认是没有使用的

使用卷积网络进行解码

对于使用卷积网络进行解码这一步骤中，这里使用的是带有分类和回归头的轻量级卷积网络。分类头检查特征金字塔上所有 L 层的每个时刻 t，并预测每个时刻 t 的动作概率 p(at)。分类网络是使用 3 层 1D 卷积实现的。回归头也检查金字塔上所有 L 级的每一时刻 t。不同之处在于，仅当当前时间步 t 位于某个动作中时，回归头才预测到动作开始和偏移的距离。除此之外，在后处理环节还使用了非极大值抑制（nms）操作，把多余的预测消除掉。

损失计算

在损失计算这部分，使用了分类损失和回归损失，仅当预测的分类不是背景的情况下计算回归损失，相应的还设置了权重。

模型缺点与改进方向

缺点

最大的问题应该还是在于使用预提取的视频特征，不是端到端的模型，从实际使用来说，特征提取花的时间远大于实际的代码训练与推理，在项目应用中，一个几秒的视频特征提取在1060上需要6秒左右，而模型推理只需要0.02秒，这一问题在应用时感知非常明显。
另一问题应该还是使用了大量有标注的信息，而这一信息不易获取而且成本很高。
文中还提到了一个问题在于存在预定义动作词汇的约束。

改进方向

我觉得一个问题在于可以通过可学习的前处理操作替代特征提取的操作，特征提取这一步骤使用的预训练好的模型，在使用的时候是不计算梯度，更新参数的。最近我读了一篇视频领域标注的论文SWINBERT，感觉其中的思想可以参考一些，该模型的前面使用了Video Swin Transformer模型，后面使用了稀疏注意力，而且模型对于帧率是自适应的，不需要再指定视频的帧率信息，这一思路或许可以应用在这一领域。
另一个问题在于这种方法还是有监督学习，需要使用大量人工标记的视频样本进行学习还有预定义的动作词汇的约束，未来可以从预训练方面还有半监督无监督学习等方向改进，在没有人工标签的情况下从视频和文本语料库中学习。
还有一点作者认为目前还缺乏时序动作定位领域的预训练。目前在很多领域都有很大的数据集预训练，随后微调都能取得不错的效果，而在这一领域目前还缺乏。

使用感受

该模型不仅可以预测有开始和结束帧的情况，还可以把开始帧设为0，仅预测结束帧作为关键帧，经过实验发现这样的方法使用起来也没问题，也能取得很好的效果。
在项目中，使用该模型效果确实非常好，而且足够轻量级就可以完成一定要求的任务，训练推理都很快。
在不调参的情况下，使用其他数据集的参数配置效果就很好。
经过实验，在小规模数据集上表现良好。
额外增加了特征提取的操作，增加了使用的复杂度，使用起来需要组合，考虑更多的问题。

总而言之，这一模型在时序动作定位领域这一较为小众的方向中取得了不错的成绩，如果是相关方向的值得一看。

Ubuntu的基本使用

2022-11-01T23:17:37.000Z

实验室的服务器到了，今天给组里的同学们分享了一下Ubuntu的基本使用，匆忙写了一点相关的东西，顺便发上来，虽然也挺基础的，但反正博客也没多少东西，就记录一下好了。

文件组织结构

/home下有用户名的文件夹，该文件夹就是~为主目录，为日常使用的目录

命令在终端中输入，需要注意当前所在的文件夹

常用命令

创建文件夹

mkdir xx

进入文件夹

cd xxx

可以使用相对路劲和绝对路径

cd ..

进入根目录

cd /

根目录下的文件非常重要，不要轻易动。

显示当前文件夹下有哪些文件和文件夹

ls

后面可以接参数

如果是接-a则是查看隐藏文件

ls -a

如果后接-l则是查看详细信息，包括权限

vim的使用

vim是一个非常经典的文件编辑工具

1	vim hello.py

即可进入编辑

进入模式之后可以点击键盘的i或者a插入，即可输入，方向键可以控制，详细的命令很多，可以自行查询

编辑完成之后，需要点击esc退出编辑模式

随后点击shift + :，就是输入:，然后输入w表示保存，随后输入q表示退出

即输入:wq完成保存退出，后面有时候需要加上!表示强制

权限

root是最高权限，在此状态下不要轻易动一些东西，危险

sudo -i

进入root模式

或者

sudo su

exit

退出root模式

发现文件上有锁或者x说明当前是不能使用的，需要授权

权限包括三个部分，用户user、组group、其他人other

权限内容也包括方面，读r、写w、执行x，对应的编码是4、2、1

如向日葵远程传文件，无法执行，常用

1	sudo chmod 777 xxx

xxx为文件名，包括扩展名

给文件夹和文件夹下的所有都授权

1	sudo chmod -R 777 xxx

常用*

如

1	sudo chmod 777 *

*一般是指全部，这里就是指当前文件夹下的所有文件（不包含下一级目录）

很多命令执行没有权限的时候都需要前面加sudo

删除

1	sudo rm xx

有时候后面会跟-rf，表示不询问，把子目录也都删除，慎用，非常危险

日常使用文件

下载的.deb文件可以直接点击安装，或者使用

1	sudo dpkg -i xxx

也可以安装

.sh文件可以直接输入./xxx.sh执行，或者sh xxx.sh，没有权限的时候先授权

常用命令，查看有哪些包可以升级

1	sudo apt update

随后执行

1	sudo apt upgrade

将这些包升级，这是经常需要做的

apt为一种包管理的工具，有很多时候可以直接

1	sudo apt install xx

直接下载安装

snap是ubuntu近些年大力推广的一种包管理的工具

anaconda的基本使用

创建虚拟环境可以使用

1	conda create -n python=3.x

这种方式，随后可以根据requirements.txt的信息执行

1	pip install -r requirements.txt

安装所需的包

也可以通过

1	conda env create -f environment.yaml

从yaml文件中创建环境并安装包。

在linux下使用

1	source activate

在windows下执行

1	conda activate

激活指定的虚拟环境

使用以下命令可以删除环境

1	conda remove -n --all

ssh

这是一种非常方便的远程控制的方法，广泛使用

1	ssh ps@10.120.16.12

输入密码即可远程命令行控制，ps为用户名，后面的为当前局域网下的ip地址，目前在有线校园网的情况下可以直接这样连接

pycharm（专业版）、vscode等软件都可以直接使用远程ssh的解释器，本地写代码，然后远程直接跑。

【论文阅读】 Deep High-Resolution Representation Learning for Visual Recognition

2022-09-20T19:57:37.000Z

【论文阅读】 Deep High-Resolution Representation Learning for Visual Recognition

简介

在计算机视觉中高分辨的表示是非常重要的，HRNet是用于识别的高分辨网络，广泛的用于姿态检测以及语义分割中，也可用于目标检测。

网络结构

相比一般的网络，HRNet具有特殊的结构，一般的卷积神经网络往往是随着网络的深入，特征图的分辨率逐渐由高到低，这样的网络结构设计适合一般的视觉问题，视觉空间信息都是冗余的，对信息的精准度要求不高，但是这种结构在面对关键点检测以及语义分割问题的时候就不能很好的完成任务，精准度不够。因此就有了HRNet的结构设计如下图所示：

HRNet网络在模型的整个过程中都能保持高分辨率，采用并行的网络，不同的流的分辨率不同，在网络的第n个阶段有n流个网络，从前往后每次下采样一个流，同时在阶段的连接出对信息进行交汇，从高分辨率使用卷积到低分辨率，从低分辨率的流上采样到高分辨率的流，最终得到模型。
模型的特色有两点：

使用并行连接从高到低分辨率的卷积流
跨分辨率反复交换信息

使用并行连接使得在整个过程中都保持了高分辨率的表示，使用了跨分辨率的反复融合信息使得模型对于位置具有很强的敏感性，可以较好的完成相关的工作。

模型的变体

在HRNet模型中共提出了三种模型的结构，HRNetV1 HRNetV2以及HRNetV2p这三种结构

其中V1只使用了融合最后的高分辨率流，这种结构相比V2运算量更小，而在关键点检测任务中和V2版本性能基本没有差别。而V2版本对最后的信息都进行了融合，在语义分割任务中表现较好。V2p则是在V2的基础上形成特征金字塔，更适合目标检测任务。

消融实验

消融实验证明分辨率确实会影响关键的检测的质量，这一点与一般的感觉相符。对多分辨率融合的实验也证明了融合会带来好的性能提升。

结论

对该模型的研究中可以得到一个结论，针对特定的问题来设计网络架构可能是有用的。此外，一个可能的误解在于分辨率越高，HRNet的内存消耗越大，但是实际是在姿态估计、语义分割以及目标检测中，内存成本并未很高。

今日随笔

2022-05-10T00:00:00.000Z

我终于把图床修好了

之前gitee的图床用不了，因此这段时间博客都一片404（其实本来也影响不大，毕竟也没几篇博客），今天总算抽出时间修一下，虽然不是什么特别麻烦的事，就是懒。之前的图还真是手动一个一个传的，效率太低，现在用了typora+picgo+github，总算是能用了，方便了不少，希望以后会多更新下吧。之前说的要把大作业都传上去，也能方便后面的学弟学妹，但是后面要么懒，要么就做毕设，最近毕设做的差不多了，又要开始准备做研究生的项目了（虽然确实不多）。

不过前段时间做的一个有意义的事是联系了两个小伙伴，把自己的考研经历分享到了GitHub，三人成绩还行（平均380+），也上岸了，下一篇就分享一下经历。

最近在做毕设论文的修改，同时也学习一下深度学习相关领域的知识，毕竟准研究生了，要学的很多东西可以先准备着了。

Ubuntu 20.04下Pytorch深度学习环境搭建以及常用工具配置

2022-04-10T00:08:37.000Z

Ubuntu 20.04下Pytorch深度学习环境搭建以及常用工具配置

作者：CoderJackZhu

从事计算机相关行业的在今后学习工作过程中总会接触到Linux系统，而且在很多情况下，Windows下可能会出现一些奇奇怪怪的bug，这些问题部分是系统的问题导致的，比如常见的路径中不能带中文。深度学习环境有时候为了更好的管理机器，取得更好的效率也常常采用Linux系统，这里选择Ubuntu是对于个人的萌新而言，应该选择尽量大众些的系统，出问题也容易找到解决办法，比如由于各种误操作，linux系统我至少已经重装过不下二十次了，为了更好的学习相关知识，这样一个系统的搭建也是需要的，这里写出这个博客为了方便使用，也让我之后重装系统的时候不用再找好几个博客了。

“双系统”中Ubuntu安装

这里的所说的双系统并不是真正的单个硬盘上多个挂载点的双系统，而是把第二个系统装在移动硬盘里面，这样正常开机默认还是Windows系统，需要选择系统就在进入系统时长按F11（不同品牌电脑不同），选择相应的系统就可以进入了，这样的安装相比一个硬盘上多个挂载点简易不少，配置难度低，而且不易出问题，不然一不小心两个系统都不能用了，这样Linux出了问题只需要直接覆盖重装就可以了，下面是具体步骤：

准备需要的工具

这里软件方面需要准备的是，从官方网站上下载Ubuntu的镜像，以及刻录软件。刻录软件使用UltraIso或者balentEtcher都是可以的，balentEtcher相对操作更简易些。

硬件需要准备的是一个U盘用于制作启动盘，尽量大于等于16G，一个移动硬盘用于安装系统，尽量大于128G，毕竟实际使用过程中数据集也比较大，还是需要给后续留足空间。

制作启动盘

安装好Format后选择文件为之前下的系统镜像，选择硬件为U盘，然后点击Flash就可以了，等几分钟安装校验完就可以了。

安装

然后重启并选择使用刚才的U盘启动，就可以进入安装Ubuntu的界面了，正常使用的话选择中文汉语，正常安装，勾选安装第三方软件。这个时候可以插上移动硬盘了，然后输入自己的用户名密码什么的，之后就进入选择安装位置了，这里点击清理磁盘安装就可以了，不然挂载点就很不太好理解，然后下一步点击你插入的那个硬盘，这里注意别选错，根据你的硬盘大小就能判断出了，选错其他盘的话可能你的数据就凉了，然后下一步。然后选择地图上的位置为shanghai就可以了，之后就进入安装了，等一会安装完然后点击重新启动，然后根据提示拔掉U盘，然后开机的时候选择那个硬盘启动，这个时候硬盘的名字就已经是Ubuntu了，然后两次回车就可以进入系统了，到这里，系统的安装就算完成了。

深度学习Pytorch环境配置

正常使用深度学习环境跑代码，GPU是必不可少，这里只演示GPU版本的pytorch的安装，所需要的工具为Anaconda、CUDA、cuDNN、Pytorch。Anaconda可以用来管理不同版本的环境，CUDA和cuDNN是使用GPU计算所需要的工具这里需要注意相互之间的匹配关系，首先去pytorch官网可以看到

因此这里选择CUDA11.3，然后根据CUDA的版本，选择cuDNN的版本，具体在下载cuDNN的时候可以看到。

安装驱动

安装NVIDIA驱动有多种方式，比如可以去官网下载最新版，这里介绍最简单的一种，首先打开软件与更新，然后点附加驱动这里，系统默认用的是开源的的驱动，这里选最上面的几个版本高的就可以，这里安装的cuda11.3驱动至少要470以上，然后点击应用更改等一会就可以了。

安装完成之后在命令行输入nvidia-smi就可以看到下图GPU情况，这就说明驱动基本没问题了。

下载安装cuda

这里找官方网站

可以看到这里默认是11.6版本的，这里点击下方中的Archive of Previous CUDA Releases并选择对于的11.3版本，都是11.3的情况下选最后一位高的，之后进入以下界面，选择对应版本，然后先后输入下方的两行，第一行输入命令行，就开始下载了，下载完之后在对应的目录打开终端命令行，然后输入第二行，就开始安装了。

安装过程中看到勾选多个项目的时候，把第一项的X勾选框点下回车取消掉，由于之前已经安装了驱动，所有这里不需要安装里面附带的驱动，然后切换Install并点击回车，等待就可以安装好了。

然后添加路径，修改.bashrc文件：

1	sudo gedit ~/.bashrc

#在末尾添加：

1 2	export PATH=/usr/local/cuda/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

更新刚才输入的内容，在命令行输入： source ~/.bashrc

安装成功输入nvcc -V

cuDNN的安装

到官网下载文件：点击如图Download cuDNN按钮。下载需要NVIDIA的账号，没有的需要先注册一个。

然后进入下载界面并选择Previous Archive

选择CUDA11.x对于的cuDNNv8.2 选择Runtime Library版的deb文件进行下载：

安装cuDNN过程与CUDA类似：
在下载的文件的文件夹里面打开终端，执行命令sudo dpkg -i ，其中为刚才下载的deb文件名
执行命令sudo apt install ,其中要和自己下载的cudnn版本匹配，比如这里是libcudnn8

安装Anaconda

Anaconda用于控制版本管理，直接在系统的python里装不太方便，库的控制也不那么直观，使用Anaconda之后会方便很多。

这里直接从官网下载就可以，速度也不错，下载完之后在下载的文件夹打开终端，这里重点，命令行不要输入sudo，直接sh name为刚才下的文件名然后可以了，一路回车过完协议书，然后yes同意，然后要么回车要么yes就可以了。千万别在命令行前面加sudo，这样anaconda3的文件夹就安装在root下了，这样感觉有时候不方便；直接sh就可以安装在你的主目录下，装好退出命令行就可以用了。

安装过程先一路回车，然后按要求都yes就好。

安装后退出命令行，然后重新进入命令行，然后输入conda，若出现如下则证明安装成功，若出现command not found则重启系统，若还不行则需要添加环境变量。

添加环境变量

输入

1	source ~/.bashrc

再执行conda，若好则安装结束，否则手动添加环境变量

输入命令

1	sudo vim ~/.bashrc

若vim未安装，先安装，可以使用sudo apt install vim安装（或者使用sudo gedit ~/.bashrc也可打开文件），然后执行上述命令，然后在文件的最后添加，这里的内容不要直接复制，根据自己的用户名来定

1 2	export PATH=/home/<自己的用户名>/anaconda3/bin:$PATH

输入完成后点击ESC, 然后输入:wq保存退出.

然后更新环境变量:

1	source ~/.bashrc

输入conda,检查是否配置成功。

创建环境并安装PyTorch

安装后一般应用栏里是没有这个软件的，需要在命令行中输入anaconda-navigator等待进入就可以了，然后点左方的environment然后点下方的加号创建环境，想个环境的名字，选择需要的python版本，这里也可以使用命令来创建

1	conda create -n <环境名> python=3.8

等待创建完成后在命令行中输入conda info -e即可查看现有哪些环境

然后进入相应的环境输入下面命令，其中这里使用的环境名为env1

1	source activate env1

即可激活，若为windows下则为conda activate env1。

这样就进入环境了，随后输入pytorch官网上的命令：

1	conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

如果速度慢，则需要换源，一般默认使用清华源为以下命令：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

conda config --set show_channel_urls yes

或者打开主目录下的隐藏文件.condarc，将其内容整体更换为以下内容：

ssl_verify: true
show_channel_urls: true

channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64/
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/win-64/

然后运行 conda clean -i 清除索引缓存。

这时候安装命令就要把最后的-c pytorch去掉，变成

1	conda install pytorch torchvision torchaudio cudatoolkit=11.3

就可以很快的下载了，也可以使用pytorch离线安装下载直接下载whl文件，然后在命令行中进入下载的文件夹，然后输入

1	pip install torch-1.9.0+cu111-cp38-cp38-win_amd64.whl

这样就可以安装了，若为linux则将win_amd64改为linux_x86_64即可。

若为单次换下载换源则命令为：

1	pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/

在后面加上需要安装的库名字即可。

验证安装成功

若全部安装完成，则新建一个python脚本hello.py，内容如下

import torch
import torchvision
print(torch)
print(torchvision)
print(torch.cuda.is_available())
x=torch.randn(5, 3)
print(x)
print(torch.cuda.device)
print(torch.__version__)
print(torchvision.__version__)
print(torch.version)
print(torch.version.cuda) # Corresponding CUDA version
print(torch.backends.cudnn.version()) # Corresponding cuDNN version
print(torch.cuda.get_device_name(0)) # GPU type

当然你如果想测试一下，也可以跑一下官方示例（非必须）

mkdir ~/CUDA_test
cd ~/CUDA_test
git clone https://github.com/nvidia/cuda-samples
cd ~/CUDA_test/cuda-samples/Samples/1_Utilities/deviceQuery
make
./deviceQuery

可以得到下面这个结果：

检查完用不到也可以把这个samples删了。

即可查看详细情况，若cuda可用这里显示true就说明安装成功。

常用软件

深度学习环境其他非常常用的软件一般还有VScode和Pychram，一般这两个都安装比较好。

BT下载以及磁力链下载很多时候是需要的，因此需要下载工具

下载工具可以用Free Download Manger，还是非常好用的，还有qbittorrent和Motrix作为备用下载软件，这两个软件下载后不用安装，需要用的时候打开，也非常不错。

其他比如截屏剪切板等功能用utools也挺好，不过高级功能后来收费了。

windows下安装的差异

更新驱动

正常使用的话，下载GeForce Experience然后把驱动更新到最新版即可，或者手动下载驱动，没有特殊需要的话默认最新版就好。

安装cuda和cudnn

主体部分和linux下大同小异，按要求下载安装对应版本即可，安装cuda后打开命令行输入

nvcc -V

返回版本号说明安装cuda成功。

不过cudnn这里下载完后是复制到cuda对应的bin目录里面，一般是C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA。

安装后有时候不能使用则需要添加环境变量，在系统环境变量里的Path项下添加几个路径

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1

　　C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\lib\x64

安装完成后进入路径然后运行测试，成功则为以下界面。

然后运行测试的代码即可。

考研后的思考

2021-12-29T00:08:37.000Z

考研后的感想

想法

今天是考研后的第二天晚上，考研生活算是过去了，然后就是之后的新生活了，对于之后的安排，目前来看，主线是做毕业设计，在期间可以学习一些东西。我计划近期将之前做过的大作业再复习一遍，然后整理出来，发到博客里，这不是什么大的任务，我打算先从这样的小事做起，慢慢学知识。毕竟，在有目标的情况下很多时候还不一定能一直坚持做事，现在时间比较闲了，能做多少事就比较随缘了。

之后就是毕业设计了，这个毕业设计选择的是视频理解方面的，了解过一些，感觉这块可以好好做，小导师也不错，开始push我准备毕设了，不过这块应该不是特别难，后面做也来得及，先休息下。

机器学习课程报告——波士顿房价预测

2021-06-18T12:29:37.000Z

摘要

在这次大作业中我完成了波士顿房价预测模型的实现, 波士顿房价预测是一个经典的回归模型。
在本次实验中, 首先对数据的分布情况以及特征信息, 相关性信息都进行了查看, 并分别对每个特征的相关性信息进行了分析, 并筛选掉无用的特征, 更好的对结果进行预测。
然后根据特征的信息与房价存在线性和非线性相关的关系, 这里依次选择了神经网络预测模型以及线性模型对房价的结果进行了预测, 并检验其效果。这里采用了 sklearn 中的库函数来进行训练集和测试集的划分,将 (30%) 的部分划分为测试集。
对于神经网络模型, 采用的是一个三层的全连接网络, 通过均方损失函数和 Adam 优化器对网络的参数进行更新, 最终使得网络可以更好的进行预测。对于线性模型, 采用了 sklearn 中的线性回归函数进行预测。
对于两者都进行了与实际值的对比, 并计算方差和相关系数, 从
而更好的对比了两者的效果差别。
关键词: 特征选择神经网络线性模型

1 背景介绍

1.1 问题描述

在本次的机器学习课程设计中需要选择一个项目, 应用机器学习算法到真实世界的任
务中去, 这里我选择了机器学习的经典案例: 波士顿房价预测任务。
波士顿房价数据说明: 此数据源于美国某经济学杂志上, 分析研究波士顿房价 (Boston HousePrice) 的数据集。数据集中的每一行数据都是对波士顿周边或城镇房价的情况描述, 下面对数据集变量说明, 数据集包含了 506 组数据, 一共 14 个属性, 为以下内容:
CRIM: 城镇人均犯罪率 ZN: 住宅用地所占比例
INDUS: 城镇中非住宅用地所占比例 CHAS: 虚拟变量, 用于回归分析 NOX: 环保指数
RM: 每栋住宅的房间数
AGE: 1940 年以前建成的自住单位的比例 DIS: 距离 5 个波士顿的就业中心的加权距离 RAD: 距离高速公路的便利指数 TAX: 每一万美元的不动产税率 PTRATIO: 城镇中的教师学生比例 B: 城镇中的黑人比例
LSTAT: 地区中有多少房东属于低收入人群 MEDV: 自住房屋房价中位数 (也就是均价)

2 方法

波士顿房价预测为一个回归模型, 回归模型的研究范围可以包括线性回归, 以及神经网络预测模型等多种, 这里实现了线性回归以及神经网络回归 [1]。

3 代码实现

3.1 读取数据及预处理

首先进行读取数据, 然后对数据预处理, 首先要清楚数据的分布信息, 这里使用了直方图以及箱图来观察, 然后依次查看数据的 13 个特征与房价之间的关系, 便于进行后续处理, 具体代码如下:


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Define column names
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS',
                'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'PRICE']

# Read data from the CSV file
all_data = pd.read_csv('./housing.csv', header=None, delimiter=r"\s+", names=column_names)

# Plot histograms for all columns
all_data.hist()
plt.show()

# Show statistical description of the data
print(all_data.describe())

# Plot boxplots for the data
plt.figure(figsize=(20, 10))
plt.boxplot(all_data)
plt.show()

# Correlation heatmap
corr = all_data.corr()
plt.figure(figsize=(20, 10))
sns.heatmap(corr, annot=True, cmap='twilight_r')
plt.show()

# Prepare data and labels for scatter plots
data = np.array(all_data.iloc[:, :-1], dtype=float)
label = np.array(all_data.iloc[:, -1], dtype=float)

# Scatter plot for each feature
for i in range(13):
    plt.figure(figsize=(10, 7))
    plt.grid()
    plt.scatter(data[:, i], label, s=5)  # X, Y, point size
    plt.title(column_names[i])
    plt.show()

# Remove less important features ('CHAS')
unsF = []  # List to store indices of less important features
for i in range(data.shape[1]):
    if column_names[i] == 'CHAS':
        unsF.append(i)

data = np.delete(data, unsF, axis=1)  # Remove less important feature

# Remove outliers in the target variable (PRICE > 46)
unsT = []  # List to store indices of outliers
for i in range(label.shape[0]):
    if label[i] > 46:
        unsT.append(i)

data = np.delete(data, unsT, axis=0)  # Remove samples with outlier prices
label = np.delete(label, unsT, axis=0)  # Remove outliers in labels

在查看完每个特征的信息后, 可以根据实际情况对数据无关部分以及异常的结果进行删改操作, 从而使得结果更加接近实际, 代码实现这里对于和结果相关性不大的特征进行了删除, 也去掉了部分异常高的房价。
在查看数据的分布信息后可以看到只有少部分数据的分布和房价是线性相关的, 大部分都不是明显的线性关系, 因此只采用线性模型进行预测可能会结果与实际差别较大, 因此这里对线性模型以及神经网络模型都进行了是实现, 并对比其结果的差别, 从而更好的进行结果分析。

3.2 神经网络预测模型实现

对于神经网络的模型, 这里使用的是简单的全连接方式, 用三层的网络来进行预测, 损失函数为均方损失, 优化器为 Adam, 使用 gpu 进行计算, 迭代次数为 1000 次, 训练过程的损失变化也记录下来, 然后将预测的房价与实际的房价进行对比, 即可得出预测的效果, 具体代码如下:

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
import torch.nn.functional as F
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

# Convert data to tensors
data = torch.tensor(data, dtype=torch.float)
label = torch.tensor(label, dtype=torch.float)

# Split data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(data, label, test_size=0.3, random_state=4)

# Training function
def train(model, device, train_loader, optimizer, epoch, criterion):
    model.train()
    loss = 0.0
    for i, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target.view_as(output))
        loss.backward()
        optimizer.step()
        if i % 100 == 0:
            print('Train Epoch: {} Loss: {:.6f}'.format(epoch, loss.item() / len(train_loader)))

# Testing function
def test(model, device, test_loader, criterion):
    model.eval()
    test_loss = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            test_loss += criterion(output, target.view_as(output)).item()  # Sum up batch loss
    test_loss /= len(test_loader.dataset)
    print('Test set: Average loss: {:.4f}\n'.format(test_loss))
    return test_loss

# Neural network model definition
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(12, 128)
        self.fc2 = nn.Linear(128, 1)

    def forward(self, x):
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        return x

# Set device for training
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = Net().to(device)

# Optimizer and loss function
optimizer = optim.Adam(model.parameters())
criterion = nn.MSELoss()

# Prepare data loaders
trainset = TensorDataset(X_train, y_train)
trainloader = DataLoader(trainset, batch_size=64, shuffle=True, num_workers=0)
testset = TensorDataset(X_test, y_test)
testloader = DataLoader(testset, batch_size=64, shuffle=False, num_workers=0)

# Train and evaluate the model
epoch_list, loss_list = [], []
for epoch in range(1, 1000):
    train(model, device, trainloader, optimizer, epoch, criterion)
    test_loss = test(model, device, testloader, criterion)
    epoch_list.append(epoch)
    loss_list.append(test_loss)

# Plot the loss over epochs
fig = plt.figure(figsize=(20, 10))
plt.plot(epoch_list, loss_list)
plt.xlabel('epoch')
plt.ylabel('loss')
plt.title('Error')
plt.show()

# Function to read and compare predicted and actual results
def read(test_loader):
    model.eval()
    output_list, target_list = [], []
    with torch.no_grad():
        for data, target in test_loader:
            model.to('cpu')
            output = model(data).detach().cpu().numpy()
            output_list.extend(output)
            target_list.extend(target.cpu().numpy())
    p = pd.DataFrame(output_list, columns=['predict'])
    p['real'] = target_list
    print(p.head())
    return p

# Read predictions and calculate error
p = read(testloader)
error1 = mean_squared_error(p['real'], p['predict']).round(5)  # Mean squared error
score1 = r2_score(p['real'], p['predict']).round(5)  # R^2 score

# Plot predictions vs actual values
plt.rcParams['font.family'] = "sans-serif"
plt.rcParams['font.sans-serif'] = "SimHei"
plt.rcParams['axes.unicode_minus'] = False

fig1 = plt.figure(figsize=(20, 10))
plt.plot(range(p.shape[0]), p['real'], color='red', linewidth=1, linestyle='-')
plt.plot(range(p.shape[0]), p['predict'], color='blue', linewidth=1, linestyle='dashdot')
plt.legend(['真实值', '预测值'])
plt.title('神经网络预测值与准确率对比图')

error_text = "标准差d=" + str(error1) + "\n" + "相关指数R^2=" + str(score1)
plt.xlabel(error_text, size=18, color="green")
plt.grid()
plt.show()

3.3 线性模型

这里使用了传统的方法线性模型与神经网络的模型进行对比, 从而反映出效果, 这里的线性模型直接 sklearn 中的库函数来实现, 预测出房价后同样与实际进行对比, 并比较结果, 其代码实现较为简单, 代码如下:


from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Initialize and train the linear regression model
lr = LinearRegression()
lr.fit(X_train, y_train)  # Train the model with training data

# Predict using the test data
y_predict = lr.predict(X_test)

# Calculate error metrics
error2 = mean_squared_error(y_test.numpy(), y_predict).round(5)  # Mean squared error
score2 = r2_score(y_test, y_predict).round(5)  # R-squared score

# Plot the true vs predicted values
fig2 = plt.figure(figsize=(20, 10))
plt.plot(range(y_test.shape[0]), y_test, color='red', linewidth=1, linestyle='-')
plt.plot(range(y_test.shape[0]), y_predict, color='blue', linewidth=1, linestyle='dashdot')
plt.legend(['真实值', '预测值'])
plt.title('线性模型预测值与准确率对比图')

# Display error information in the plot
error_text = "标准差d=" + str(error2) + "\n" + "相关指数R^2=" + str(score2)
plt.xlabel(error_text, size=18, color="green")

# Display grid and show plot
plt.grid()
plt.show()

4 试验结果

4.1 实验分析

实验过程中首先得到的直方图以及箱图, 以及相关系数矩阵的热力图如下图所示: 由不同特征与房价的直方图可以大致观察到不同特征的基本影响。
由盒图可以看到不同特征下, 数据的分布情况基本较好, 几乎没有异常值和离群点的
存在。
由热力图可以大致看出, 第四列和第四行, 即 CHAS 的颜色较深, 这说明其与其他特征的相关性较低, 这里将此特征作为重点排查对象, 此时并不能完全判断该特征是否合适,

图 1: 特征直方图

图 2: 盒图

图 3: 特征相关性热力图
还有看后续的信息。随后为了准确了解每个特征的信息, 这里分布对每个特征与房价的关系进行了可视化, 结果如下:
犯罪率: 高房价的房屋大都集中在低犯罪率地区, 有对预测结果有一定的参考价值

图 4: 犯罪率相关图

住宅用地比例: 与房价无明显的线性关系, 有一定相关性, 可以保留。

图 5: 住宅用地比例图

城镇中非商业用地的所占比例: 与房价无明显的线性关系, 只能说在某一区间内房价
呈现一定特征, 保留。
是否处于查尔斯河边 (1 表示在河边, 0 表示不在河边): 是否在查尔斯河边影响房价也
不明显, 因此考虑把此特征去除, 防止无关特征影响效果。
一氧化氮浓度: 一氧化氮浓度与房价的关系呈现极其微弱的线性关系, 一氧化氮低于

图 6: 城镇非商业用地比例图

图 7: 是否处于查尔斯河边图
0.5 的情况下, 房价绝大部分高于 15 。

图 8: 一氧化氮浓度相关图

每栋住宅的房间数: 与房价之间具有较强的线性关系, 保留。

图 9: 每栋住宅房间数图

1940 年以前建成的业主自住单位的占比: 对房价的影响较小, 但也可保留。
距离 5 个波士顿就业中心的平均距离: 平均距离较小的情况下, 房价对应也较低。距离高速公路的便利指数: 房价高于 30 的房产, 近乎都集中在距离高速公路的便利指
数低的地区, 有一定的相关性, 可以保留。
每一万美元的不动产税率: 与房价的线性相关度较小, 也可保留。城镇中学生教师比例: 对房价的影响较小, 呈微弱的线性关系。
黑人比例: 黑人比例对波士顿房价的影响尤其是往后的影响越趋于更小, 对结果预测

图 10: 1940 年前建成业主自住比例图

图 11: 距离 5 个波士顿就业中心的距离图

图 12: 距离高速公路的便利指数图

图 13: 每一万美元的不动产税率图

图 14: 城镇中学教师比例图

有一定的影响。

图 15: 黑人比例图

低收入阶层占比: 与房价具有较强的线性关系, 是影响房价的重要因素。
从以上对每个特征的分析, 我们可以得出, CHAS 特征与房价的关系非常小, 可以忽
略掉, 因此这里的特征仅去掉这一项。

4.2 对比

在数据处理完成后, 就是两个模型对于结果的预测。对于神经网络的模型, 其迭代过
程的损失变化如下图所示

图 16: 低收入阶层占比图

图 17: 迭代过程损失变化图
由图中可以看出, 损失在初期迅速下降, 随后缓慢下降, 最后达到了一个很低的水平,
说明模型在训练过程中性能越来越好。
随后是神经网络模型的预测值与实际值进行的对比图:

图 18: 神经网络预测值与准确率对比图

由图中可以看出, 绝大部分情况预测的准确度还是很高的, 在房价的峰值与谷值这里
出现了一定的误差。
线性模型的预测值和实际值对比图如下:

图 19: 线性模型预测值与准确率对比图

由图中可以看出, 预测效果也还不错, 但是预测的误差相对于神经网络还是高一些, 数据也反映出了这一点, 神经网络的标准差是 19.86254, 线性模型的标准差是 28.35625, 这说明了神经网络预测的的误差小,也更加稳定: 神经网络的相关系数 (R^{2}) 为 0.80978,线性模型的相关系数数 (R^{2}) 为 0.72844,神经网络的相关性要比线性模型的更好,与实际更加符合。

5 结论

线性模型和神经网络模型都能够较好的对房价进行预测, 神经网络预测的准确性相对
较好。

6 总结

由于期末时间问题, 课程复习相对较紧张, 而且还有很多事, 机器学习的大作业这里选取的是经典的题目来做, 并未进行创新性质的探索。但是在这次大作业中我也有很多收获, 代码能力得到了提升, 熟练度增加, 也提升了自己的综合能力。

参考文献

[1] 欧阳光. 正交回归最小二乘估计 [J]. 湘南学院学报,2021,42(2):1-5. DOI:10.3969/j.issn.1672-8173.2021.02.001.

A 程序代码

房价预测模型 - price_predict.py

#!/usr/bin/env python
# coding: utf-8


import sklearn
from sklearn import metrics
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader
from torch.utils.data import TensorDataset
import matplotlib.pyplot as plt
import seaborn as sns
from skimage.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT',
                'PRICE']
all_data = pd.read_csv('./housing.csv', header=None, delimiter=r"\s+", names=column_names)

all_data.hist()
plt.show()

all_data.describe()

plt.figure(figsize=(20, 10))
plt.boxplot(all_data)
plt.show()

corr = all_data.corr()

plt.figure(figsize=(20, 10))
sns.heatmap(corr, annot=True, cmap='twilight_r')

data = all_data.iloc[:, :-1]
label = all_data.iloc[:, -1]

data = np.array(data, dtype=float)
label = np.array(label, dtype=float)

for i in range(13):
    plt.figure(figsize=(10, 7))
    plt.grid()
    plt.scatter(data[:, i], label, s=5)  # 横纵坐标和点的大小
    plt.title(column_names[i])
plt.show()

unsF = []  # 次要特征下标
for i in range(data.shape[1]):
    if column_names[i] == 'CHAS':
        unsF.append(i)
data = np.delete(data, unsF, axis=1)  # 删除次要特征

unsT = []  # 房价异常值下标
for i in range(data.shape[1]):
    if label[i] > 46:
        unsT.append(i)
data = np.delete(data, unsT, axis=0)  # 删除样本异常值数据
label = np.delete(label, unsT, axis=0)  # 删除异常房价

data = torch.tensor(data, dtype=torch.float)
label = torch.tensor(label, dtype=torch.float)

X_train, X_test, y_train, y_test = train_test_split(data, label, test_size=0.3, random_state=4)


def train(model, device, train_loader, optimizer, epoch, criterion):
    model.train()
    loss = 0.0
    for i, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target.view_as(output))
        loss.backward()
        optimizer.step()
        if i % 100 == 0:
            print('Train Epoch: {} Loss: {:.6f}'.format(
                epoch, loss.item() / len(train_loader)))


def test(model, device, test_loader, criterion):
    model.eval()
    test_loss = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)

            test_loss += criterion(output, target.view_as(output)).item()  # sum up batch loss

    test_loss /= len(test_loader.dataset)

    print('Test set: Average loss: {:.4f}\n'.format(
        test_loss))
    return test_loss


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(12, 128)
        self.fc2 = nn.Linear(128, 1)

    def forward(self, x):
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        return x


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = Net().to(device)
optimizer = torch.optim.Adam(params=model.parameters())
criterion = nn.MSELoss()

trainset = TensorDataset(X_train, y_train)
trainloader = DataLoader(trainset, batch_size=64, shuffle=True, num_workers=0)
testset = TensorDataset(X_test, y_test)
testloader = DataLoader(testset, batch_size=64, shuffle=False, num_workers=0)

epoch_list, loss_list = [], []

for epoch in range(1, 1000):
    train(model, device, trainloader, optimizer, epoch, criterion)
    test_loss = test(model, device, testloader, criterion)
    epoch_list.append(epoch)
    loss_list.append(test_loss)

fig = plt.figure(figsize=(20, 10))
plt.plot(epoch_list, loss_list)
plt.xlabel('epoch')
plt.ylabel('loss')
plt.title('error')
plt.show()


def read(test_loader):
    model.eval()
    output_list, target_list = [], []
    with torch.no_grad():
        for data, target in test_loader:
            model.to('cpu')
            output = model(data).detach().cpu().numpy()
            output_list.extend(output)
            target_list.extend(target.cpu().numpy())
    p = pd.DataFrame(output_list, columns=['predict'])
    p['real'] = target_list
    print(p.head())
    return p


p = read(testloader)

error1 = mean_squared_error(p.iloc[:, 1], p.iloc[:, 0]).round(5)  # 平方差
score1 = r2_score(p.iloc[:, 1], p.iloc[:, 0]).round(5)  # 相关系数

plt.rcParams['font.family'] = "sans-serif"
plt.rcParams['font.sans-serif'] = "SimHei"
plt.rcParams['axes.unicode_minus'] = False
fig1 = plt.figure(figsize=(20, 10))
plt.plot(range(p.shape[0]), p.iloc[:, 1], color='red', linewidth=1, linestyle='-')
plt.plot(range(p.shape[0]), p.iloc[:, 0], color='blue', linewidth=1, linestyle='dashdot')
plt.legend(['真实值', '预测值'])
plt.title('神经网络预测值与准确率对比图')
error1 = "标准差d=" + str(error1) + "\n" + "相关指数R^2=" + str(score1)
plt.xlabel(error1, size=18, color="green")
plt.grid()
plt.show()

lf = LinearRegression()
lf.fit(X_train, y_train)  # 训练数据,学习模型参数
y_predict = lf.predict(X_test)

error2 = mean_squared_error(y_test.numpy(), y_predict).round(5)  # 平方差
score2 = r2_score(y_test, y_predict).round(5)

fig2 = plt.figure(figsize=(20, 10))
plt.plot(range(y_test.shape[0]), y_test, color='red', linewidth=1, linestyle='-')
plt.plot(range(y_test.shape[0]), y_predict, color='blue', linewidth=1, linestyle='dashdot')
plt.legend(['真实值', '预测值'])
plt.title('线性模型预测值与准确率对比图')
error2 = "标准差d=" + str(error2) + "\n" + "相关指数R^2=" + str(score2)
plt.xlabel(error2, size=18, color="green")
plt.grid()
plt.show()

计算智能导论作业——感知器实现二分类

2021-05-30T11:29:37.000Z

1 背景知识

1.1 基本定义

感知器可以实现简单的布尔运算, 可以拟合任何的线性函数, 任何线性分类或线性问题都可以用感知器来解决, 布尔运算就可以看作是一个二分类问题, 用一条直线将两类分开。感知器无法实现异或运算, 因为异或运算不是线性的, 无法用一条直线将两类分开。
与逻辑斯蒂回归从概率的角度判别不同, 感知机可以理解为从几何的角度上做判断, 即
求得一个分离超平面, 可以将对应输入空间中的实例划分为正负两类。
一个感知器有如下组成部分:

输入权值: 一个感知器可以接收多个输入 $(x_{1},x_{2},\ldots,x_{n} | x_{i} \in \mathbb{R})$, 每个输入上有一个权值 $\omega_{i} \in \mathbb{R}$, 此外还有一个偏置项 $b \in \mathbb{R}$, 就是上图中的 $\omega_{0}$。
激活函数: 感知器的激活函数可以有很多选择, 比如我们可以选择下面这个阶跃函数 $f$ 来作为激活函数:
$$
f(z) = \begin{cases}
1 & \text{if } z > 0 \
0 & \text{otherwise}
\end{cases}
$$
输出: 感知器的输出由下面这个公式来计算
$$
y = f(\mathbf{w} \cdot \mathbf{x} + b)
$$

1.2 感知器的损失函数

为了求得感知器的权重参数, 需要确定一个学习策略, 即定义损失函数并将损失函数
极小化。有这样几种选择:

误分类点的总数: 损失函数不是 $w,b$ 的连续可导函数, 不易优化。
误分类点到超平面的总距离: 感知器所采用的损失函数。感知器的损失函数是:

$${-} \frac{1}{{\| w \|}} \sum_{x_{i} \in M} y_{i}(w x_{i} + b)$$

感知器学习问题转化为上式损失函数的最优化问题, 最优化的方法是随机梯度下降法。
当训练数据集线性可分时, 感知器学习算法原始形式是收玫的。

1.3 感知器的训练

感知器的权值和偏置项是利用感知器训练算法得出的, 首先将权重项和偏置项初始化为 0, 然后, 利用下面的感知器规则迭代地修改 $w_{i}$ 和 $b$, 直到训练完成。

$$
w_{i} \leftarrow w_{i} + \Delta w_{i}
$$

$$
b \leftarrow b + \Delta b
$$

其中:

$$
\Delta w_{i} = \eta(t - y)x_{i}
$$

$$
\Delta b = \eta(t - y)
$$

$w_{i}$ 是与输入对应的权重项, $b$ 是偏置项。事实上, 可以把 $b$ 看作是值永远为 1 的输入所对应的权重。$t$ 是训练样本的实际值，一般称之为 label。而 $y$ 是感知器的输出值, 它是根据上面的公式计算得出的。$\eta$ 是一个称为学习速率的常数, 其作用是控制每一步调整权的幅度。

每次从训练数据中取出一个样本的输入向量 $x$, 使用感知器计算其输出 $y$, 再根据上面的规则来调整权重。每处理一个样本就调整一次权重。经过多轮迭代后（即全部的训练数据被反复处理多轮），就可以训练出感知器的权重，使之实现目标函数。

2 数据集

在本次实验中, 选择了三组数据, 第一组是自己生成的 200 个二维的数据, 一共两组, 每组 100 个数据,一组是以 (({-}2, {-} 2)) 为均值,标准差为 1.5 的数据,另一组是以 ((2,2)) 为均值, 标准差为 1.5 的数据, 这两类数据中有一点交叉, 使得数据不能完全线性可分。
第二组数据是读取的自定义的数据, 一共两类, 这两类数据之间有一定的间隔, 是完全
线性可分的。
第三组数据是著名的数据集 Sonar, Sonar 数据集是一个声纳信号分类数据集, 声纳信号从一个金属圆柱体上反弹, 或者从一个大致呈圆柱形的岩石上反弹。每个样本是一个 60 维向量。每个数字表示特定频带内的能量, 范围从 0 到 1 。如果是从一块岩石上反弹, 则样本标签为 “R”, 如果是从一个金属圆柱体上反弹则为 “M”。

3 代码实现

在代码实现中, 这里首先创建了一个感知器类, 首先根据输入数据的维度初始化权重向量以及偏置的值。然后定义类的内置函数, 包括计算以及权值更新函数, 利用权值以及偏置的更新公式进行更新。随后这里定义了一个作图函数, 将数据展示出, 并画出分界面。随后是分别对三个数据集进行读取, 然后定义激活函数为阶跃函数。最后是主函数, 完成感知器的全过程, 并计算出分类后的准确率。具体代码如下:
感知器类的定义函数:

class Perceptron():
def init__(self,input_num,f):
self.input_num=input_num
self.weights=np.ones(input_num)
self.bias=2.0
self.activation=f
def_str__(self):
return f'weight={self.weights},bias={self.bias}'
def predict(self,inputs):
return self.activation(np.dot(inputs, self.weights)+self.bias)
def train(self,inputs,labels,rate=0.1):
for \(j\) in range (inputs. shape [0]):
output=self.predict(inputs[j])
self.weights=self.weights+rate*(labels[j]-output)*inputs[j]
self.bias=self.bias+rate*(labels[j]-output)

前两个数据集的作图函数:

def plot_result(perceptron, result, data):
    knew = -perceptron.weights[0] / perceptron.weights[1]
    bnew = -perceptron.bias / perceptron.weights[1]
    x = np.linspace(-5, 5)
    y = lambda x: knew * x + bnew

    plt.xlim(-8, 8)
    plt.ylim(-8, 8)
    plt.plot(x, y(x), 'b--')
    plt.scatter(data[:, 0], data[:, 1], c=result)
    plt.title('Binary Classification')
    plt.show()

对高维度数据集的作图函数:

def imshow(data, result):
    tsne = TSNE(n_components=2, learning_rate=100).fit_transform(data)
    pca = PCA().fit_transform(data)

    plt.figure(figsize=(12, 6))
    
    # t-SNE plot
    plt.subplot(121)
    plt.scatter(tsne[:, 0], tsne[:, 1], c=result)
    plt.title('t-SNE')

    # PCA plot
    plt.subplot(122)
    plt.scatter(pca[:, 0], pca[:, 1], c=result)
    plt.title('PCA')

    plt.colorbar()
    plt.show()

对于高维度数据, 主函数中代码适当进行了改动, 只显示了最终的结果图。主函数部分代码如下:

if __name__ == '__main__':
    epochs = 1000
    data, target = get_data()
    
    perceptron = Perceptron(data.shape[1], f)
    print(perceptron)
    
    plot_result(perceptron, target, data)
    
    for i in range(epochs):
        perceptron.train(data, target)
        
        if i % 400 == 0:
            plot_result(perceptron, target, data)
            print(perceptron)
    
    acc = 0
    result = np.zeros_like(target)
    
    for i in range(data.shape[0]):
        result[i] = perceptron.predict(data[i])
        acc += (result[i] == target[i])
    
    plot_result(perceptron, target, data)
    print('acc={}'.format(acc / len(target)))

4 结果展示与分析

4.1 数据集一

首先使用第一个数据集进行展示, 在展示中, 为了更好的体现迭代过程中线性分界面的变化, 这里每隔 400 次展示一次结果, 效果如下图所示, 第一张为初始图, 分解面为初始化的值。

图 1: 初始

图 2: 迭代 400 次

可以看到迭代中分界面一直在进行变化来使得全部样本被正确划分, 但本数据集是线
性不可分的, 无法找到一条直线可以将所有样本都能正确被划分。

图 4: 最终结果

图 3: 迭代 800 次

经过了 1000 次的迭代后, 可以看到分界面几乎可以将绝大部分样本正确划分, 说明感知器模型较好的完成了线性分类的任务, 计算得到分类准确率为 0.965 , 印证了从图像中得到的结果。
在迭代的过程中,初始权值为 $[1, 1]$ ,偏置为 2,经过 1000 次迭代后,weight $= [-0.10703409, 0.05266879]$, bias $= 0.09999999999999931$。

4.2 数据集二

与数据集一不同, 该数据集是线性可分的, 其他初始化参数部分基本与数据集一设置
相同。

图 6: 迭代 400 次

图 5: 初始

可以看到, 经过 400 次迭代后, 数据集已经可以完全正确的划分。

图 7: 迭代 800 次

图 8: 最终结果

在迭代 400 次时，就已经实现了正确的分类，因此可以看到后来的迭代中，线性分界面并未发生改变，因为在参数更新中，无错误分类的样本，因此权重并未被更新。
最后可以得到分类的准确率为 1.0，效果很好。初始化时，参数为 weight $= [1.1]$，bias $= 2.0$，经过迭代后，weight $= [-0.09547401, 0.96129867]$，bias $= -0.500000000000000000$。
在这里，我们可以发现一个现象，线性分界面在完全将数据划分开后就不再改变，因此分界面相对来说是有些“偏”的，而不是像支持向量机那样，达到距离最小化的效果。这也反映了感知器的缺陷，只是完成简单的分类，并未考虑到样本整体的情况，这样对于未知样本，效果就会相对差一些。

4.3 数据集三

为了更好的展示迭代过程中准确率以及损失的变化, 确定足够迭代次数得到较好的结
果, 这里对这两项指标进行了记录, 结果如下图所示:

图 9: 损失准确率结果图

从上图可以看出, 随着迭代次数的增加, 损失不断减小, 因为是负数, 所以图中是不断
上升,一定次数后达到稳定,准确率不断上升,并达到约 (80%) 。
与前两个数据集不同, 第三个数据集维度较高, 无法用之前的方法进行可视化, 因此这里使用了两种方法 t-SNE 降维以及 PCA 降维, 从而对结果进行可视化, 结果如下图所示:

图 10: 降维结果图

降维效果不理想, 因此下文对其进行了探究。
在实验中发现, 由于数据维度过高, 1000 次迭代后, 数据仍未达到稳定的状态, 因此这里设置迭代次数为 50000 次, 由于数据维度过高, 不方便展示, 这里不再进行权重展示, 结果的准确率为 0.7836538461538461 , 也得到了较好的效果。

5 探究

降维效果并不理想, 这里存在疑问, 分类准确率较高的情况下, 降维效果不理想, 因此
这里又对 Sonar 数据集使用 K-means 聚类后降维展示, 结果如下:
从图中可以看出, 降维效果较好, 因此并不是数据集的问题。由于 kmeans 对此高维数据处理后, 降维效果很好, 可以说明并不是因为从维度高降到二维特征减少太多而无法表现良好的效果, 这里推测应该是对于感知器的分类结果并不能很好的降维

图 11: Sonar 使用 kmeans 降维结果图

6 总结

在本次实验中遇到了一些问题, 在此感谢尚荣华老师以及博士生的指导, 在感知器分
类的时候遇到了两个问题。
第一,对于数据高维度的 Sonar 数据集,为了可视化效果,这里使用了 (\mathrm{t} {-} \mathrm{SNE}) 以及 PCA 降维可视化, 但分类准确率高的同时, 降维效果并不好, 这里又对 Sonar 数据使用了聚类方法, 随后降维可视化, 其效果较好, 也对问题原因进行了推测。
第二, 对于高维数据的损失记录, 开始的记录为损失先迅速降低, 随后慢慢升高, 经过发现后发现记录损失的方式不对, 开始使用了每个样本标签与输出的插值的绝对值作为损失, 并求和, 这样是一中类似于均方误差的计算方式, 在高维超平面移动的过程, 这样的方式计算的并不是实际的损失, 因此查阅资料后使用了正确的损失函数计算, 结果较好。
本次实验中对感知器进行了实现, 并利用多种数据集进行展示, 得到了很好的效果, 在这次实验中, 开始在理解题意方面遇到了很多问题, 后来经过多方询问才明白。这次实验中我通过广泛查询资料了解到了相关的知识, 也认真写代码来完成任务, 这份作业的完成确实比较艰巨, 一份顶多份, 但是我还是有很大的收获, 能力也得到了提升。

A 程序代码

感知器实现程序 - 感知器.py

# -*- coding:utf-8 -*-
# Author : JackZhu

# Data : 2021/5/20 18:21
import numpy as np
import pandas as pd
import torch
import matplotlib.pyplot as plt
import scipy.io as scio


class Perceptron():
    def __init__(self,input_num,f):
        self.input_num=input_num
        self.weights=np.ones(input_num)
        self.bias=2.0
        self.activation=f

    def __str__(self):
        return f'weight={self.weights},bias={self.bias}'

    def predict(self,inputs):
        return self.activation(np.dot(inputs,self.weights)+self.bias)

    def train(self,inputs,labels,rate=0.1):
        for j in range(inputs.shape[0]):
            output=self.predict(inputs[j])
            self.weights=self.weights+rate*(labels[j]-output)*inputs[j]
            self.bias=self.bias+rate*(labels[j]-output)
def f(x):
    return 1 if x>0 else 0


# def get_data():
#     path = './sonar.csv'
#     file = pd.read_csv(path, header=None)
#     data = file.iloc[:, :-1]
#     target = file.iloc[:, -1]
#     target = pd.get_dummies(target).iloc[:, -1]
#     data = np.array(data)
#     target = np.array(target)
#     return data,target

def get_data():
    data=torch.ones(100,2)
    x0=torch.normal(2*data,1.5)
    x1=torch.normal(-2*data,1.5)
    x=torch.cat((x0,x1),0)
    y0=torch.zeros(100)
    y1=torch.ones(100)
    y=torch.cat((y0,y1))
    data=np.array(x)
    target=np.array(y)
    return data,target

# def get_data():
#     path = './long.mat'
#     file = scio.loadmat(path)['long1']
#     data = file[:, 0:2]
#     target = file[:, 2]
#     return data,target

def plot_result(perceptron,result):
    knew = -perceptron.weights[0] / perceptron.weights[1]
    bnew = -perceptron.bias / perceptron.weights[1]
    x = np.linspace(-5, 5)
    y = lambda x: knew * x + bnew
    plt.xlim(-8,8)
    plt.ylim(-8,8)
    plt.plot(x, y(x), 'b--')
    plt.scatter(data[:, 0], data[:, 1], c=result)
    plt.title('Binary Classification')
    plt.show()


if __name__=='__main__':
    epochs = 1000
    data,target=get_data()
    perceptron=Perceptron(data.shape[1],f)
    print(perceptron)
    plot_result(perceptron,target)
    for i in range(epochs):
        perceptron.train(data,target)
        if i%400==0:
            plot_result(perceptron,target)
    print(perceptron)
    acc=0
    result=np.zeros_like(target)
    for i in range(data.shape[0]):
        result[i]=perceptron.predict(data[i])
        acc+=(result[i]==target[i])
    plot_result(perceptron,target)
    print('acc={}'.format(acc / len(target)))

感知器实现 SONAR. 数据程序 - perceptron2.py

# -*- coding:utf-8 -*-
# Author : JackZhu

# Data : 2021/5/20 18:21
import numpy as np
import pandas as pd
import torch
import matplotlib.pyplot as plt
import scipy.io as scio
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA

class Perceptron():
    def __init__(self,input_num,f):
        self.input_num=input_num
        self.weights=np.ones(input_num)
        self.bias=2.0
        self.activation=f

    def __str__(self):
        return f'weight={self.weights},bias={self.bias}'

    def predict(self,inputs):
        return self.activation(np.dot(inputs,self.weights)+self.bias)

    def train(self,inputs,labels,rate=0.1):
        for j in range(inputs.shape[0]):
            output=self.predict(inputs[j])
            self.weights=self.weights+rate*(labels[j]-output)*inputs[j]
            self.bias=self.bias+rate*(labels[j]-output)
def f(x):
    return 1 if x>0 else 0


def get_data():
    path = './sonar.csv'
    file = pd.read_csv(path, header=None)
    data = file.iloc[:, :-1]
    target = file.iloc[:, -1]
    target = pd.get_dummies(target).iloc[:, -1]
    data = np.array(data)
    target = np.array(target)
    return data,target

# def get_data():
#     data=torch.ones(100,2)
#     x0=torch.normal(2*data,1.5)
#     x1=torch.normal(-2*data,1.5)
#     x=torch.cat((x0,x1),0)
#     y0=torch.zeros(100)
#     y1=torch.ones(100)
#     y=torch.cat((y0,y1))
#     data=np.array(x)
#     target=np.array(y)
#     return data,target

# def get_data():
#     path = './long.mat'
#     file = scio.loadmat(path)['long1']
#     data = file[:, 0:2]
#     target = file[:, 2]
#     return data,target

def plot_result(perceptron,result):
    knew = -perceptron.weights[0] / perceptron.weights[1]
    bnew = -perceptron.bias / perceptron.weights[1]
    x = np.linspace(-5, 5)
    y = lambda x: knew * x + bnew
    plt.xlim(-5,5)
    plt.ylim(-1,2)
    plt.plot(x, y(x), 'b--')
    plt.scatter(data[:, 0], data[:, 1], c=result)
    plt.title('Binary Classification')
    plt.show()

def imshow(data,result):
    tsne = TSNE(n_components=2, learning_rate=100).fit_transform(data)
    pca = PCA().fit_transform(data)
    plt.figure(figsize=(12, 6))
    plt.subplot(121)
    plt.scatter(tsne[:, 0], tsne[:, 1], c=result)
    plt.title('t-SNE')
    plt.subplot(122)
    plt.scatter(pca[:, 0], pca[:, 1], c=result)
    plt.title('PCA')
    plt.colorbar()
    plt.show()

if __name__=='__main__':
    epochs = 50000
    data,target=get_data()
    perceptron=Perceptron(data.shape[1],f)
    print(perceptron)
    for i in range(epochs):
        perceptron.train(data,target)
    print(perceptron)
    acc=0
    result=np.zeros_like(target)
    for i in range(data.shape[0]):
        result[i]=perceptron.predict(data[i])
        acc+=(result[i]==target[i])
    imshow(data,target)
    print('acc={}'.format(acc / len(target)))

计算智能导论作业——FCM 聚类的实现

2021-05-30T10:29:37.000Z

1 背景知识

1.1 FCM 算法原理

FCM 算法 (Fuzzy c-Means) 也称为模糊 $C$ 均值算法,是一种基于划分的聚类算法,他的思想就是使得被划分到同一簇的对象之间相似度最大, 而不同簇之间的相似度最小。模糊 $C$ 均值算法是普通 $C$ 均值算法的改进,普通 $C$ 均值算法对于数据的划分是硬性的,而 FCM 则是一种柔性的模糊划分。通过隶属度函数来描述样本属于某个集合的程度, 其自变量范围是所有样本点的所有值,值域范围是 $[0,1]$ ,即 $0 \leq \mu_A(x) \leq 1$。

有了模糊集合的概念, 一个元素属于某个类就不是硬性的, 而是属于某个聚类的隶属度是区间 $[0,1]$ 之间的值,样本属于所有类的隶属度之和应该等于 1,可以表示为

$$
J(U,z_{1},z_{2},\ldots,z_{c}) = \sum_{j = 1}^c J_j = \sum_{j = 1}^c \sum_{i = 1}^m u_{ij}^{\alpha} d_{ij}^2
$$

对输入参量进行求导, 使得目标函数达到最小值的条件: 聚类中心:

$$
z_{i} = \frac{\sum_{i = 1}^m u_{ij}^{\alpha} x_{i}}{\sum_{i = 1}^m u_{ij}^{\alpha}}
$$

隶属度矩阵中的值:

$$
u_{ij} = \frac{1}{\sum_{k = 1}^c \left( \frac{d_{ij}}{d_{ik}} \right)^{\frac{2}{\alpha - 1}}}
$$

该算法的思路即为如下:

Step1: 初始化隶属度矩阵

Step2: 计算聚类中心

Step3: 计算代价函数

Step4: 计算新的隶属度矩阵, 并返回 Step2

2 数据集简介

2.1 Iris 数据集

Iris 数据集是模式识别中最著名的数据集之一。Iris 数据集包含 3 个类, 每个类有 50 个实例, 其中每一类都是指一种鸢尾属植物。有一类是与另外两类是线性可分的, 而另外两类之间是线性不可分的。

3 实验环境

系统: Windows 10
程序运行环境: Python 3.8
Python 库: numpy、pandas、matplotlib、sklearn、random
开发工具: Spyder、Pycharm

4 代码实现

在代码实现这里, 这里首先创建了一个 FCM 聚类的类, 这个类的初始化部分用于初始化参数, 初始化的参数包括聚类中心与隶属度矩阵, 隶属度矩阵每行之和为 1 , 数据随机设置。随后创建了一个 fit 的函数用于计算聚类中心, 创建了一个 cost 函数计算代价函数, 创建 cal_u 函数更新隶属度矩阵, 随后创建了一个 cal_label 函数计算聚类后的标签, 创建 imshow 函数用于降维可视化, 具体代码如下:

class FuzzyCMeans():
def init__(self, data, c, alpha=2):
self.alpha ( = ) alpha
self.data ( = ) data
self.c ( = c)
self.row, self.col = data.shape
self.matrix ( = ) np.zeros((self.row,self.c))
for i in range(self.row):
for (j) in range(self.c-1):
if np.sum(self.matrix[i, :]) < 1 :
self.matrix[i, j] = random.uniform(0, 1 -
np.sum(self.matrix[i, :]))
self.matrix[i,self.c - 1] = 1 - np.sum(self.matrix[i, :])
self.centers ( = ) np.zeros((self.c,self.col))
def fit(self):
for (j) in range(self.c):
up1 ( = 0)
down1 ( = 0)
for i in range(self.row):
up1 += (self.matrix[i, j] ** self.alpha) * self.data[i]
down1 += self.matrix[i, j] ** self.alpha
self.centers[j] = up1 / down1
def cost(self):
sum ( = 0)
for (j) in range(self.c):
for i in range(self.row):
sum += (self.matrix[i, j] ** self.alpha) *
(np.linalg.norm(self.data[i] - self.centers[j]) ** 2)
return sum
def cal_u(self):
for i in range(self.row):
for (j) in range(self.c):
down2 ( = 0)

for (\mathrm{k}) in range (self.c):
down2 += (np.linalg.norm(self.data[i] - self.centers[j])
/ np.linalg.norm(
self.data[i] - self.centers[k])) ** (2 / (self.alpha
( {-} 1)))
self.matrix (\lbrack i,j\rbrack = 1/\left( \operatorname{down}2 \right))
def cal_label(self):
lab ( = ) np.argmax(self.matrix,axis=1)
return lab
def calcute(self, epochs):
for epoch in range(epochs):
self.fit()
result ( = \operatorname{self} {\cdot} \operatorname{cost}())
print (result)
self.cal_u()
label = self.cal_label()
return label
def imshow(self, label):
tsne ( = TSNE(n_) components ( = 2) ,
learning_rate=100).fit_transform(self.data)
pca ( = ) PCA().fit_transform(self.data)
plt.figure(figsize=(12, 6))
plt.subplot(121)
plt.scatter(tsne[:,0],tsne[:,1], c=label)
plt.title(‘t-SNE’)
plt.subplot(122)
plt.scatter(pca[:,0],pca[:,1], c=label)
plt.title(‘PCA’)
plt.colorbar()
plt.show()

然后是主函数部分, 此部分是关于创建出的类的使用, 首先读取数据并创建类的对象, 设置迭代次数为 50 , 然后使用 fcm 聚类方法进行计算得到结果, 然后进行可视化并计算聚类的标准轮廓系数, 代码如下:

if _name == ‘main‘:
(c = 3)
iris ( = ) load_iris()
data ( = ) iris.data
# target = iris.target
(f\mathrm{\ cm} = ) FuzzyCMeans(data, (c = c) )

label ( = f\mathrm{\ cm}) . calcute (epochs ( = 50) ) print(label)
fcm.imshow(label)
(s = ) metrics.silhouette_score(data,label,metric=’euclidean’) print(‘轮廓系数为 ({: .4f}) ‘.format(s))

5 结果分析

经过实验, 可以得到最终结果如下图所示, 其中代价函数最后为 60.5057, 计算得到的
轮廓系数为 0.5495 , 由下图可以看出, 聚类效果很好, 完成了聚类的任务。

图 1: 结果图

6 总结

本次作业算法相当一部分都已经给出, 因此写的过程中问题不大, 在这次实验中遇到的一个问题是在开始初始化隶属度矩阵的时候, 我将矩阵的所有值都统一为聚类数分之一, 这样导致的后果是随着迭代进行, 聚类中心以及隶属度矩阵都没有发生变化, 后来经过仔细检查才发现问题并进行解决。
在这次实验中, 开始在理解题意方面遇到了很多问题, 后来经过多方询问才明白。这次实验中我通过广泛查询资料了解到了相关的知识, 也认真写代码来完成任务, 这份作业的完成确实比较艰巨, 一份顶多份, 但是我还是有很大的收获, 能力也得到了提升。

A Iris FCM 程序代码

import numpy as np
from sklearn import metrics
from sklearn.datasets import load_iris
import random
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA


class FuzzyCMeans():
    def __init__(self, data, c, alpha=2):
        self.alpha = alpha
        self.data = data
        self.c = c
        self.row, self.col = data.shape
        self.matrix = np.zeros((self.row, self.c))
        for i in range(self.row):
            for j in range(self.c-1):
                if np.sum(self.matrix[i, :]) < 1 :
                    self.matrix[i, j] = random.uniform(0, 1 - np.sum(self.matrix[i, :]))
            self.matrix[i, self.c - 1] = 1 - np.sum(self.matrix[i, :])
        self.centers = np.zeros((self.c, self.col))

    def fit(self):
        for j in range(self.c):
            up1 = 0
            down1 = 0
            for i in range(self.row):
                up1 += (self.matrix[i, j] ** self.alpha) * self.data[i]
                down1 += self.matrix[i, j] ** self.alpha
            self.centers[j] = up1 / down1

    def cost(self):
        sum = 0
        for j in range(self.c):
            for i in range(self.row):
                sum += (self.matrix[i, j] ** self.alpha) * (np.linalg.norm(self.data[i] - self.centers[j]) ** 2)
        return sum

    def cal_u(self):
        for i in range(self.row):
            for j in range(self.c):
                down2 = 0
                for k in range(self.c):
                    down2 += (np.linalg.norm(self.data[i] - self.centers[j]) / np.linalg.norm(
                        self.data[i] - self.centers[k])) ** (2 / (self.alpha - 1))

                self.matrix[i, j] = 1 / (down2)

    def cal_label(self):
        lab = np.argmax(self.matrix, axis=1)
        return lab

    def calcute(self, epochs):
        for epoch in range(epochs):
            self.fit()
            result = self.cost()
            print(result)
            self.cal_u()
        label = self.cal_label()
        return label

    def imshow(self, label):
        tsne = TSNE(n_components=2, learning_rate=100).fit_transform(self.data)
        pca = PCA().fit_transform(self.data)
        plt.figure(figsize=(12, 6))
        plt.subplot(121)
        plt.scatter(tsne[:, 0], tsne[:, 1], c=label)
        plt.title('t-SNE')
        plt.subplot(122)
        plt.scatter(pca[:, 0], pca[:, 1], c=label)
        plt.title('PCA')
        plt.colorbar()
        plt.show()


if __name__ == '__main__':
    c = 3
    iris = load_iris()
    data = iris.data
    # target = iris.target
    fcm = FuzzyCMeans(data, c=c)
    label = fcm.calcute(epochs=50)
    print(label)
    fcm.imshow(label)
    s = metrics.silhouette_score(data, label, metric='euclidean')
    print('轮廓系数为{:.4f}'.format(s))

机器学习上机报告——聚类分析

2021-05-23T12:29:37.000Z

摘要

本文使用了K-means和DBSCAN两种聚类方法，较好的完成了聚类任务，并将得到的结果使用了t-SNE和PCA两种方法进行降维可视化，从而更好的得到聚类的效果，并计算了轮廓系数、CH score、DBI这些聚类指标，对于K-means方法还使用了图片进行聚类，使得效果更加直观，实验效果非常好。

在这次实验中，使用的两种聚类方法，K-means是基于原型的方法，而DBSCAN是基于密度的聚类方法。本文首先介绍了两种聚类方法的背景知识以及相关指标的知识，随后简单介绍了Iris数据集，然后展示出实验环境。

在代码实现部分，本文分别对两种聚类方法列出了重点的代码，并进行简要的介绍，说明这些部分是如何通过代码实现的。

在实验结果部分，本文展示了两种聚类方法的结果，对于K-means方法，使用Iris数据集进行了降维可视化，并算出Iris的轮廓系数为0.4976，对图片进行聚类，得到着色后的效果图，并进行降维可视化。对于DBSCAN方法，这里使用了八组数据进行展示，分别对八组数据求出其轮廓系数、CH score、DBI这些聚类指标，并得到了较好的实验效果，数据较多，具体数据以及聚类效果图见正文部分。

最后对本次实验进行了总结，分析实验得出了收获以及思考。

关键字: K-means DBSCAN 轮廓系数 PCA t-SNE

1 背景知识

1.1 基于原型的方法

本作业使用的基于原型的方法即 K-means 聚类算法，其原理如下:
K-均值 (K-means) 聚类算法是应用最广泛的基于划分的聚类算法之一，适用于处理大样本数据。其基础是最小误差平方和准则，若 $N_{i}$ 是第 $i$ 聚类 $\Gamma$ 中的样本数目，$m_{i}$ 是这些样本的均值，即

$$
m_{i} = \frac{1}{N_{i}} \sum_{y \in \Gamma} y
$$

把其中的各样本 $y$ 与均值 $m_{i}$ 间的误差平方和对所有类相加后即得目标函数为:

$$
J_{e} = \sum_{i = 1}^c \sum_{y \in \Gamma_{i}} \left| y - m_{i} \right|^2
$$

即需进行优化使上式的值取得最小。
该算法的的步骤如下:

Step1: 选取 $K$ 个初始聚类中心。
Step2: 根据最小距离标准将要分类的模式样本划分到某个簇中心。
Step3: 计算各个聚类中心的新的向量值及计算各聚类簇中样本数据的均值向量。
Step4: 若聚类中心与上一次的相同，则返回 Step2，否则计算结束。

1.2 基于密度的方法论

1.2.1 基本知识

基于密度的聚类中著名的是 DBSCAN, DBSCAN (Density-Based Spatial Clustering of Applications with Noise, 具有噪声的基于密度的聚类方法) 是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇, 并在具有噪声的空间数据库中发现任意形状的簇, 它将簇定义为密度相连的点的最大集合。
该方法主要有以下特点:

发现任意类型的聚类
处理噪音
一编扫描
需要密度参数作为终止条件
在使用密度聚类算法的时候, 有两个超参数, 领域的最大半径 Eps 和领域中最少的点
数 MinPts。

1.2.2 基本概念

此处需要定义几个概念:

核心对象: 一个对象的 $\epsilon$-邻域至少包含最小数目 MinPts 个对象。不是核心点的 Eps 邻域内的对象称为边界点，不属于任何簇的对象为噪声。对于空间中的一个对象，如果它在给定半径 $\epsilon$ 的邻域中的对象个数大于密度阈值 MinPts，则该对象被称为核心对象，否则称为边界对象。
密度可达: 存在一个从 $p$ 到 $q$ 的 DDR 对象链（如果存在一条链 $< p1, p2, \ldots, pi >$，满足 $p1 = p, pi = q, p_{i}$ 直接密度可达 $p_{i + 1}$，则称 $p$ 密度可达 $q$）。
由一个核心对象和其密度可达的所有对象构成一个聚类。

1.3 轮廓系数

轮廓系数是聚类好坏的一种评价方式，它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。其计算方法如下:

对于其中的一个点$i$而言，首先计算$a(i)=average(i\text{向量到所有它属于的簇中其它点的距离})$

然后计算$b(i)=min(i\text{向量到与它相邻最近的一簇内的所有点的平均距离})$，那么$i$向量轮廓系数为：

$$
S(i) = \frac{b(i) - a(i)}{\max{a(i), b(i)}}
$$

轮廓系数的值是介于 $[-1,1]$，越趋近于 1 则代表内聚度和分离度都相对较优。

2 Iris 数据集简介

Iris 数据集是著名的数据集之一。Iris 数据集包含 3 个类, 每个类有 50 个实例, 其中每一类都是指一种鸢尾属植物。有一类是与另外两类是线性可分的, 而另外两类之间是线性不可分的。

3 实验环境

系统: Windows 10
程序运行环境: Python 3.8
Python 库: numpy、pandas、matplotlib、sklearn、random
开发工具: Spyder、VSCode

4 代码实现

在代码实现中,对于 kmeans 我使用了两种数据集进行实现, 第一种使用了经典的数据集 Iris 鸢尾花, 为了更好的体现聚类的效果, 我使用了一张照片进行聚类, 对不同的聚类使用不同的颜色表示。在评估聚类的效果时,对于 kmeans 聚类, 这里使用了不同聚类的平均轮廓系数来进行分析。对于这两种数据, 都使用了 t-SNE 和 PCA 两种降维方式来展示效果。
对于 DBSCAN 聚类, 这里使用了一些聚类的数据并可视化, 可以很好的表达密度聚类
的效果。

4.1 kmeans 代码实现

对于 kmeans 的 Iris 实现, 这里建立了一个类来进行处理, 在获取到数据后, 首先根据设置的 (\mathrm{k}) 值,选出 (\mathrm{k}) 个初始聚类中心,本代码使用的方法是从数据集中随机抽取 (\mathrm{k}) 个数据来初始化,并将数据的序号记录下来,其 (\mathrm{k}) 个点的四维的数据直接存放到建立好的 (k {\times} 4)
的数组中, 随后按照算法一步一步迭代, 直到达到终止条件, 这里终止条件设置的为迭代的次数, 最后可以得到聚类的中心点以及每个数据的标签, 随后运用两种降维方式可视化出来, 然后利用 sklearn 库来计算平均轮廓系数。
对于用 kmeans 处理照片, 主函数部分与 Iris 的实现相同, 但是多了一些部分, 首先读取照片, 并将三维转为二维, 从而方便进行处理, 随后进行聚类, 得出结果后, 把数据恢复成三维, 并将图片按照聚类着色为多种颜色, 并利用 t-SNE 和 PCA 进行降维可视化, 得到结果。
聚类部分建立的类代码如下: 初始化参数, 函数 fit 进行聚类, imshow 降维展示, plot_img 图片着色。

class Kmeans():
    def __init__(self,dat,k):
        data=scale(dat)
        self.data=data
        self.row, self.col = data.shape
        self.k=k
        self.centers=np.ndarray((k,self.col))
        choices=random.choices(range(self.row),k=k)
        for i in range(k):
            self.centers[i,:]=self.data[choices[i],:]
    def fit(self,counts=15):
        count=0
        while(count
            self.labels=np.zeros((self.row))
            for i in range(self.data.shape[0]):
                dis=[]
                for j in range(self.k):
                    dis.append(np.linalg.norm(self.\
                    data[i,:]-self.centers[j,:],axis=0))
                lab=np.argmin(dis,axis=0)
                self.labels[i]=lab
            self.result={}
            for i in range(self.k):
                type=np.where(self.labels==i)[0]
                self.result[i]=type
                if len(type)==0:
                    self.centers[i, :] =0
                else:
                    self.centers[i,:]=np.mean(self.data[type,:],axis=0)
            count+=1

        return self.centers, self.result

    def imshow(self):
        tsne = TSNE(n_components=2, learning_rate=100).fit_transform(self.data)
        pca = PCA().fit_transform(self.data)
        plt.figure(figsize=(12, 6))
        plt.subplot(121)
        plt.scatter(tsne[:, 0], tsne[:, 1], c=self.labels)
        plt.subplot(122)
        plt.scatter(pca[:, 0], pca[:, 1], c=self.labels)
        plt.colorbar()
        plt.show()

    def plot_img(self,row,col):
        img=self.labels.reshape(row,col)
        im = Image.new("RGB", (row, col))  # 创建图片
        for i in range(row):
            for j in range(col):
                if img[i, j] == 0:
                    im.putpixel((i, j), (255, 0, 0))
                if img[i, j] == 1:
                    im.putpixel((i, j), (0, 255, 0))
                if img[i, j] == 2:
                    im.putpixel((i, j), (0, 0, 255))
        im.show()
        im.save('result.jpg')

主函数代码如下:

path='./2.bmp'
file=Image.open(path,'r')
file=np.array(file)
row,col,_=file.shape
data=file.reshape(-1,3)
kmeans=Kmeans(data,3)
centers,results=kmeans.fit(10)
kmeans.imshow()
kmeans.plot_img(row,col)
print(centers)
print(results)

此部分进行图片的读取与降维预处理, 然后进行聚类, 然后可视化。
Iris 的代码与之相差不大, 不再单独列出, 见附录。

4.2 DBSCAN 代码实现

在代码实现的过程中, 主要有以下步骤:

读取数据
构建密度聚类函数
将聚类后的结果可视化 4. 对聚类效果进行评价
读取数据采用了 scipy 中的 scio 来读取.mat 文件, 然后初步处理并传给聚类函数, 然后对结果可视化,最后利用 sklearn 中的库函数 metrics 来计算轮廓系数、 (\mathrm{CH}) score 以及 DBI 这三个指标。
首先定义了两个函数用于计算相关信息:

def calDist(X1, X2):
    sum = 0
    for x1, x2 in zip(X1, X2):
        sum += (x1 - x2) ** 2
    return sum ** 0.5


def getNeibor(data, dataSet, e):
    res = []
    for i in range(dataSet.shape[0]):
        if calDist(data, dataSet[i]) < e:
            res.append(i)
    return res

随后定义密度聚类的主函数:

def DBSCAN(dataSet, e, minPts):
    coreObjs = {}  # 初始化核心对象集合
    C = {}
    n = dataSet.shape[0]
    # 找出所有核心对象，key是核心对象的index，value是ε-邻域中对象的index
    for i in range(n):
        neibor = getNeibor(dataSet[i], dataSet, e)
        if len(neibor) >= minPts:
            coreObjs[i] = neibor
    oldCoreObjs = coreObjs.copy()
    k = 0  # 初始化聚类簇数
    notAccess = list(range(n))  # 初始化未访问样本集合（索引）
    while len(coreObjs) > 0:
        OldNotAccess = []
        OldNotAccess.extend(notAccess)
        cores = coreObjs.keys()
        # 随机选取一个核心对象
        randNum = random.randint(0, len(cores) - 1)
        cores = list(cores)
        core = cores[randNum]
        queue = []
        queue.append(core)
        notAccess.remove(core)
        while len(queue) > 0:
            q = queue[0]
            del queue[0]
            if q in oldCoreObjs.keys():
                delte = [val for val in oldCoreObjs[q] if val in notAccess]  # Δ = N(q)∩Γ
                queue.extend(delte)  # 将Δ中的样本加入队列Q
                notAccess = [val for val in notAccess if val not in delte]  # Γ = Γ\Δ
        k += 1
        C[k] = [val for val in OldNotAccess if val not in notAccess]
        for x in C[k]:
            if x in coreObjs.keys():
                del coreObjs[x]
    return C

随后定义了一个可视化函数, 主函数算出的聚类结果存在字典里, 这个函数将其标签
转化为数组形式, 代码如下:

def draw(C, D):
    colors = list(mcolors.TABLEAU_COLORS.keys())
    predict = np.zeros((D.shape[0], D.shape[1] + 1))
    j = 0
    keys = C.keys()
    print(keys)
    for k in keys:
        for i in C[k]:
            predict[j, 0:2] = D[i]
            predict[j, 2] = k
            j = j + 1
            plt.scatter(D[i, 0], D[i, 1], color=colors[k + 1])
    plt.show()
    return predict

随后定义主函数, 读取数据并进行聚类, 随后计算三个指标, 代码如下:

def main():
    path = './data-密度聚类/square1.mat'
    data = scio.loadmat(path)['square1']
    # plt.scatter(data[:,0],data[:,1])
    # plt.show()
    D = data[:, 0:2]
    label = data[2]
    C = DBSCAN(D, 0.9, 15)
    predict = draw(C, D)
    s1 = metrics.silhouette_score(predict[:, 0:2], predict[:, 2], metric='euclidean')
    s2 = calinski_harabasz_score(predict[:, 0:2], predict[:, 2])  # 计算CH score
    s3 = davies_bouldin_score(predict[:, 0:2], predict[:, 2])  # 计算 DBI

    print(s1, s2, s3)

5 结果与分析

5.1 kmeans 聚类

利用 K-means 聚类对 Iris 数据的处理结果如图 1 所示,其中 (\mathrm{K}) 设置为 3,迭代次数
设置为 15 。

图 1: kmeans 对 Iris 的聚类效果

由图片可以看出, 两种降维方式效果都非常好, 三类数据基本可以较好的分出来, 其中
两类较为相似, 这两类与另一类相差较大, 聚类效果较好。
此外, 对于 Iris 数据集, 这里还计算了轮廓系数, 在 3 分类迭代次数为 15 的情况下,
不同类别的平均轮廓系数为 0.4976 。
下面利用 kmeans 聚类对图像进行处理, 图 2 是一张照片:
对上面的这张照片聚类处理并着色后,结果如图 3 所示,其中 (\mathrm{K}) 设置为 3,迭代次数
设置为 15 。
由上图处理后的图像可以看出, 图片的聚类效果较好, 图片的轮廓信息可以较好的保
留下来, 聚类任务完成。
其中聚类处理后分别使用 t-SNE 和 PCA 降维可视化的效果如图 4 所示。

图 2: 聚类前的原图

图 3: kmeans 对图像的聚类效果

图 4: kmeans 对图片的聚类效果降维展示

由上图可以看出, 两种降维方式中 PCA 的效果更好, 对图片的聚类任务完成的很好,
这也印证了图片的着色图效果较好。

5.2 DBSCAN 聚类

以下是利用一些数据进行密度聚类的效果图片。

图 5: 密度聚类 1

图 6: 密度聚类 2

设置半径 (\mathrm{Eps}) 为 (0.04,\mathrm{Minpts}) 为 5 时,可以将数据三分类,得到图像如图 5 所示,轮
廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 (0.356{、}79.043{、}1.265) 。
设置半径 Eps 为 0.75, Minpts 为 5 时, 可以将数据四分类, 得到图像如图 6所示, 轮
廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 (0.674{、}5185.453{、}0.397) 。
设置半径 Eps 为 0.87, Minpts 为 16 时, 可以将数据三分类, 得到图像如图 7 所示,
轮廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 (0.572{、}2147.144{、}5.919) 。
设置半径 Eps 为 0.2, Minpts 为 5 时, 可以将数据二分类, 得到图像如图 8 所示, 轮
廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 (0.321{、}156.074{、}1.017) 。
设置半径 (\mathrm{Eps}) 为 (0.2,\mathrm{Minpts}) 为 5 时,可以将数据二分类,得到图像如图 9 所示,轮
廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 ( {-} 0.062{、}151.734{、}5.350) 。

图 7: 密度聚类 3

图 8: 密度聚类 4

图 9: 密度聚类 5

图 10: 密度聚类 6
设置半径 Eps 为 1.1, Minpts 为 10 时, 可以将数据四分类, 得到图像如图 10 所示,
轮廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 (0.664{、}1509.256{、}3.146) 。

图 12: 密度聚类 8

图 11: 密度聚类 7

设置半径 (\mathrm{Eps}) 为 0.2,Minpts 为 5 时,可以将数据二分类,得到图像如图 11 所示,轮
廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 (0.045{、}13.449{、}5.843) 。
设置半径 Eps 为 0.9, Minpts 为 15 时, 可以将数据四分类, 得到图像如图 12 所示,
轮廓系数、 (\mathrm{CH}) score、 (\mathrm{DBI}) 分别为 (0.664{、}4527.194{、}1.435) 。
从上面对八个数据集进行的密度聚类, 我们可以看出聚类达到了很好的效果, 不同分布结构的数据在设置不同的参数后都可以很好的被分类, 这样相比 kmeans 适用的范围更广, 缺点是算法相对于 kmeans 更复杂, 而且需要调整合适的参数才能得到较好的结果。

6 总结

这次的实验任务相对较多, 完成任务花费了不少的时间, 但在这个过程中我也收获了很多东西, 学习到了新的知识, 也加强了自己的代码能力, 在这个过程中也多方请假同学, 并广泛查阅了资料, 能力得到了提升, 对于聚类的了解增强了, 运用能力也得到了强化。

A K-means 程序代码

KMEANS IRIS 程序 - kmeans.py

# -*- coding:utf-8 -*-
# Author : JackZhu

# Data : 2021/5/10 23:10
import numpy as np
import pandas as pd
import sklearn
import random
from sklearn import datasets
from sklearn.preprocessing import scale
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score


class Kmeans():
    def __init__(self,dat,k):
        data=scale(dat)
        self.data=data
        self.row, self.col = data.shape
        self.k=k
        self.centers=np.ndarray((k,self.col))
        choices=random.choices(range(self.row),k=k)
        for i in range(k):
            self.centers[i,:]=self.data[choices[i],:]
    def fit(self):
        count=0
        while(count<15):
            self.labels=np.zeros((self.row))
            for i in range(self.data.shape[0]):
                dis=[]
                for j in range(self.k):
                    dis.append(np.linalg.norm(self.data[i,:]-self.centers[j,:],axis=0))
                lab=np.argmin(dis,axis=0)
                self.labels[i]=lab
            self.result={}
            for i in range(self.k):
                type=np.where(self.labels==i)[0]
                self.result[i]=type
                if len(type)==0:
                    self.centers[i, :] =0
                else:
                    self.centers[i,:]=np.mean(self.data[type,:],axis=0)
            count+=1
        return self.centers, self.result,self.labels

    def imshow(self):
        tsne = TSNE(n_components=2, learning_rate=100).fit_transform(self.data)
        pca = PCA().fit_transform(self.data)
        plt.figure(figsize=(12, 6))
        plt.subplot(121)
        plt.scatter(tsne[:, 0], tsne[:, 1], c=self.labels)
        plt.title('t-SNE')
        plt.subplot(122)
        plt.scatter(pca[:, 0], pca[:, 1], c=self.labels)
        plt.title('PCA')
        plt.colorbar()
        plt.show()


if __name__ == "__main__":
    iris=datasets.load_iris()
    data=iris.data
    target=iris.target
    kmeans=Kmeans(data,3)
    centers,results,labels=kmeans.fit()
    kmeans.imshow()
    s = silhouette_score(data, labels)
    print(centers)
    print(results)
    print(s)

KMEANS 处理照片程序 - kmeans_photo.py

# -*- coding:utf-8 -*-
# Author : JackZhu

# Data : 2021/5/13 12:56

import numpy as np
import pandas as pd
import sklearn
import random
from sklearn import datasets
from sklearn.preprocessing import scale
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from PIL import Image
import cv2


class Kmeans():
    def __init__(self,dat,k):
        data=scale(dat)
        self.data=data
        self.row, self.col = data.shape
        self.k=k
        self.centers=np.ndarray((k,self.col))
        choices=random.choices(range(self.row),k=k)
        for i in range(k):
            self.centers[i,:]=self.data[choices[i],:]
    def fit(self,counts=15):
        count=0
        while(count
            self.labels=np.zeros((self.row))
            for i in range(self.data.shape[0]):
                dis=[]
                for j in range(self.k):
                    dis.append(np.linalg.norm(self.data[i,:]-self.centers[j,:],axis=0))
                lab=np.argmin(dis,axis=0)
                self.labels[i]=lab
            self.result={}
            for i in range(self.k):
                type=np.where(self.labels==i)[0]
                self.result[i]=type
                if len(type)==0:
                    self.centers[i, :] =0
                else:
                    self.centers[i,:]=np.mean(self.data[type,:],axis=0)
            count+=1

        return self.centers, self.result

    def imshow(self):
        tsne = TSNE(n_components=2, learning_rate=100).fit_transform(self.data)
        pca = PCA().fit_transform(self.data)
        plt.figure(figsize=(12, 6))
        plt.subplot(121)
        plt.scatter(tsne[:, 0], tsne[:, 1], c=self.labels)
        plt.title('t-SNE')
        plt.subplot(122)
        plt.scatter(pca[:, 0], pca[:, 1], c=self.labels)
        plt.title('PCA')
        plt.colorbar()
        plt.show()

    def plot_img(self,row,col):
        img=self.labels.reshape(row,col)
        im = Image.new("RGB", (row, col))  # 创建图片
        for i in range(row):
            for j in range(col):
                if img[i, j] == 0:
                    im.putpixel((i, j), (255, 0, 0))
                if img[i, j] == 1:
                    im.putpixel((i, j), (0, 255, 0))
                if img[i, j] == 2:
                    im.putpixel((i, j), (0, 0, 255))
        im.show()
        im.save('result.jpg')


path='./2.bmp'
# path=f'H:/Python_code/Pattern Recognition/kmeans/kmeans图片/3.bmp'
file=Image.open(path,'r')
file=np.array(file)
row,col,_=file.shape
data=file.reshape(-1,3)
kmeans=Kmeans(data,3)
centers,results=kmeans.fit(10)
kmeans.imshow()
kmeans.plot_img(row,col)
print(centers)
print(results)

B DBSCAN 程序代码

DBSCAN 程序 - 密度聚类.py

# -*- coding:utf-8 -*-
# Author : JackZhu

# Data : 2021/5/9 15:16
# 调用科学计算包与绘图包
import numpy as np
import random
import matplotlib.pyplot as plt
import scipy.io as scio
import matplotlib.colors as mcolors
from sklearn import metrics
import sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score


def calDist(X1, X2):
    sum = 0
    for x1, x2 in zip(X1, X2):
        sum += (x1 - x2) ** 2
    return sum ** 0.5


def getNeibor(data, dataSet, e):
    res = []
    for i in range(dataSet.shape[0]):
        if calDist(data, dataSet[i]) < e:
            res.append(i)
    return res


def DBSCAN(dataSet, e, minPts):
    coreObjs = {}  # 初始化核心对象集合
    C = {}
    n = dataSet.shape[0]
    # 找出所有核心对象，key是核心对象的index，value是ε-邻域中对象的index
    for i in range(n):
        neibor = getNeibor(dataSet[i], dataSet, e)
        if len(neibor) >= minPts:
            coreObjs[i] = neibor
    oldCoreObjs = coreObjs.copy()
    k = 0  # 初始化聚类簇数
    notAccess = list(range(n))  # 初始化未访问样本集合（索引）
    while len(coreObjs) > 0:
        OldNotAccess = []
        OldNotAccess.extend(notAccess)
        cores = coreObjs.keys()
        # 随机选取一个核心对象
        randNum = random.randint(0, len(cores) - 1)
        cores = list(cores)
        core = cores[randNum]
        queue = []
        queue.append(core)
        notAccess.remove(core)
        while len(queue) > 0:
            q = queue[0]
            del queue[0]
            if q in oldCoreObjs.keys():
                delte = [val for val in oldCoreObjs[q] if val in notAccess]  # Δ = N(q)∩Γ
                queue.extend(delte)  # 将Δ中的样本加入队列Q
                notAccess = [val for val in notAccess if val not in delte]  # Γ = Γ\Δ
        k += 1
        C[k] = [val for val in OldNotAccess if val not in notAccess]
        for x in C[k]:
            if x in coreObjs.keys():
                del coreObjs[x]
    return C


def draw(C, D):
    colors = list(mcolors.TABLEAU_COLORS.keys())
    predict = np.zeros((D.shape[0], D.shape[1] + 1))
    j = 0
    keys = C.keys()
    print(keys)
    for k in keys:
        for i in C[k]:
            predict[j, 0:2] = D[i]
            predict[j, 2] = k
            j = j + 1
            plt.scatter(D[i, 0], D[i, 1], color=colors[k + 1])
    plt.show()
    return predict


def main():
    path = './data-密度聚类/square1.mat'
    data = scio.loadmat(path)['square1']
    # plt.scatter(data[:,0],data[:,1])
    # plt.show()
    D = data[:, 0:2]
    label = data[2]
    C = DBSCAN(D, 0.9, 15)
    predict = draw(C, D)
    s1 = metrics.silhouette_score(predict[:, 0:2], predict[:, 2], metric='euclidean')
    s2 = calinski_harabasz_score(predict[:, 0:2], predict[:, 2])  # 计算CH score
    s3 = davies_bouldin_score(predict[:, 0:2], predict[:, 2])  # 计算 DBI

    print(s1, s2, s3)


if __name__ == '__main__':
    main()

机器学习作业——高光谱遥感特征选择

2021-04-28T12:29:37.000Z

1 实验说明 1
2 数据集 1
3 特征选择 2
3.1 基本方法 2
3.2 单变量选择法 2
3.3 递归特征消除法 2
4 代码实现 2
4.1 获取数据 2
4.2 数据预处理 3
4.3 定义单变量选择函数 3
4.4 定义递归特征选择法函数 4
4.5 定义获得数据函数 4
4.6 定义评定函数 5
4.7 主函数 5
5 结果分析 6
6 优缺点分析 6
6.1 Filter 6
6.2 Wrapper 7
7 总结 7
A 作业代码 8

1 实验说明

本次实验的目标为利用提供的高光谱遥感数据集进行特征选择, 有以下实验要求:

利用给定的数据集, 进行数据特征 (波段) 选择。
具体选择方法和策略不限制。
实验结果度量标准不少于 4 种, 结合课程学习中的指标。
建议对比不同类型的选择方法, 给出各种方法的优缺点。
数据集给出的数据维数较高, 其中存在了许多冗余的信息以及无关信息, 如果把这些实际的数据直接放到神经网络中则很难得出较好的结果, 而且计算量大大增加, 因此需要进行特征提取, 把影响实验效果的特征清除掉, 用较少的特征对实验结果进行分析。

2 数据集

在本次实验中, 提供了多种数据可以选择, 由于目标在于实现过程, 数据集选择无关,
此处选择了肯尼迪航天中心数据 KSC。
NASA AVIRIS (机载可见光/红外成像光谱仪) 仪器于 1996 年 3 月 23 日在佛罗里达州肯尼迪航天中心 (KSC) 上空获取数据。AVIRIS 采集 224 个波段的数据, 这些波段的宽度为 10 纳米, 中心波长为 400-2500 纳米。从大约 20 公里的高度获得的 KSC 数据具有 18 米的空间分辨率。去除吸水率和低信噪比波段后, 用 176 个波段进行分析。训练数据是利用肯尼迪航天中心提供的彩色红外摄影和陆地卫星专题制图仪 (TM) 图像绘制的土地覆盖图选择的。植被分类方案是由 KSC 人员制定的, 目的是确定在陆地卫星和这些 AVIRIS 数据的空间分辨率上可辨别的功能类型。由于某些植被类型的光谱特征具有相似性, 因此很难区分这种环境下的土地覆盖。为便于分类, 为现场定义了 13 个类别, 代表该环境中出现的各种土地覆盖类型。
数据集预览如下图所示:

图 1: KSC 数据预览图

数据集尺寸为 $512 \times 614 \times 176$, 大小为 $56.8\mathrm{MB}$, 相应的结果尺寸为 $512 \times 614$, 大小为 $3.2\mathrm{KB}$。

3 特征选择

3.1 基本方法

一个典型机器学习问题是通过样本特征预测对应的值, 如果样本特征少, 可以增加特征, 而有时候特征较多, 则需要较少一些特征, 较少过拟合, 提高模型泛化能力, 加快模型训练速度并获得更好的性能,
特征选择主要有三种选择方法:

过滤法 (Filter) : 按照发散性或者相关性对各个特征进行评分, 设定阈值或者待选择阈值的个数, 选择特征。
包裹法 (Wrapper): 根据目标函数, 每次选择若干特征或者排除若干特征, 直到选择出最佳的子集。
嵌入法 (Embedding): 先使用某些机器学习的算法和模型进行训练, 得到各个特征的权值系数, 根据系数从大到小选择特征。类似于 Filter 方法, 但是是通过训练来确定特征的优劣。

3.2 单变量选择法

单变量特征选择是通过选择那些基于单变量统计检验 (univariate statistical tests) 得出的最优特征来实现的, 这是 Filter 法的一种。它可以看作是估计器的一个预处理步骤。这里使用了 Sklearn 中的 Select KBest 对每个特征进行评分, 并选择出指定数目的特征, 从而达到选择的效果, 这种方法并未考虑到不同特征之间的相互关系, 本题中选择了 50 个特征。

3.3 递归特征消除法

递归特征消除 (Recursive feature elimination) 是 Wrapper 法中的一种, 其主要思想是反复构建模型, 然后选出最好的 (或者最差的) 特征 (根据系数来选), 把选出来的特征放到一边, 然后在剩余的特征上重复这个过程, 直到遍历了所有的特征。在这个过程中被消除的次序就是特征的排序, 本题中选择了 30 个特征的组合。
RFE 的稳定性很大程度上取决于迭代时, 底层用的哪种模型。比如 RFE 采用的是普通的回归 (LR), 没有经过正则化的回归是不稳定的, 那么 RFE 就是不稳定的。假如采用的是 Lasso/Ridge, 正则化的回归是稳定的, 那么 RFE 就是稳定的。

4 代码实现

4.1 获取数据

此处建立函数读取获取数据并将数据从三维降到二维, 将对应的标签从二维降到一维,
降维后数据的尺寸为 (314368 {\times} 176) 。
其中一个重要的问题是提供的大部分数据是无用的, 即数据对应的标签为 0 , 因此这里
仅提取出标签不为零的数据,提取后数据尺寸为 (5211 {\times} 176) ,相关代码如下:

import numpy as np
from scipy.io import loadmat

# Function to load and preprocess the data
def get_data():
    # Load the hyperspectral dataset
    dat = loadmat('./高光谱数据集/KSC.mat')['KSC']
    lab = loadmat('./高光谱数据集/KSC_gt.mat')['KSC_gt']

    # Reshape the data and labels
    dat = dat.reshape((-1, 176))
    lab = lab.reshape((-1))
    
    print(dat.shape)  # Print the shape of the data
    
    data, label = [], []
    
    # Filter out data with non-zero labels
    for i in range(dat.shape[0]):
        if lab[i] != 0:  # Correct condition: check if the label is not 0
            data.append(dat[i, :])
            label.append(lab[i])
    
    # Convert lists to numpy arrays
    data = np.array(data)
    label = np.array(label)
    
    return data, label

4.2 数据预处理

这里首先利用 sklearn 中的 processing 对数据进行标准化处理, 然后消除方差为 0 的
特征, 并利用中位数进行变量的选择。

from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import VarianceThreshold
import numpy as np

# Function to process the data
def process(data):
    # Standardize the data
    data = StandardScaler().fit_transform(data)
    print('shape={}'.format(data.shape))

    # Apply VarianceThreshold (default threshold is 0)
    selector = VarianceThreshold()  # Instantiate, default threshold 0
    data = selector.fit_transform(data)
    print(data.shape)

    # Calculate the median variance and apply VarianceThreshold with it
    median_num = np.median(np.var(data, axis=0))  # Calculate the median variance
    data = VarianceThreshold(median_num).fit_transform(data)
    print(data.shape)

    return data

4.3 定义单变量选择函数

此处定义了单变量选择函数, 利用 SelectKBest 进行评分, 得到不同特征的得分以及
pvalue, 并得出是否选择, 并得到选出的 50 个特征的索引。

import pandas as pd
from sklearn.feature_selection import SelectKBest, f_classif

# Function to select k best features
def select_k(data, label, k):
    # Apply SelectKBest with f_classif scoring
    results = SelectKBest(f_classif, k=k).fit(data, label)
    print(results)
    
    # Create a DataFrame to store feature scores, p-values, and selection status
    features = pd.DataFrame({
        "score": results.scores_,
        "pvalue": results.pvalues_,
        "select": results.get_support()
    })
    
    # Sort the features by score in descending order
    features = features.sort_values("score", ascending=False)
    print(features)
    
    # Get the indices of the selected features
    index = results.get_support(indices=True)
    print(index)
    
    return index

此处简要列出几种特征得分、pvalue 以及选择情况如下图所示。

Index	score	pvalue	select
128	2727.83	0	True
129	2721.86	0	True
130	2713.15	0	True
131	3.10662	0.000214373	False
132	8.8046	6.66051e-17	False
133	1.56247	0.0951564	False
134	2085.42	0	False
135	2101.52	0	False
136	2107.9	0	False
137	2116.73	0	False
138	1.36264	0.17608	False
139	2165.66	日	True
140	2219.98	®	True
141	1.06688	0.383812	False

图 2: 特征得分预览图

4.4 定义递归特征选择法函数
此处同样获取索引, 在本题中, 选择了 30 个特征的组合进行特征选择, 代码如下。

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Function to perform Recursive Feature Elimination (RFE)
def rfe(data, label, n):
    # Initialize RFE with LogisticRegression as the estimator and select 'n' features
    results = RFE(estimator=LogisticRegression(), n_features_to_select=n)
    print(results)
    
    # Fit RFE to the data and labels
    results.fit(data, label)
    
    # Get the indices of the selected features
    index = results.get_support(indices=True)
    print(index)
    
    return index

4.5 定义获得数据函数

此函数目的为获取指定索引特征的数据并划分训练测试集, 即将上文中选出的指定特征索引数据选出来。

import numpy as np
from sklearn.model_selection import train_test_split

# Function to select specific features based on the provided indices and split the data
def select_index_data(index, data, label):
    # Initialize an empty list to store selected features
    data_after = []
    
    # Append selected features (columns) from the data based on the indices
    for i in index:
        data_after.append(data[:, i])
    
    # Convert the list of selected features into a NumPy array and transpose it
    data_after = np.array(data_after).transpose()
    
    print(data_after.shape)  # Print the shape of the selected data
    print(label.shape)  # Print the shape of the labels
    
    # Split the selected data and labels into training and test sets
    return train_test_split(data_after, label, test_size=0.3, random_state=1)

4.6 定义评定函数

此处利用 SVM 来测定特征选择的效果, 并利用 sklearn 中的库函数来进行评定, 相关
代码如下。

from sklearn.svm import SVC
from sklearn import metrics

# Function to measure the performance of the SVM classifier
def measure_feature(train_data, test_data, train_label, test_label, gamma, c):
    # Initialize the SVM classifier with a polynomial kernel
    clf = SVC(kernel='poly', gamma=gamma, C=c)
    
    # Train the classifier
    clf.fit(train_data, train_label)
    
    # Predict the labels for the test data
    predict = clf.predict(test_data)
    
    # Get model parameters (if needed)
    clf.get_params(deep=True)
    
    # Calculate performance metrics
    acc = metrics.accuracy_score(test_label, predict)
    f1 = metrics.f1_score(test_label, predict, average='micro')
    recall = metrics.recall_score(test_label, predict, average='micro')
    precision = metrics.precision_score(test_label, predict, average='micro')
    
    return acc, f1, recall, precision

4.7 主函数

这部分使用了上文中定义的函数, 首先读取数据, 然后进行数据预处理, 之后分别利用这两种方法, 并提取出特征对应的索引, 之后划分出训练集和测试集来对特征提取的结果进行测试, 最后分别展示出分别用分类准确率, f1 分数, 召回率, 精确度等指标来测试训练集和测试集的效果, 代码如下。

if __name__ == '__main__':
    # Load and preprocess the data
    data, label = get_data()
    data = process(data)
    
    # Select features using SelectKBest or RFE
    # index = rfe(data, label, n=30)  # Uncomment if using RFE
    index = select_k(data, label, k=50)  # Using SelectKBest with k=50
    
    # Select train and test data based on selected features
    train_data, test_data, train_label, test_label = select_index_data(index, data, label)
    
    # Print shapes of train and test sets
    print(train_data.shape, test_data.shape, train_label.shape, test_label.shape)
    
    # Define hyperparameters for the SVM classifier
    gamma, c = 0.125, 60
    
    # Measure performance on the training data
    train_acc, train_f1, train_recall, train_precision = measure_feature(
        train_data, train_data, train_label, train_label, gamma, c
    )
    
    # Measure performance on the test data
    test_acc, test_f1, test_recall, test_precision = measure_feature(
        train_data, test_data, train_label, test_label, gamma, c
    )
    
    # Print training and test accuracy
    print(f"Training Accuracy: {train_acc}, Test Accuracy: {test_acc}")
    
    # Print other performance metrics
    print(f"Training F1 Score: {train_f1}, Test F1 Score: {test_f1}")
    print(f"Training Recall: {train_recall}, Test Recall: {test_recall}")
    print(f"Training Precision: {train_precision}, Test Precision: {test_precision}")

5 结果分析

表 1: 训练测试结果

	accuracy	f1 score	recall	precision
UFS 训练集	0.943	0.943	0.943	0.943
UFS 测试集	0.902	0.902	0.902	0.902
RFE 训练集	0.994	0.994	0.994	0.994
RFE 测试集	0.948	0.948	0.948	0.948

由上表可知, RFE 在选择的特征数少于 UFS 的情况下, 效果仍好于 UFS。在本数据集下, 四种指标结果相同。对于 UFS 法, 优点是直观, 可解释性更好, 但是最优的组合效果并不一定是最好的。对于 RFE 法, 计算量更大, 需要考虑不同组合的效果。递归式特征消除的主要思路是反复建立多种模型, 每一次根据系数的不挑出差的特征, 并去除挑出来的特征, 然后在剩余的特征上重复该过程, 直到遍历了所有的特征。

6 优缺点分析

6.1 Filter

过滤式特征选择的评价标准从数据集本身的内在性质获得, 与特定的学习算法无关, 因此具有具有较好的通用性。通常选择和类别相关度大的特征或者特征子集。过滤式特征选择的研究者认为, 相关度较大的特征或者特征自己会在分类器上获得较高的准确率, dash 和 liu 把过滤式特征选择的评价标准分为四种, 即距离度量, 信息度量, 关联度量以及一致性度量
优点: 算法的通用性强, 省去了分类器的训练步骤, 算法复杂性低, 因而适用于大规模
数据集, 可以快速去除大量不相关的特征, 作为特征的预筛选器非常合适的
缺点: 由于算法的评价标准独立于特定的学习算法, 所选的特征子集在分类准确率方
面通常低于 wrapper 方法。

6.2 Wrapper

封装式特征选择即 wrapper 方法利用学习算法的性能来评价特征自己的优劣, 因此, 对
于一个待评价的特征子集, wrapper 方法需要
训练一个分类器, 根据分类器的性能对该特征子集进行评价, wrapper 方法中用以评价特征的学习算法是多种多样的, 例如决策树、神经网路、贝叶斯分类器、近邻法以及支持向量机等等, 本文就使用的支持向量机来进行评价。
优点: 相对于 filter 方法, wrapper 方法找到的特征子集分类性能通常更好
缺点: wrapper 方法选出的特征通用性不强, 当改变学习算法时, 需要针对该学习算法重新进行特征选择, 由于每次对子集的评价都要进行分类器的训练和测试, 所以算法计算复杂度很高, 尤其对于大规模数据集来说, 算法的执行时间越长。

7 总结

在这次实验中, 开始在理解题意方面遇到了很多问题, 后来经过多方询问才明白特征提取的几种方法如何实现。这次实验中我通过广泛查询资料了解到了相关的知识, 也认真写代码来完成任务, 这份作业的完成确实比较艰巨, 一份顶多份, 但是我还是有很大的收获, 能力也得到了提升。

A 作业代码

程序 - 高光谱.py

import pandas as pd
import numpy as np
from scipy.io import loadmat
import sklearn
from sklearn import preprocessing
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.feature_selection import SelectFromModel
from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn import metrics


def get_data():
    dat = loadmat('./高光谱数据集/KSC.mat')['KSC']
    lab = loadmat('./高光谱数据集/KSC_gt.mat')['KSC_gt']

    dat = dat.reshape(-1, 176)
    lab = lab.reshape(-1)
    print(dat.shape)

    data, label = [], []
    for i in range(dat.shape[0]):
        if lab[i].all() != 0:
            data.append(dat[i, :])
            label.append(lab[i])

    data = np.array(data)
    label = np.array(label)
    return data, label


def process(data):
    data = preprocessing.StandardScaler().fit_transform(data)
    print('shape={}'.format(data.shape))
    selector = VarianceThreshold()  # 实例化，不填参数默认方差为0
    data = selector.fit_transform(data)
    print(data.shape)
    median_num = np.median(data)
    data = VarianceThreshold(median_num).fit_transform(data)
    print(data.shape)
    return data


# acc = cross_val_score(KNN(), data, label, cv=5).mean()
# print("accuracy:{},time:{}".format(acc,time.time()-start))

def select_k(data, label, k):
    results = SelectKBest(f_classif, k=k).fit(data, label)
    print(results)
    features = pd.DataFrame({
        "score": results.scores_,
        "pvalue": results.pvalues_,
        "select": results.get_support()
    })
    features.sort_values("score", ascending=False)
    print(features)
    index = results.get_support(indices=True)
    print(index)
    return index


def rfe(data, label, n):
    results = RFE(estimator=LogisticRegression(), n_features_to_select=n)
    print(results)
    results.fit(data, label)
    index = results.get_support(indices=True)
    print(index)
    return index


def rfc(data, label):
    RFC_ = RFC(n_estimators=50, random_state=0)
    X_embedded = SelectFromModel(RFC_, threshold=0.005).fit_transform(data, label)
    result = sklearn.model_selection.cross_val_score(RFC_, X_embedded, label, cv=5).mean()
    print(result)


def select_index_data(index, data, label):
    data_after = []
    for i in index:
        data_after.append(data[:, i])
    data_after = np.array(data_after).transpose()
    print(data_after.shape)
    print(label.shape)
    return train_test_split(data_after, label, test_size=0.3, random_state=1)


def measure_feature(train_data, test_data, train_label, test_label, gamma, c):
    clf = sklearn.svm.SVC(kernel='poly', gamma=gamma, C=c)
    clf.fit(train_data, train_label)
    predict = clf.predict(test_data)
    clf.get_params(deep=True)
    acc = sklearn.metrics.accuracy_score(test_label, predict)
    f1 = sklearn.metrics.f1_score(test_label, predict, average='micro')
    recall = metrics.recall_score(test_label, predict, average='micro')
    precision = metrics.precision_score(test_label, predict, average='micro')
    return acc, f1, recall, precision


if __name__ == '__main__':
    data, label = get_data()
    data = process(data)

    # rfc(data,label)
    index = select_k(data, label, k=50)
    # index = rfe(data, label,n=30)
    train_data, test_data, train_label, test_label = select_index_data(index, data, label)
    print(train_data.shape, test_data.shape, train_label.shape, test_label.shape)
    gamma, c = 0.125, 60
    train_acc, train_f1, train_recall, train_precision = measure_feature(train_data, train_data, train_label,
                                                                         train_label, gamma, c)
    test_acc, test_f1, test_recall, test_precision = measure_feature(train_data, test_data, train_label, test_label,
                                                                     gamma, c)

    print(train_acc, test_acc)
    print(train_f1, test_f1)
    print(train_recall, test_recall)
    print(train_precision, test_precision)
    # print('训练集准确率为{:.4f}，测试集准确率为{:.4f}'.format(train_acc, test_acc))

计算智能导论作业——遗传算法的实现

2021-04-16T12:29:37.000Z

1 背景知识 1
1.1 最优化问题 1
1.2 进化算法 1
1.3 遗传算法的基本知识 1
1.3.1 生物背景 2
1.3.2 基本思想 2
1.4 遗传算法的组成部分 2
1.4.1 编码机制 3
1.4.2 种群初始化 3
1.4.3 适应度函数 3
1.4.4 遗传算子 3
2 算法步骤 4
3 实验过程 4
3.1 代码实现 4
4 结果分析 5
5 总结 5
A 程序代码 7

1 背景知识

1.1 最优化问题

工程设计中最优化问题 (optimization problem) 的一般提法是要选择一组参数 (变量),
在满足一系列有关的限制条件 (约束) 下, 使设计指标 (目标) 达到最优值。
最优化问题一般包括两方面问题: 线性问题和非线性问题。一方面是线性问题的求解, 主要在经济活动及工程技术中出现。这类问题一般采用单纯形法来求解。另一方面是非线性问题的求解, 这类问题在工程中经常碰到, 是最为常见的一类问题, 尤其是在物理学和决策中, 许多问题常常可以归结为非线性规划问题。这类问题一般需要先建立一个数学模型, 再进行求解。
最优化问题的求解实质就是将物理问题数学化, 把最优化问题的求解转化为目标函数
最优解的求解, 利用遗传算法在求解最优解方面的特点, 达到事半功倍的效果。

1.2 进化算法

进化算法, 或 “演化算法” (evolutionary algorithms) 是一个 “算法簇”, 是在达尔文 (Darwin) 的进化论和孟德尔 (Mendel) 的遗传变异理论的基础上产生的一种在基因和种群层次上模拟自然界生物进化过程与机制, 进行问题求解的自组织、自适应的随机搜索技术。它以达尔文进化论的 “物竞天择、适者生存” 作为算法的进化规则, 并结合孟德尔的遗传变异理论, 将生物进化过程中的繁殖 (Reproduction), 变异 (Mutation), 竞争 (Competition)、选择 (Selection) 引入到了算法中, 是一种对人类智能的演化模拟, 主要有遗传算法、演化策略、演化规划和遗传规划四大分支。
尽管它有很多的变化, 有不同的遗传基因表达方式, 不同的交叉和变异算子, 特殊算子的引用, 以及不同的再生和选择方法, 但它们产生的灵感都来自于大自然的生物进化。
与传统的基于微积分的方法和穷举法等优化算法相比, 进化计算是一种成熟的具有高鲁棒性和广泛适用性的全局优化方法, 具有自组织、自适应、自学习的特性, 能够不受问题性质的限制, 有效地处理传统优化算法难以解决的复杂问题。

1.3 遗传算法的基本知识

遗传算法 (Genetic Algorithm, GA) 是进化算法的一个分支, 是一种模拟自然界生物进化过程的随机搜索算法。其将 “优胜劣汰, 适者生存” 的生物进化原理引入优化参数形成的编码串联群体中, 按所选择的适应度函数并通过遗传中的复制、交叉及变异对个体进行筛选, 使适应度高的个体被保留下来, 组成新的群体。
新的群体既继承了上一代的信息, 又优于上一代, 这样周而复始, 群体中个体适应度不断提高, 直到满足一定的条件。同时, 遗传算法的原理简单, 可并行处理, 并能得到全局最优解。
遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型, 是一种通过模拟自然进化过程搜索最优解的方法。该算法通过数学的方式, 利用计算机仿真运算, 将问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程。在求解较为复杂的组合优化问题时, 相对一些常规的优化算法, 通常能够较快地获得较好的优化结果。遗传算法已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。
遗传算法直接以目标函数值作为搜索信息。传统的优化算法往往不只需要目标函数值,
还需要目标函数的导数等其它信息。这样对许多目标函数无法求导或很难求导的函数, 遗传算法就比较方便。
同常规算法相比, 遗传算法有以下特点:
遗传算法是对决策变量的编码进行操作, 这样提供的参数信息量大, 优化效果好。遗传算法是从许多点开始并行操作, 因而可以有效地防止搜索过程收玫于局部最优解。遗传算法通过目标函数来计算适配值, 而不需要其他推导和附加信息, 从而对问题的依赖性小。遗传算法的寻优规则是由概率决定的, 而非确定性的。遗传算法在解空间进行高效启发式搜索, 而非盲目地穷举或完全随机搜索。遗传算法对于待寻优的函数基本无限制, 因而应用范围较广。遗传算法具有并行计算的特点, 因而可通过大规模并行计算来提高计算速度。遗传算法更适合大规模复杂问题的优化。遗传算法计算简单, 功能强。

1.3.1 生物背景

基因: 一个遗传因子。
染色体: 包含一组的基因。
个体: 组成种群的单个生物。
种群: 生物的进化以群体的形式进行, 这样的一个群体称为种群。
生存竞争, 适者生存: 对环境适应度高的个体参与繁殖的机会比较多, 后代就会越来越多: 适应度低的个体参与繁殖的机会比较少, 后代就会越来越少。

1.3.2 基本思想

遗传算法把问题的解表示成 “染色体”, 在算法中即是以一定方式编码的串。
在执行遗传算法之前, 给出一群 “染色体”, 也即一组候选解 (种群)。
把这些假设解置于问题的 “环境” 中, 并按适者生存的原则, 从中选择出较适应环境的 “染色体” 进行复制, 再通过交叉, 变异过程产生更适应环境的新一代 “染色体”群。
这样, 一代一代地进化, 最后就会收玫到最适应环境的一个 “染色体” 上, 它就是求解
到的最优解。

1.4 遗传算法的组成部分

一般的遗传算法由四个部分组成: 1. 编码机制 2. 种群初始化 3. 适应度函数
4. 遗传算子 (选择、交叉、变异)

1.4.1 编码机制

用遗传算法解决问题时, 首先要对待解决问题的模型结构和参数进行编码, 一般用字符串表示。GA 中的编码方法: 二进制编码、浮点数编码方法、格雷码编码、符号编码等。
二进制编码所构成的个体的基因型是一个由 0 或 1 组成的编码串,其符号串的长度 $L$ 与问题所要求的求解精度有关。设某一变量的取值范围是 $\left[ X_{\min}, X_{\max} \right]$, $X_{\min} < X_{\max}$ 则二进制编码的编码精度为:

$$
\delta = \frac{X_{\max} - X_{\min}}{2^{L} - 1}
$$

如果某一个体的编码是: $b_{L}b_{L - 1}b_{L - 2} \cdots b_{2}b_{1}$, 则对应的解码公式为:

$$
X = X_{\min} + \frac{X_{\max} - X_{\min}}{2^{L} - 1} \left( \sum_{i = 1}^L b_{i} 2^{i - 1} \right)
$$

1.4.2 种群初始化

对种群个体的编码进行随机初始化。首先, 我们需要建立种群个体与遗传算法中有效解的对应概念。其次针对于每个个体,在固定长度的染色体下,对每个基因位进行随机 (0/1) 赋值, 也就是对有效解进行初始化的过程。

1.4.3 适应度函数

遗传算法以个体适应度的大小来评定各个个体的优劣程度, 从而决定其遗传机会的大小。一般情况下, 可以将目标函数作为适应度函数, 也就是求解问题的优化目标。将种群中的个体的染色体进行解码, 可以得到对应的十进制值, 代入适应度函数即可求得适应值。

1.4.4 遗传算子

(1)选择操作
选择是对当前种群内的所有个体进行筛选, 流出进入到后续繁殖环节的父代个体的过程, 常采用轮盘赌选择。轮盘赌选择依据个体的适应度值计算每个个体在下一代中出现的概率, 并按照此概率随机选择个体构成子代种群。选择某个体的概率为

$$
p(I_{i}) = \frac{f(I_{i})}{\sum_{i = 1}^N f(I_{i})}
$$

其中, $f(I_{i})$ 是个体 $I_{i}$ 的适应度值, $N$ 是种群大小。轮盘赌选择的流程如下:

计算种群中所有个体的适应度值之和, $F = \sum_{k = 1}^N \text{eval}(v_{k})$ ;
计算每个个体 $v_{k}$ 的选择概率 $p_{k}$, $p_{k} = \frac{\text{eval}(v_{k})}{F}$, $k = 1, 2, \ldots, \text{popSize}$ ;
计算每个个体 $v_{k}$ 的累积概率 $q_{k}$, $q_{k} = \sum_{j = 1}^k p_{j}$, $k = 1, 2, \ldots, \text{popSize}$ ;
随机产生 $N$ 个 $[0,1]$ 的随机数 $r_{i}$ ;
对于每一个 $r_{i}$ : 如果 $r_{i} \leq q_{1}$, 选择第一个个体 $v_{1}$; 否则, 如果 $q_{k - 1} < r_{i} < q_{k}$, 选择第 $k$ 个个体 $v_{k}(2 \leq k \leq \text{popSize})$ 。

(2)交叉操作

交叉操作是选中的两个父代个体交换莱些基因位形成子代个体的过程。交叉概率 (P_{c}) 是在种群中个体被选择出进行交叉的概率, 一般的交叉方式有单点交叉、两点交叉、多点交叉、均匀交叉等。其中, 单点交叉是随机产生一个有效的交叉位置, 染色体交换位于该交叉位置后的所有基因。
(3)变异操作
变异操作是编码按小概率扰动产生的变化,类似于基因的突变。变异概率 (P_{m}) 是控制算法中变异操作的使用频率。常用的变异方式有单点变异、均匀变异、高斯变异等。其中, 单点变异指的是对于某一基因位,产生的随机数小于 (P_{m}) 则改变该基因的取值,否则该基因不发生变异, 保持不变。

2 算法步骤

该算法可分为以下 7 步。
Step1: 初始化种群;
Step2: 计算种群中每个个体的适应度值;
Step3: 按由个体适应度值决定的某个规则选择将进入下一代的个体; Step4: 按概率 (P_{c}) 进行交叉操作; Step5: 按概率 (P_{m}) 进行变异操作;
Step6: 若没有满足某种终止条件, 则转第 2 步, 否则进入下一步; Step7: 输出种群中适应度值最优的染色体作为问题的满意解或最优解。

3 实验过程

本文中采用的函数为 (f(x) = {\sum}{i = 1}^n\left\lbrack x{i}^{2} {-} 10\cos\left( 2\pi x_{i} + 10 \right) \right\rbrack) ,自变量的定义域为 (\lbrack{-}5.12,5.12\rbrack) , 函数的最小值为 0 。

3.1 代码实现

作为遗传算法中较为重要的交叉模块, 我们进行了如下设计。首先, 遍历种群中的每一个个体, 将该个体作为父代, 而子代首先得到父代的全部基因, 父代产生子代时不是必然发生交叉, 而是以一定的概率发生交叉。从种群中选择令一个个体, 将该个体作为另一个附带, 随机产生交叉点后, 子代得到此父代交叉点后的全部基因。同时, 此子代也具有相应的变异概率。
这里首先确定了相关参数, 然后定义主要的几个函数, 包括三维作图函数、解码函数、适应度计算函数、交叉变异函数, 然后进行操作整合, 并将函数整合起来, 代码见附录。
在本代码中, 不仅对遗传算法中不同个体的适应度情况实时展示, 而且对迭代过程中
最小的值进行记录, 画出折线图, 从而使得展示过程更加直观。

图 1: 函数图

4 结果分析

上图为运算过程中的函数以及整个种群的情况:
当迭代完成后, 可以看到仅函数中心处有一点, 说明整个种群都收玫到了一处, 如下图
所示。
下图为迭代过程的最小适应度函数值的变化折线图。
由图中可以看出, 所求适应度函数最小的值在不断下降, 最终达到稳定值, 而且最终所
处数值接近 5 , 与题中一直条件相吻合, 证明了该遗传算法解决问题的效果较好。
最终得到最优的基因型为 [1100000000000000000001100100101111110100010100001], 其中 (x) 和 (y) 分别为 0.006485290913897046,0.003113098330086217,此时的值为: 0.01027 。

5 总结

在这次实验中, 开始在理解题意方面遇到了很多问题, 后来经过多方询问才明白。这次实验中我通过广泛查询资料了解到了相关的知识, 也认真写代码来完成任务, 这份作业的完成确实比较艰巨, 一份顶多份, 但是我还是有很大的收获, 能力也得到了提升。

图 2: 函数图

图 3: 函数图

A 程序代码

遗传算法程序 - GA.py

import math
import matplotlib.pyplot as plt
from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D
import numpy as np

DNA_SIZE = 24
POP_SIZE = 200
CROSSOVER_RATE = 0.8
MUTATION_RATE1 = 0.03
MUTATION_RATE2 = 0.001
N_GENERATIONS = 100
arr = []

# 取值范围
X_BOUND = [-5.12, 5.12]
Y_BOUND = [-5.12, 5.12]

# 函数
def F(x, y):
    return x**2 - 10* np.cos(2*math.pi*x) + 10 + y**2 - 10* np.cos(2*math.pi*y) + 10

# 画图
def plot_3D(ax):
    X = np.linspace(*X_BOUND, 100)
    Y = np.linspace(*Y_BOUND, 100)
    X, Y = np.meshgrid(X, Y)
    Z = F(X, Y)
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap=cm.coolwarm)
    ax.set_zlim(-10, 100)
    ax.set_xlabel('X')
    ax.set_ylabel('Y')
    ax.set_zlabel('Z')
    plt.pause(3)
    plt.show()

# 解码DNA
def translateDNA(pop):
    x_pop = pop[:, 1::2]
    y_pop = pop[:, ::2]

    x = x_pop.dot(2 ** np.arange(DNA_SIZE)[::-1]) / float(2 ** DNA_SIZE - 1) * (X_BOUND[1] - X_BOUND[0]) + X_BOUND[0]
    y = y_pop.dot(2 ** np.arange(DNA_SIZE)[::-1]) / float(2 ** DNA_SIZE - 1) * (Y_BOUND[1] - Y_BOUND[0]) + Y_BOUND[0]

    return x, y

# 适应度
def get_fitness(pop):
    x, y = translateDNA(pop)
    pred = F(x, y)
    arr.append(np.min(pred))
    return - (pred - np.max(pred)) + 1e-3

#淘汰机制
def select(pop, fitness):
    idx = np.random.choice(np.arange(POP_SIZE), size=POP_SIZE, replace=True, p=fitness/fitness.sum())

    return pop[idx]

# 交叉变异
def crossover_and_mutation(pop, CROSSOVER_RATE = 0.8, MUTATIONS_RATE = 0.01):
    new_pop = []
    for father in pop:
        child = father
        if np.random.rand() < CROSSOVER_RATE:
            mother = pop[np.random.randint(POP_SIZE)]
            cross_points = np.random.randint(low=0, high=DNA_SIZE*2)
            child[cross_points:] = mother[cross_points:]
        mutation(child, MUTATIONS_RATE)
        new_pop.append(child)

    return new_pop

# 变异
def mutation(child, MUTATION_RATE):
    if np.random.rand() < MUTATION_RATE:  # 以MUTATION_RATE的概率进行变异
        mutate_point = np.random.randint(0, DNA_SIZE)  # 随机产生一个实数，代表要变异基因的位置
        child[mutate_point] = child[mutate_point] ^ 1  # 将变异点的二进制为反转

def print_info(pop):
    fitness = get_fitness(pop)
    max_fitness_index = np.argmax(fitness)
    print("max_fitness:", fitness[max_fitness_index])
    x,y = translateDNA(pop)
    print("最优的基因型:", pop[max_fitness_index])
    print('(x, y ):', (x[max_fitness_index], y[max_fitness_index]))
    print("此时的值为:", F(x[max_fitness_index], y[max_fitness_index]))

if __name__ == "__main__":
    fig = plt.figure()
    ax = Axes3D(fig)
    plt.ion()
    plot_3D(ax)

    # 随机生成种群矩阵，奇数列表示X，偶数列表示Y
    pop = np.random.randint(2, size=(POP_SIZE, DNA_SIZE * 2))
    for i in range(N_GENERATIONS):
        x, y = translateDNA(pop)
        if 'sca' in locals():
            sca.remove()

        sca = ax.scatter(x, y, F(x, y), c='black', marker='o')
        plt.show()
        plt.pause(0.1)

        if i < 7*i/10:
            pop = np.array(crossover_and_mutation(pop, CROSSOVER_RATE, MUTATIONS_RATE = MUTATION_RATE1 ))
        else:
            pop = np.array(crossover_and_mutation(pop, CROSSOVER_RATE, MUTATIONS_RATE = MUTATION_RATE2 ))


        fitness = get_fitness(pop)
        pop = select(pop, fitness)

    print_info(pop)
    plt.ioff()
    plot_3D(ax)

    x = np.arange(0, 101)
    plt.xlabel('n')
    plt.ylabel('Minimum')
    # plt.ylim((-0.1, 5))  # y坐标的范围
    # 画图
    plt.plot(x, arr, 'b', marker='o', markersize=4)
    plt.savefig("折线图F5_2.png", dpi=2000)

机器学习报告——数据分类的实现

2021-04-11T12:29:37.000Z

1 数据集 1
2 logistic 回归与神经网络 1
2.1 背景知识 1
2.1.1 线性及 sigmoid 函数 1
2.1.2 计算误差及修正参数 1
2.2 代码实现及结果分析 2
3 高斯判别分析 3
3.1 背景知识 3
3.2 代码实现 4
4 贝叶斯分类 4
4.1 背景知识 4
4.2 代码实现 4
5 性能分析 4
6 时效分析 4
7 影响因素分析 5
7.1 logistic 分类 5
8 总结 5
A logistic 分类代码 6
B GDA 分类代码 8
C 贝叶斯分类代码 11
D 贝叶斯库函数调用分类代码 12

1 数据集

在本次作业中, 在 UCI 中选取了 Sonar 数据集进行分类, 该数据集具有 208 个样本,
一共 60 个维度。
任务是训练网络以区分反弹的声纳信号从金属圆柱上弹下来和从大致呈圆柱形的岩石弹起。每个模式是一组 60 个数字, 范围在 0.0 到 1.0 之间。每个数字代表在特定时间段内积分的特定频段内的能量。较高频率的积分孔径在时间上较晚出现, 因为这些频率是在线性调频期间稍后传输的。如果对象是岩石,则与每个记录关联的标签包含字母 “ $\mathrm{R}$ ”,如果是地雷 (金属圆柱体) 则包含字母 “M”。标签中的数字按长宽比的高低顺序排列, 但它们不直接对角度进行编码。

2 logistic 回归与神经网络

由于 logistic 分类本质为线性求和以及激活函数的作用, 因此这里使用了神经网络框架来实现 logistic 回归, 即神经网络框架只有一个线性层, 然后使用 sigmoid 激活函数, 在结果的判定中对得到的结果进行分类, 即当结果大于 0.5 的时候为一类, 否则为另一类, 即可得出结果, 因此这两种方法同时实现了。

2.1 背景知识

2.1.1 线性及 sigmoid 函数

logistic 分类为一个线性求和和一个 sigmoid 激活组成，假设有一个 $n$ 维的输入列向量 $x$，也有一个 $n$ 维的参数列向量 $h$，还有一个偏置量 $b$ 那么就可以线性求和得到 $z_{\mathrm{s}}$：

$$
z = h^T x + b
$$

这个时候值的范围仍是 $({-}\infty, +\infty)$，无法判断出来分类，这个时候就需要一个激活函数来将值进行划分，这里使用的激活函数是 sigmoid 函数：

$$
\sigma(x) = \frac{1}{1 + e^{-x}}
$$

其导数有以下规律：

$$
\sigma’(x) = \sigma(x)(1 - \sigma(x))
$$

其图像如下图所示：

$$
a = \sigma(z) = \sigma\left( h^T x + b \right)
$$

这样进行判别，当 $a$ 大于 0.5 的时候，可以判定 $x$ 属于一类，否则属于另一类，即可进行分类。

2.1.2 计算误差及修正参数

在凸优化问题中, 可以通过导数为零进行计算。
$$\frac{\partial C}{\partial h} = 0, \quad \frac{\partial C}{\partial b} = 0$$

图 1: sigmoid 函数图像

这种直接的计算在小规模情况下可行, 但在大规模数据以及非凸优化的情况下, 采用迭代的方法得到局部最优解的方式更加可行，即如下方法：

$$
h = h - \eta \frac{\partial C}{\partial h}
$$

$$
b = b - \eta \frac{\partial C}{\partial b}
$$

其中 $\eta$ 表示学习率，这里损失函数可以使用平方差损失。即 $C = \frac{1}{2}(a - y)$，并进行迭代，即可求出结果。

2.2 代码实现及结果分析

这里首先导入数据并将标签进行二值化, 然后利用 sklearn 来将数据进行划分, 得到训练集以及测试集。随后定义网络结构, 即仅有一个线性层并使用 sigmoid 激活函数的神经网络, 并将特征设置为数据的维度, 之后分别定义训练函数以及测试函数。然后将上文划分好的测试集以及训练集利用 TensorDataset 以及 DataLoader 得到可以送入神经网络的迭代器, 定义损失函数使用均方损失, 优化器这里使用了著名的不需要调参数的 Adadelta, 因为之前使用 SGD 的时候结果在参数调整不合适的情况会出现很大问题。最后训练并测试结果, 并将其可视化出来, 得到结果如下图所示:
又上图可知, 随着迭代次数的增多, 损失在不断下降, 而训练的精度则为先升后降的趋势,最高可以达到 (83%) 的精度。因为随着迭代次数过多,出现了过拟合的情况,使得模型在训练数据中取得的误差更小, 但是在测试数据中准确率反而不够高, 这也反映了仅使用线性网络可能导致的结果问题, 可以通过调整结果正则化以及控制迭代次数等方法来提高模型的性能。

图 2: logistic 分类结果

3 高斯判别分析

3.1 背景知识

高斯判别分析是一个比较直观的模型, 一个基本的假设就是得到的数据是独立同分布
的, 虽然这种假设在实际中很难达到, 但是在有了好的假设后可以得到较好的结果。
一维正态分布为:

$$
f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)
$$

其中 $x$ 为样本特征, $\sigma$ 为标准差, $\mu$ 为样本期望值，并将该分布记为 $N(\mu, \sigma^2)$，当 $\mu = 0$，$\sigma = 1$ 时候的正态分布是标准正态分布。

$n$ 维正态分布表示为：

$$
p(x; \mu, \Sigma) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) \right)
$$

其中 (p(x; \mu, \Sigma)) 中的 (\mu, \Sigma) 分别表示均值向量以及协方差矩阵。

将 (n) 维高斯分布应用到监督学习中，假设输入数据为 (x)，输出类别为 (y \in {0,1})，则对应分类问题可以描述为：

$$
y \approx \operatorname{Bernoulli}(\phi)
$$

$$
x | y = 0 \approx \mathcal{N}(\mu_0, \Sigma)
$$

$$
x | y = 1 \approx \mathcal{N}(\mu_1, \Sigma)
$$

其中 Bernoulli((\phi)) 表示伯努利分布，通过推导可以得出样本分类的依据：

$$
p(y | x) = \frac{p(x | y) p(y)}{p(x)}
$$

$$
y = \underset{y}{\arg\max} , p(y | x)
$$

$$
= \underset{y}{\arg\max} , p(x | y) p(y)
$$

3.2 代码实现

首先求出训练数据的均值向量以及协方差矩阵, 然后利用公式分布求出正负样本的概
率,最后将测试数据传入并与实际结果对比,得出准确率为 (75.00%) 。

4 贝叶斯分类

4.1 背景知识

贝叶斯分类是一类分类算法的总称, 一类算法以贝叶斯定理为基础, 统称为贝叶斯分类。朴素贝叶斯是贝叶斯分类中最简单常见的一种分类方法。理论上朴素贝叶斯模型比其他分类方法误差率更小, 但是由于朴素贝叶斯模型假设属性之间相互独立, 但是这个假设在实际中往往不成立, 在属性个数多或者属性相关性较大的时候, 分类效果差。朴素贝叶斯逻辑简单, 易于实现, 而且分类过程中开销比较小, 其核心算法是贝叶斯公式:
[P(B {\mid} A) = \frac{P(A {\mid} B)P(B)}{P(A)}]
其中 (A) 为特征, (B) 为类别。

4.2 代码实现

这里首先定义一个 gaussion_pdf 函数,这个函数的作用就是利用 (n) 维正态分布的公式,从而求得 (n) 维正态分布的分布情况,从而为预测函数提供概率基础,然后定义一个预测函数 predict,利用 numpy 的 unique 求得分类数,并对每一类分布,求得 (P(y)) 以及 (P(x {\mid} y)) ,最后将测试集传入,并与测试集的标签对比得出结果。
经过实践,得到准确率为 (63.46%) 。

5 性能分析

从性能上来说, 贝叶斯分类开销比较小, 而 logistic 神经网络法则比较大, 这是因为神经网络使用的空间等相对较大, 而贝叶斯由于采用的仅为样本空间, 因此性能相对较好。
从结果来说, (\operatorname{logistic}) 分类的结果在迭代次数合适的时候可以达到 (80%) 以上,高斯判别
分析可以达到 (75%) ,贝叶斯分类的准确率为 (63.46%) ,因此 logistic 效果最好。

6 时效分析

代码中已经利用了库函数 time 来计算程序运行的时间, 经过测试, logistic 分类经过 100 次迭代使用的时间为 $2.35\mathrm{\ s}$ ,而高斯判别分析用时为 $0.02\mathrm{\ s}$ ,贝叶斯分类用时 $0.01\mathrm{\ s}$ ,调用的贝叶斯分类函数,其用时同样为 $0.01\mathrm{\ s}$ 。
从时间上来说, 采用神经网络的 logistic 分类使用的轮次较多, 平均下来, 每训练一轮为 $0.02\mathrm{\ s}$ ,与高斯判别分析时间近似相等,两者都差于贝叶斯分类,自己时间的贝叶斯与库函数实现的贝叶斯时间上相差不大。
对于时间, logistic 分类每一轮都遍历一遍样本, 贝叶斯分类只遍历一次样本, 高斯判别分析需要便利每个样本的每个特征。
对于空间, logistic 分类只需用一个样本的空间, 贝叶斯分类需要有数据的类别空间, 高斯判别分析需要有正负样本的存储空间。
表 1: 时效分析

	logistic 分类	贝叶斯分类	GDA 分类
时间复杂度	$\theta(m \cdot k)$	$\theta(m)$	$\theta(m \cdot d)$
空间复杂度	$\theta(d)$	$\theta(d \cdot K)$	$\theta(d^{2})$

其中 $m$ 为样本数, $d$ 为特征维数, $k$ 为迭代次数。

7 影响因素分析

7.1 logistic 分类

在这个方法中, 我在写的过程中遇到的一个问题就是优化器的选取, 在开始使用 SGD 的时候, 损失在很短的时间就达到很大, 显示出 nan, 经过多次尝试才明白出问题的地方, 修改后, 效果较好。

8 总结

在这次的机器学习大作业中我收获很大, 这次的作用并不容易, 不仅仅要完成三个方法的分类任务, 一个重要方面是对方法的分析, 包括性能分析, 时效分析等, 这也是对能力的一次锻炼, 收获很大。

参考文献

[1] 详解朴素贝叶斯分类算法 https://blog.csdn.net/ccblogger/article/details/81712351? ivk_sa=1024320u

[2] 贝叶斯分类

[3] 高斯判别分析

A logistic 分类代码

logistic 分类.py

# -*- coding: utf-8 -*-
"""
Created on Sat Apr 10 16:56:09 2021

@author: tremble
"""

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import pandas as pd 
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import time


start=time.time()
file=pd.read_csv('D:/桌面/sonar.csv',header=None)
data=file.iloc[:,:40]
target=file.iloc[:,-1]
data=np.array(data,dtype=float)
target=pd.get_dummies(target).iloc[:,0]
data=torch.tensor(data,dtype=torch.float)
target=torch.tensor(target,dtype=torch.float)

x_train,x_test,y_train,y_test=train_test_split(data,\
    target,test_size=0.25,random_state=5)

class logistic_net(nn.Module):
    def __init__(self,features):
        super(logistic_net,self).__init__()
        self.linear=nn.Linear(features,1)
    def forward(self,x):
        x=self.linear(x)
        x=torch.sigmoid(x)
        x = x.squeeze(-1)    
        return x
    
model=logistic_net(40)

def train(model, train_loader, optimizer, epoch, criterion):
    model.train()
    loss = 0.0
    for i, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        if i % 10 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, i * len(data), len(train_loader.dataset),
                       100. * i / len(train_loader), loss.item()))


def test(model,test_loader, criterion):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            pred=torch.Tensor(len(target),1)
            output = model(data)
            test_loss += criterion(output, target).item()  # sum up batch loss
            for i in range(len(target)):
                if output[i]>0.5:
                    pred[i]=torch.tensor(1)
                else:
                    pred[i]=torch.tensor(0)
            #pred = output.argmax(dim=1, keepdim=True)  # get the index of the max log-probability
            correct += pred.eq(target.view_as(pred)).sum().item()

    test_loss /= len(test_loader.dataset)

    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))
    return test_loss,100. * correct / len(test_loader.dataset)



trainset=torch.utils.data.TensorDataset(x_train,y_train)
testset=torch.utils.data.TensorDataset(x_test,y_test)
trainloader=torch.utils.data.DataLoader(trainset,batch_size=4,shuffle=True)
testloader=torch.utils.data.DataLoader(testset,batch_size=4,shuffle=True)


criterion = nn.MSELoss()
optimizer = optim.Adadelta(model.parameters(), lr=1.0)


epoch_list,ls_list,accuracy_list=[],[],[]

for epoch in range(1, 100):
    train(model,trainloader, optimizer, epoch, criterion)
    ls,accuracy=test(model, testloader, criterion)
    epoch_list.append(epoch)
    ls_list.append(ls)
    accuracy_list.append(accuracy)

fig = plt.figure(figsize=(10,4))
plt.subplot(121)
plt.plot(epoch_list,ls_list,linestyle=':')
plt.xlabel('epoch')
plt.ylabel('loss')
plt.subplot(122)
plt.plot(epoch_list,accuracy_list,linestyle=':')
plt.xlabel('epoch ')
plt.ylabel('accuracy')
plt.show()

print('用时{:.2f}s'.format(time.time()-start))

B GDA 分类代码

GDA 分类.py

# -*- coding: utf-8 -*-
"""
Created on Sat Apr 10 18:11:49 2021

@author: tremble
"""

import numpy as np
import pandas as pd 
from sklearn.model_selection import train_test_split
import time 

start=time.time()
file=pd.read_csv('D:/桌面/sonar.csv',header=None)
data=file.iloc[:,:40]
target=file.iloc[:,-1]
data=np.array(data,dtype=float)
target=pd.get_dummies(target).iloc[:,0]

x_train,x_test,y_train,y_test=train_test_split(data,\
                target,test_size=0.25,random_state=5)


positive_data=[]
negative_data=[]
positive_num=0
negative_num=0
for (data,label)in zip(x_train,y_train):
    if label ==1:
        positive_data.append(list(data))
        positive_num+=1
    else:
        negative_data.append(list(data))
        negative_num+=1
        
row,col=np.shape(x_train)   


positive=positive_num*1.0/row
negative=1-positive
        
positive_data=np.array(positive_data)
negative_data=np.array(negative_data)        
mean_positive=np.mean(positive_data,axis=0)       
mean_negative=np.mean(negative_data,axis=0)        
positive_deta=positive_data-mean_positive
negative_deta=negative_data-mean_negative        
        
sigma=[]
for deta in positive_deta:
    deta=deta.reshape(1,col)
    ans = deta.T.dot(deta)
    sigma.append(ans)
for deta in negative_deta:
    deta=deta.reshape(1,col)
    ans = deta.T.dot(deta)
    sigma.append(ans)
sigma=np.array(sigma)
sigma=np.mean(sigma,axis=0)        
        
mean_positive=mean_positive.reshape(1,col)
mean_negative=mean_negative.reshape(1,col)        
        
def Gaussian(x,mean,cov):
    dim=np.shape(cov)[0]
    covdet = np.linalg.det(cov + np.eye(dim) * 0.001)
    covinv = np.linalg.inv(cov + np.eye(dim) * 0.001)
    xdiff = (x - mean).reshape((1, dim))
    prob = 1.0 / (np.power(np.power(2 * np.pi, dim) *\
                           np.abs(covdet), 0.5)) * \
    np.exp(-0.5 * xdiff.dot(covinv).dot(xdiff.T))[0][0]
    return prob        
        
def predict(x_test,mean_positive,mean_negetive):
    predict_label=[]
    for data in x_test:
        positive_pro=Gaussian(data, mean_positive, sigma)
        negative_pro=Gaussian(data, mean_negetive, sigma)
        if positive_pro>=negative_pro:
            predict_label.append(1)
        else:
            predict_label.append(0)
    return predict_label        
        
test_predict=predict(x_test,mean_positive,mean_negative)        
        
test_predict=np.array(test_predict)
y_test=np.array(y_test)        
        
accuracy=(test_predict==y_test).sum().item()/len(y_test)        
        
print('用时{:.2f}s,准确率为{:.2f}%'.\
      format(time.time()-start,accuracy*100.0))

C 贝叶斯分类代码

贝叶斯分类.py

# -*- coding: utf-8 -*-
"""
Created on Sat Apr 10 18:36:49 2021

@author: tremble
"""

import numpy as np
import pandas as pd 
from sklearn.model_selection import train_test_split
import time

start=time.time()
file=pd.read_csv('D:/桌面/sonar.csv',header=None)
data=file.iloc[:,:40]
target=file.iloc[:,-1]
data=np.array(data,dtype=float)
target=pd.get_dummies(target).iloc[:,0]
data=np.array(data,dtype=float)
target=np.array(target,dtype=float)
x_train,x_test,y_train,y_test=train_test_split(data,\
            target,test_size=0.25,random_state=5)

def gaussion_pdf(x_test, x):
        temp1 = (x_test - x.mean(0)) * (x_test - x.mean(0))
        temp2 = x.std(0) * x.std(0)
        return np.exp(-temp1 / (2 * temp2)) / np.sqrt(2 * np.pi * temp2)
    
def predict(x_train,y_train,x_test):
        assert len(x_test.shape) == 2
        classes = np.unique(y_train)
        pred_probs = []
        for i in classes:
            idx_i = y_train == i
            p_y = len(idx_i) / len(y_train)
            p_x_y = np.prod(gaussion_pdf(x_test,x_train[idx_i]), 1)
            prob_i = p_y * p_x_y
            pred_probs.append(prob_i)
        pred_probs = np.vstack(pred_probs)
        label_idx = pred_probs.argmax(0)
        y_pred = classes[label_idx]
        return y_pred
    
y_predict=predict(x_train,y_train,x_test)

accuracy=(y_predict==y_test).sum().item()/len(y_test)
print('准确率为{:.2f}%,用时{:.2f}s'.format(accuracy*100.0,\
                                     time.time()-start))

D 贝叶斯库函数调用分类代码

贝叶斯调用实现.py

# -*- coding: utf-8 -*-
"""
Created on Sat Apr 10 19:53:00 2021

@author: tremble
"""

from sklearn.metrics import accuracy_score
from sklearn.naive_bayes import GaussianNB
import time
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split


start=time.time()
file=pd.read_csv('D:/桌面/sonar.csv',header=None)
data=file.iloc[:,:40]
target=file.iloc[:,-1]
data=np.array(data,dtype=float)
target=pd.get_dummies(target).iloc[:,0]
data=np.array(data,dtype=float)
target=np.array(target,dtype=float)
x_train,x_test,y_train,y_test=train_test_split(data,\
            target,test_size=0.25,random_state=5)


model = GaussianNB()
model.fit(x_train,y_train)
test_predict_model = model.predict(x_test)
print("逻辑回归的正确率为：{:.2f}%,用时为{:.2f}s".\
      format(accuracy_score(y_test,\
        test_predict_model)*100.0,time.time() - start))

数据挖掘报告——MIMC数据集的预处理

2021-04-08T12:29:37.000Z

摘要

在本次的大作业中，这里首先利用 MySQL 对数据进行整合，并提取出包含 $CO_2$ 和 $O_2$ 相应指标的数据，然后将提取的数据导出，并导入到 Python 中。然后利用第一组数据为示例分别进行缺失值、离群点处理，并完成去噪以及插值处理。随后选出另两组为示例进行可视化，最后得出实验感想与分析，这里去噪利用了 $3\sigma$ 原则。

关键词: $\quad$ MySQL Python $\quad 3\sigma$ 原则

1 数据处理 1
1.1 数据提取 1
1.2 数据具体处理 1
1.3 数据合并 1
1.4 缺失值处理 2
1.5 离群点处理 2
1.6 去噪 4
1.7 插值 5
2 第二组数据 5
2.1 离群点处理 5
2.2 去噪 6
2.3 插值 7
3 第三组数据 8
3.1 离群点处理 8
3.2 去噪 9
3.3 插值 9
4 总结 10
A SQL 程序代码 1 11
B SQL 程序代码 2 11
(\mathrm{C}) 主程序代码 11
D 作业要求 14
D. 1 数据集说明 14
D. 2 任务说明 14

1 数据处理

1.1 数据提取

这次作业中数据较大, 直接读取很难看出数据具体细节, 直接打开会崩溃, 因此这里开始使用 MySQL, 将提供的三个文件导入进去, 然后进行初步处理, 利用附录 A 和附录 B 中所示代码, 将 PO2 和 PCO2 两个指标提取出来, 得到数据 CO2 如下图所示。

f1	ROW ID	SUBJECT ID	HADM ID	ITEMID	CHARTTIMEVALUE	VALUENUM	VALUEUOM	FLAG
	974	3	145834.0	50818	2101-10-2204:31:0025	25.0	mmHg	(Null)
231	988	3	145834.0	50818	2101-10-2207:13:0028	28.0	mmHg	(Null)
240	997	3	145834.0	50818	2101-10-2210:16:0028	28.0	mmHg	(NuII)
249	1006	3	145834.0	50818	2101-10-2211:21:0027	27.0	mmHg	(Null)
262	1019	3	145834.0	50818	2101-10-2213:02:0026	26.0	mmHg	CNUII
271	1028	a	145B34.0	50818	2101-10-2215:59:0024	24.0	mmHg	(NuII)
285	1042	3	145834.0	50818	2101-10-2216:02:0030	30.0	mmHg	(Nuith
310	1067	3	145834.0	50818	2101-10-2221:20:0027	27.0	mmHg	(Null)
325	1082	3	145834.0	50818	2101-10-2302:46:0029	29.0	mmHg	(Null)
338	1095	3	145834.0	50818	2101-10-2302:49:0033	33.0	mmHg	(Null)
379	1136	3	145834.0	50818	2101-10-2310:14:0025	25.0	mmHg	(Null)
392	1149	3	145834.0	50818	2101-10-2310:22:0030	30.0	mmHg	CNUI
406	1163	a	145834.0	50818	2101-10-2316:10:0029	29.0	mmHg	(Null)
468	588	3	145834.0	50818	2101-10-2020:04:0028	28.0	mmHg	(Null)
486	606	3	145834.0	50818	2101-10-2021:51:0033	33.0	mmHg	(Nuil)
502	622	3	145834.0	50818	2101-10-2100:42:0030	30.0	mmHg	(NuII)
568	506	3	145834.0	50818	2101-10-2019:12:0040	40.0	mmHg	(Null)
580	518	3	145834.0	50818	2101-10-2019:14:0028	28.0	mmHg	(Num
783	189	3	(NuII)	50818	2101-10-1209:18:00338	38.0	mmHg	(Null)
802	208	3	(NuM)	50818	2101-10-1210:51:0039	39.0	mmHg	(Num
820	226	2	(NuM)	50818	2101-10-12 12:05:0044	44.0	mmHg	(NuII)
836	242	3	(NuII)	50818	2101-10-1213:00:0040	40.0	mmHg	(Null)
853	259	3	(Nu 0)	50818	2101-10-1214:22:0042	42.0	mmHg	(NuII)
1089	2509	4	CNUM	50818	2191-05-1813:16:0027	27.0	mmHg	abnormal
1281	687	3	145834.0	SO818	2101-10-2103:09:0029	29.0	mmHg	(Null
1313	719	a	145834.0	50818	2101-10-2109:46:0026	26.0	mmHg	(Null)
1322	728	3	145834.0	50818	2101-10-2109:51:0033	33.0	mmHg	(Null)
1330	736	3	145834.0	50818	2101-10-2110:23:0027	27.0	mmHg	(Null)
1379	785	3	145834.0	50818	2101-10-2115:48:0028	28.0	mmHg	(NoII)
1393	799	3	145834.0	50818	2101-10-2115:52:0036	36.0	mmHg	(Null)
1409	815	3	145834.0	50818	2101-10-2117:33:0030	30.0	mmHg	(NuII)
1424	830	3	145834.0	50818	2101-10-2117:37:0037	37.0	mmHg	(Nuti)

图 1: 初步提取数据图

1.2 数据具体处理

由于 MySQL 时间戳利用的 Unix 时间只能表示到 2038 年, 不便于后续处理, 因此这
段用 Python 语言进行处理。
将上部分的数据导出为 (\mathrm{csv}) 格式,并利用 python 读取。这里首先选择 SUBJECT_ID
为 3 的数据作为示例。

1.3 数据合并

这里首先将 PO2 和 PCO2 中 SUBJECT_ID 相同的数据合并到一个表格中, 并删除其余无关列, 仅保留下时间 CHARTTIME、住院时期 HADM_ID 以及 O2 和 CO2 的值。这里用的数据 SUBJECT_ID 分别为 3 ,

	HADM_ID_X	CHARTTIME	CO2	02
0	NaN	2101-10-12 09:18:00	38	244
1	NaN	2101-10-12 10:51:00	39	159
2	NaN	2101-10-12 12:05:00	44	173
3	NaN	2101-10-12 13:00:00	40	151
4	NaN	2101-10-12 14:22:00	42	138
5	NaN	2101-10-12 18:17:00	33	80
6	145834.0	2101-10-20 19:12:00	40	20
7	145834.0	2101-10-20 19:14:00	28	313
8	145834.0	2101-10-2020:04:00	28	329
9	145834.0	2101-10-2021:51:00	33	287
10	145834.0	2101-10-2100:42:00	30	175
11	145834.0	2101-10-21 03:09:00	29	181

图 2: 初步处理数据图

1.4 缺失值处理

可以看到此时的数据中存在一些缺失值, 根据分析, 前部分确实的为一次住院, 最后有
一个数据异常, 因此不妨将缺失的值赋为 1 。
此时准备对结果进行可视化, 发现氧气和二氧化碳的数据值并非为数型, 而是为字符
型, 因此将这两列转为数字型, 此时将数据可视化得到下图:

图 3: 离群点处理前

1.5 离群点处理

由于离群点仅有一个, 一个病人再住院期间可以进行一次或者多次血气指标收集, 对于一个病人, 在单次住院期间仅收集一次是无意义的, 也无法进行插值, 只有在一个病人单次住院期间收集多次的情况下, 插值才有意义。因此可将该点去除, 去除后数据如下图所
示。

图 4: 离群点处理后

由于数据明显可分为两部分, 因此数据应为两次住院期间的数据, 因此将数据分为两
部分, 即两次住院的数据。
第一部分可视化

图 5: 一部分去噪前

由于该部分数据量较少, 插值准确率低, 因此不采用第一部分数据进行处理。第二部分可视化的结果如下图所示:

图 6: 二部分去噪前

1.6 去噪

这里使用了 (3\sigma) 原则进行去噪 (\lbrack 1\rbrack) ,由于样本处于 ((\mu {-} 3\sigma,\mu + 3\sigma)) 的概率为 0.9973 。因
此用此原则进行去噪有很大的作用。具体代码如下:

def drop_noisy(df):
(\mathrm{df}) _copy ( = \mathrm{df} {\cdot} \operatorname{copy}())
df_describe = df_copy.describe()
for column in [‘CO2’,’O2’]:
mean ( = ) df_describe.loc [‘mean’,column]
std ( = ) df_describe.loc [‘std’,column]
minvalue ( = ) mean ( {-} 3 * ) std
maxvalue ( = ) mean ( + 3 * ) std
df_copy = df_copy[df_copy[column] >= minvalue]
df_copy = df_copy[df_copy[column] <= maxvalue]
return df_copy

去噪后的结果如下图所示:

图 7: 二部分去噪后

1.7 插值

在插值地方, 首先将时间一列转为时间戳的形式, 然后分别对每一天的数据进行插值, 这里对于时间使用了线性插值,对 (\mathrm{CO}2) 和 (\mathrm{O}2) 使用了阶梯插值,最后将数据整合到一起, 并将时间戳转化为时间的形式, 从而完成插值。
插值前, 结果如下图所示:

图 8: 样本三第二部分部分数据插值前

经过插值后, 结果如下图所示:

图 9: 样本三第二部分部分数据插值后

2 第二组数据

由上述第一组数据的处理可以得到处理方法, 下述处理同上。

2.1 离群点处理

图 10: 第二组数据离群点处理前

图 11: 第二组数据离群点处理后

2.2 去噪

图 12: 第二组数据去噪处理后

2.3 插值
插值前:

图 13: 第二组数据插值前

图 14: 第二组数据插值后

3 第三组数据

3.1 离群点处理

图 15: 第三组数据去离群点前

图 16: 第三组数据去离群点后

3.2 去噪

图 17: 第三组数据去噪后

3.3 插值

图 18: 第三组数据插值前

图 19: 第三组数据插值后

4 总结

这次作业在很多地方都有较大的坑, 也是很久以来最难的一次大作业, 以至于做了很久才有一点头绪, 对于我而言, 最难的地方在于插值部分, 由于作为横轴的时间必须经过处理后才能进行相关处理, 在这方面进行插值以及可视化都出现了不小的问题, 经过反复思考并请教相关同学才成功解决。
通过这次数据挖掘的作业, 我感觉自己收获很大, 也学到了很多知识, 我有了一些新的认识, 数据预处理很重要, 未处理过的数据中往往有很多问题, 如果直接拿去用由于数据中存在的很多有问题的地方会使得结果与预期有很大的差异, 因此做好数据预处理是很有必要的一个步骤。在近期的学习中我学习到了数据库以及数据处理方面的很多技巧, 这对于进一步的数据挖掘应该有着不小的帮助, 也有助于今后在该领域的发展。

参考文献

[1] 刘彬, 戴桂平. 基于白化检验和 3 准则的小波阈值去噪算法 [J]. 传感技术学报,2005,18(3):473-476. DOI:10.3969/j.issn.1004-1699.2005.03.008.

A SQL 程序代码 1

提取 PO2 数据


USE hello_mysql;	SELECT
	*:
FROM
labevents mini
	WHERE
T	ITEMID = 490
M	OR ITEMID = 3785
9	OR ITEMID = 3837
0	OR ITEMID = 50821

B SQL 程序代码 2
提取 PCO2 数据


USE hello_mysql;	SELECT
	*:
FROM
labevents_mini
	WHERE
	ITEMID = 3784
	OR ITEMID = 3835
	OR ITEMID = 50818

C 主程序代码

Data enhancement.py

# -*- coding: utf-8 -*-
"""
Created on Thu Apr  8 20:01:07 2021

@author: tremble
"""

import pandas as pd 
import numpy as np
import sklearn
import datetime
import matplotlib.pyplot as plt
from scipy import interpolate
import time 


def plot_img(df):
    t=df.loc[:,'CHARTTIME']

    t=[datetime.datetime.strptime(i,'%Y-%m-%d %H:%M:%S') for i in t]

    co2 = [float(i) for i in df.loc[:,'CO2']]
    o2 = [float(i) for i in df.loc[:,'O2']]

    fig = plt.figure(figsize=(20,8))
    plt.subplot(211)
    plt.plot(t,co2,'o-')
    plt.xlabel('data')
    plt.ylabel('CO2')
    plt.grid(ls='--')

    plt.subplot(212)
    plt.plot(t,o2,'o-')
    plt.xlabel('data ')
    plt.ylabel('O2')

    plt.grid(ls='--')
    plt.show()

def drop_noisy(df):
    df_copy = df.copy()
    df_describe = df_copy.describe()
    for column in ['CO2','O2']:
        mean = df_describe.loc['mean',column]
        std = df_describe.loc['std',column]
        minvalue = mean - 3*std
        maxvalue = mean + 3*std
        df_copy = df_copy[df_copy[column] >= minvalue]
        df_copy = df_copy[df_copy[column] <= maxvalue]
        return df_copy

def date_to_timestamp(date, format_string="%Y-%m-%d %H:%M:%S"):
 time_array = time.strptime(date, format_string)
 time_stamp = int(time.mktime(time_array))
 return time_stamp
def timestamp_to_date(time_stamp, format_string="%Y-%m-%d %H:%M:%S"):
 time_array = time.localtime(time_stamp)
 str_date = time.strftime(format_string, time_array)
 return str_date

data_co2=pd.read_csv(r'D:\桌面\data mining\PCO2.csv')
data_o2=pd.read_csv(r'D:\桌面\data mining\PO2.csv') 
df1=pd.DataFrame(data_co2)
df2=pd.DataFrame(data_o2)

df1=df1.loc[df1['SUBJECT_ID'] == 3]
df2=df2.loc[df2['SUBJECT_ID'] == 3]
df1.rename(columns={'VALUE':'CO2'},inplace=True) 
df2.rename(columns={'VALUE':'O2'},inplace=True) 

df=pd.DataFrame.merge(df1, df2, how='inner', on='CHARTTIME', left_on=None, right_on=None,   
      left_index=False, right_index=False, sort=True,   
      suffixes=('_x', '_y'), copy=True, indicator=False)
df=df[['HADM_ID_x','CHARTTIME','CO2','O2']]

df=df.fillna(1)

df[['CO2','O2']] = df[['CO2','O2']].apply(pd.to_numeric)
plot_img(df) 
df=df.drop([44],axis=0)

df1=df.loc[df['HADM_ID_x'] == 1]
df2=df.loc[df['HADM_ID_x'] == 145834.0]

plot_img(df2)

df2=drop_noisy(df2)

plot_img(df2)

df2.interpolate(method='time',axis=0)
plot_img(df2)

df2_1=df2[4:17]
plot_img(df2_1)
set=df2_1
set=np.array(set)
x=np.linspace(0,len(set)-1,len(set))
value=[]
for i in range(len(set)):
    value.append(date_to_timestamp(set[i, 1]))
value=np.array(value)
diff=value[-1]-value[0]
location=np.linspace(0,len(set)-1,diff//3600+1)
f0=interpolate.interp1d(x,value,kind='linear')
f1=interpolate.interp1d(x,np.array(set[:,2]),kind='zero')
f2=interpolate.interp1d(x,np.array(set[:,3]),kind='zero')
F0=f0(location)
F0_time=[]

for i in range(len(F0)):
 F0_time.append(timestamp_to_date(F0[i]))
 F1 = f1(location)
 F2 = f2(location)
combined_data = np.vstack((np.array(F0_time),F1, F2))
df2_2= np.transpose(combined_data)

df2_2=pd.DataFrame(columns=['CHARTTIME','CO2','O2',],data=df2_2)
plot_img(df2_2)

D 作业要求

D. 1 数据集说明

该数据集是一个免费的大型数据库, 包含与 2001 年至 2012 年之某医疗机构重症监护
室收治的 40,000 多名患者相关的健康相关数据。该数据集已进行数据脱敏。
数据集的说明参阅 https://mimic.physionet.org/about/mimic/。此次任务涉及到数据集中的三个表格, PATIENTS, CHARTEVENTS 和 LABEVENTS, 表格的说明分别参考
https://mimic.physionet.org/mimictables/patients/ https://mimic.physionet.org/mimictables/chartevents/ https://mimic.physionet.org/mimictables/labevents/

D. 2 任务说明

本次任务的目的是处理 (\mathrm{pO}2,\mathrm{pCO}2) 两个指标。这两个指标均为病人的血气指标,以一定的时间间隔采集。一个病人一次住院期间可能收集一次或者多次。要求, 按照采集时间的前后顺序,汇总每个病人每次住院期间的所有的 (\mathrm{pO}2,\mathrm{pCO}2) 指标值。涉及到的预处理方法包括插值, 去噪, 缺失值填充, 离群点数据处理, 可视化等。
pO2 和 PCO2 数据存储在 CHARTEVENTS 和 LABEVENTS 两个表格中 (不是分别存储, 而是每个表格都包括这两个指标)。两个表格中以 ITEMID 字段进行标注, 其中 PO2 的 ITEMID 为 (\lbrack 490,3785,3837,50821\rbrack) 之一,PCO2 的 ITEMID 为 (\lbrack 3784,3835,50818\rbrack) 之一。SUBJECT_ID 字段指示不同的病人 (如张三和李四的 SUBJECT_ID 分别为 00001
和 00002), HADM_ID 指示一次住院时期 (一个病人可能多次入院, 同一 SUBJECT_ID, HADM_ID 不同则认为是同一病人不同的住院经历, 在收集数据时需要区分)。

记录我的第一次搭建博客

2020-10-31T00:00:00.000Z

艰难的第一次搭博客

其实我在很早之前就想搭博客，大概大一开始的时候，就想着做一些有意义，有兴趣的事，结果一直拖到了现在才开始真正意义上的实践，我也是趁着这次对大一的培训搭建博客，顺便才开始做，看上去不是很难的一件事，实际去做，我却遇到了很多困难，就光配置markdown的front-matter的时候，因为不知道里面还有其他东西，就一直报错，而且和其他一起弄的，我还找不到原因，就导致我花了很大的时间，最后遇到的一个问题是图片的在线存储问题，最后用的码云的仓库来放的，最后头像也解决了，我才能说，我基本才算是搭建成了一个基本的框架。

哎，之前跟现在相比，其实并不忙的，但也是懒，还有各种找的原因，结果到现在，对这样搭博客的基本知识都还都不太了解，有点小愧疚，以后还是得加把劲了。

现在还有一堆大作业要去写，剩下的时间也不多了，就先这样吧。

配置起来不是访问有问题需要外网就是图片的问题，真是很难。

Jack's Blog

秋招面试总结分享

面试前的内容

算法 vs 开发

力扣

简历

面试内容

实习

秋招

算法方向

视觉方向

大模型

搜广推

部署推理

面试内容总结

简历学习内容

大模型

实习相关

实验评价指标

如何根据实验结果调整 prompt

数据构造

数据如何标注的

采用大模型而不是之前的机器学习方法的意义、优点

改进和上线所需措施

相关理论

RAG 相关

视觉

目标检测

人脸识别

算法八股

理论

手撕

最后补个学习的内容：算法工程师面试常考手撕题

注意力（Attention）篇

手撕单头注意力机制（ScaledDotProductAttention）函数

手撕多头注意力（MultiHeadAttention）

手撕自注意力机制函数（SelfAttention）

基础机器学习算法篇

手撕 k-means 算法

手撕 Layer Normalization 算法

手撕 Batch Normalization 算法

解码算法篇

手撕 贪心搜索 （greedy search）

手撕 Top-K Sampling算法

神经网络篇

手撕 卷积神经网络(CNN)法

手撕 二维卷积 算法

位置编码篇

手撕 绝对位置编码 算法

手撕 可学习位置编码 算法

手撕 相对位置编码 算法

手撕 rope 算法

面试题汇总

致谢

秋招金山面试分享

一面

二面

三面HR面

oc

秋招中金所面试分享

一面

秋招蔚来面试分享

一面

秋招广联达

一面

秋招上海银行面试分享

一面AI面

二面人工面

秋招百信银行面试分享

一面

秋招虾皮面试分享

一面

秋招招联面试分享

一面

秋招华为面试分享

一面

二面

1. 一阶导数的离散化

2. 二阶导数的离散化

3. 从一阶导数推导二阶导数

如何根据实验结果调整 `prompt`

手撕贪心搜索（greedy search）

手撕卷积神经网络(CNN)法

手撕二维卷积算法

手撕绝对位置编码算法

手撕可学习位置编码算法

手撕相对位置编码算法

4. 解读 `[1, -2, 1]`