ba-dou #AI

中文分词

基于词表的分词算法基于词表的方法具备如下缺陷：对词表极为依赖，如果没有词表，则无法进行；如果词表中缺少需要的词（比如无法穷举的人名、地名），结果也不会正确对词表极为依赖，如果没有词表，则无法进行；如果词表中缺少需要的词，结果也不会正确如果文本中出现一定的错别字，会造成一连串影响正向最大匹配

发布于 2026-03-31

ba-dou #AI

处理文本

组件 embedding 将词元首先映射到编号，再将数字编号映射成词向量。embedding的大小为词表大小 * 词向量大小。池化层提取张量的局部特征，降低张量维度。适合语言处理的网络结构 RNN：循环处理，每一时间步都结合了当前输入和上一时间步的隐藏层信息 CNN：局部特征提取，以卷积核为核

发布于 2026-03-23

ba-dou #AI

数据集创建训练集数据的返回形式是tensor张量创建指定形状的方法借助Numpy np.random.rand()，数据均匀分布， np.random.randn()，数据正态分布 list和tensor互转 tensor(List) 转张量 tensot.tolist() 转列表直接创建

发布于 2026-03-18

ba-dou #AI

流程框架核心思想是先猜后调，属于机器学习的一种。 1. 模型随机初始化 2. 比较预期值，计算loss 3. 反向传播，更新优化器、学习率 4. 重复以上过程，直至loss收敛 # 流程示例 import torch import torch.nn as nn # 1. 模型定义 model =

发布于 2026-03-08

ba-dou #AI

环境安装参考：https://note.youdao.com/s/BAcOYrOB cuda环境安装 conda镜像源 # 添加清华镜像（包含nvidia通道） conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/an

发布于 2026-03-08

ba-dou #AI

机器学习流程数据清洗特称抽取数据集划分训练预测分类有监督学习核心目标：寻找输入输出之间的规律注意是否有足量数据是否可以数字化输入输出，且输入输出之间要有关联是否具备预测价值<

发布于 2026-03-08