基于词表的分词算法 基于词表的方法具备如下缺陷: 对词表极为依赖,如果没有词表,则无法进行;如果词表中缺少需要的词(比如无法穷举的人名、地名),结果也不会正确 对词表极为依赖,如果没有词表,则无法进行;如果词表中缺少需要的词,结果也不会正确 如果文本中出现一定的错别字,会造成一连串影响 正向最大匹配
组件 embedding 将词元首先映射到编号,再将数字编号映射成词向量。embedding的大小为词表大小 * 词向量大小。 池化层 提取张量的局部特征,降低张量维度。 适合语言处理的网络结构 RNN:循环处理,每一时间步都结合了当前输入和上一时间步的隐藏层信息 CNN:局部特征提取,以卷积核为核
数据集 创建训练集 数据的返回形式是tensor张量 创建指定形状的方法 借助Numpy np.random.rand(),数据均匀分布, np.random.randn(),数据正态分布 list和tensor互转 tensor(List) 转张量 tensot.tolist() 转列表 直接创建
流程框架 核心思想是先猜后调,属于机器学习的一种。 1. 模型随机初始化 2. 比较预期值,计算loss 3. 反向传播,更新优化器、学习率 4. 重复以上过程,直至loss收敛 # 流程示例 import torch import torch.nn as nn # 1. 模型定义 model =
环境安装 参考:https://note.youdao.com/s/BAcOYrOB cuda环境安装 conda镜像源 # 添加清华镜像(包含nvidia通道) conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/an
机器学习 流程 数据清洗 特称抽取 数据集划分 训练 预测 分类 有监督学习 核心目标:寻找输入输出之间的规律 注意 是否有足量数据 是否可以数字化输入输出,且输入输出之间要有关联 是否具备预测价值<