Richard14 最近的时间轴更新
Richard14

Richard14

V2EX 第 531423 号会员,加入于 2021-02-01 03:42:40 +08:00
根据 Richard14 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
Richard14 最近回复了
@Chad0000 所以从闪一下改为一直显示吗。。是我没想到的思路。。
14 天前
回复了 damngoto 创建的主题 Python Python 迷惑系列
@DOLLOR 实例未定义向方法引用,语言特性到你这说成语言缺陷了,js 的 class 可大哥别笑二哥了

@damngoto 有没有一种可能,怪的是 OP ,向上替换的特性不了解,然后还一定要用类属性,这又不是连函数和变量都没有的 java ,python 这有很多神奇的东西,比如全局变量。所以 OP 要借助类属性实现什么设计?
15 天前
回复了 morphyhu 创建的主题 程序员 阿里的轻量云发现有一个这样的 LKM 模块.
@morphyhu 最近不是经常有消息良心云无理由封机器,我续费还有三年到期挺慌的,不过目前确实是没啥事,只是不知道是他不探测还是探测出来不抓
@eason1874 您这是买开发板,确实挺容易的,人家那是做开发板。。。
15 天前
回复了 morphyhu 创建的主题 程序员 阿里的轻量云发现有一个这样的 LKM 模块.
@zyxk 挺清晰的吧

@morphyhu OP 了解腾讯云相关吗?目前在用腾讯鸡
@ecwu 对了大佬我还想问一下关于预训练,因为我的文本是脱敏的没法直接用成品我需要自己训练,我没太搞懂多任务训练训练是实践上怎么结合起来的。它原论文有 mlm 和 nsp 两种方式,正确的做法是比如我先构建模型和对应 mlm 的输出,把它训练到类似收敛,然后再把输出层换成 nsp 的再重新训练到收敛,这样先后训练算是经过两个预训练吗,还是说它有什么交替训练的办法。如果有顺序的话会不会导致结果差异
@ecwu 谢谢,很有帮助,确实是太大了
@ecwu 好的,我原先不是很确定 bert 的输出含义,比如 bert layer*n 结束后它输出是一个 cls+n 个 token 的特征信息,有一种模糊的感觉是这样但是不能确定,网上信息里对大体原理讲述的比较多,涉及具体行为的比较少,尤其涉及具体预训练细节的几乎没有。

按照你的说法我的一个想法是,如果 bert 的输出可以认为是一个高级版 word2vec 的话,所有 token embedding 取平均感觉逻辑上不太能说得通,也许我应该测试在输出结束后再接一层 rnn 之类的。。如果不接 rnn 的话,是不是应该尝试将结果再进行位置编码再进入 mlp ,因为 bert 输出的 token 有应该不是前后顺序完全不影响的吧。。是不是还是应该有位置因素
@sm1314 谢谢,你的解释醍醐灌顶。我观察网上的实现代码里,原本有一个疑惑是,它有一个结构是在__init__里生成一个 cls=nn.Parameter(512),但是在每次 forward 里都要 torch.cat(cls, n),然后加到输入数据上,让形状变成[batch_size, n+1, 512]这样,原来还搞不太懂他到底是干啥的,所以按你说的可以理解成是人为添加了一个表示全局信息的部分?然后 bert 的输出就可以理解为原先的 n 个数据,还是表示输入的 n 个信息各自的词信息?外加一个 cls 的部分表示全局信息?所以按照这个说法,如果我想改成回归任务,就也只用这部分全局信息就行了呗
21 天前
回复了 Richard14 创建的主题 程序员 LSTM 网络中有关维数的理解
@heqing
@rpman 那是不是可以理解为,它会循环 seq_len 次,然后把词向量升维到某维度,比如 lstm 的 input 是 10 ,hiddenlayer 是 512 的话就是等于 10 维升到 512 维,然后比如双向 lstm 的话就到 1024 维这样?
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1882 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 01:06 · PVG 09:06 · LAX 18:06 · JFK 21:06
Developed with CodeLauncher
♥ Do have faith in what you're doing.