V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
supervipcard
V2EX  ›  Python

lstm 训练 QA 问答系统的问题?

  •  
  •   supervipcard · 2018-02-26 13:39:00 +08:00 · 2943 次点击
    这是一个创建于 2222 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想用 word2vex 训练词向量用于后续 lstm 模型的训练,那么训练词向量用的语料可以和训练 lstm 用的一样吗?

    6 条回复    2018-02-26 22:26:22 +08:00
    menc
        1
    menc  
       2018-02-26 13:45:46 +08:00
    可以。
    supervipcard
        2
    supervipcard  
    OP
       2018-02-26 15:52:49 +08:00
    @menc 那请问用于训练词向量的语料在语料文件大小,每篇文章的长度等方面有什么需要注意的吗
    afpro
        3
    afpro  
       2018-02-26 17:01:21 +08:00
    直接加一个 embedding_lookup 就好了 不 word2vec 也可以
    menc
        4
    menc  
       2018-02-26 18:11:30 +08:00
    @supervipcard 越大越好。可以像楼下说的,用 embedding 层来做,数据量大的时候差别不大。
    neosfung
        5
    neosfung  
       2018-02-26 18:36:47 +08:00
    embedding_lookup 的实现原理和 word2vec 貌似不一样吧?
    supervipcard
        6
    supervipcard  
    OP
       2018-02-26 22:26:22 +08:00
    @menc @afpro 用 embedding 层的话是先将训练集的句子中单词转换成一个个 id,相当于 ont-hot 编码,并且初始化一个词向量矩阵,再输入 embedding 层的吧。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   955 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 21:26 · PVG 05:26 · LAX 14:26 · JFK 17:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.