lstm 训练 QA 问答系统的问题?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2464 天前的主题，其中的信息可能已经有所发展或是发生改变。

我想用 word2vex 训练词向量用于后续 lstm 模型的训练，那么训练词向量用的语料可以和训练 lstm 用的一样吗？

lstm

训练

语料

word2vex

6 条回复 • 2018-02-26 22:26:22 +08:00

menc

2018-02-26 13:45:46 +08:00

可以。

supervipcard

2018-02-26 15:52:49 +08:00

@menc 那请问用于训练词向量的语料在语料文件大小，每篇文章的长度等方面有什么需要注意的吗

afpro

2018-02-26 17:01:21 +08:00

直接加一个 embedding_lookup 就好了不 word2vec 也可以

menc

2018-02-26 18:11:30 +08:00

@supervipcard 越大越好。可以像楼下说的，用 embedding 层来做，数据量大的时候差别不大。

neosfung

2018-02-26 18:36:47 +08:00

embedding_lookup 的实现原理和 word2vec 貌似不一样吧？

supervipcard

2018-02-26 22:26:22 +08:00

@menc @afpro 用 embedding 层的话是先将训练集的句子中单词转换成一个个 id，相当于 ont-hot 编码，并且初始化一个词向量矩阵，再输入 embedding 层的吧。