1. 电影,电视剧等字幕对话。至于哪些方面的数据能用,需要看你针对的方面,比如日常对话,可以多找找符合生活方面的影视作品。
2. 百度贴吧、微博等社区平台去爬。爬虫技术要求较高,需要突破平台的反扒机制, sina 微博还需要模拟登陆,当然你也可以使用 sina 开放平台提供的 api ,但是有频率限制。最好是根据自己的需要前往指定的平台爬取数据,比如你计划专注于汽车领域的问题,可以去汽车之家这些特定的平台爬取。
3. 写个程序,用两个机器人互相对话,比如:小冰、小黄鸡、图灵机器人等。能用性待调研。(我预测不太行,除了小冰的回答准确率高一点,其他的待商榷)
4. 看看别人做 chatbot 的时候用的语料是什么,论文一般会有说 5. 最后一个虽然需要买,但个人认为最优质的语料:
http://blog.sina.com.cn/s/blog_16d74e01f0102x0o6.html作者:诺言
链接:
https://www.zhihu.com/question/44764422/answer/137439552来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。