V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  mrfox  ›  全部回复第 8 页 / 共 16 页
回复总数  305
1  2  3  4  5  6  7  8  9  10 ... 16  
2019-11-26 16:22:41 +08:00
回复了 senghoo 创建的主题 分享创造 [开源] 我是如何使用自然语言处理背单词的。
赞!
我有个建议不知 LZ 愿不愿意实现下,非常同意单词要在语境中学
已经实现用--自然语言处理的分词、词性分析、词性还原--这步是难点啊
所以能否扩展个功能:
对一篇英语文章,提取出所有单词,然后自己维护一个熟词表,程序输出所有生词?
即:
1、提取文章中的生词(这步我理解 LZ 已实现)
2、对照一个 TXT 熟词表(每行一个单词)提取出生词写到另一个 TXT 里


想到的可能会难但可先略过的问题也提及一下:
词组理论上也可以作为单词处理,不知对比的时候有没有增加很多难度
目前我找到的程序主要是单词还原上有问题,比如 don't aren't,自然语言处理不知有没有成熟的解决办法
另一个就是原文中两个单词中间有可能少了个空格连在一起被识别为一个词了,可能需要 AI 解决?
2019-09-11 21:33:39 +08:00
回复了 mrfox 创建的主题 OpenWrt 可以充电宝供电,能外接 USB 存储的 openwrt 路由该选啥
不会换节点,或许应该发到问与答?
2019-09-11 15:45:50 +08:00
回复了 mrfox 创建的主题 OpenWrt 可以充电宝供电,能外接 USB 存储的 openwrt 路由该选啥
专家们,请出手吧
2019-08-21 03:27:07 +08:00
回复了 kaler 创建的主题 分享创造 写了一个类似 vimium 的玩具程序
2019-08-16 23:54:24 +08:00
回复了 fabsnail 创建的主题 分享创造 袋鼠存储 v1.2 正式支持独立组网
@fabsnail 是的,主要是没有任何提示,希望有个进度或报错,没 QQ 等有 TG 群再进,谢谢了
2019-08-15 16:39:47 +08:00
回复了 fabsnail 创建的主题 分享创造 袋鼠存储 v1.2 正式支持独立组网
试用了下,选择下载后没有任何提示,也无文件传下来,一个小小的 TXT 测试文件
2019-08-13 03:26:29 +08:00
回复了 mrfox 创建的主题 问与答 两台 PC 同步少量数据,什么方案方便(最好 firefox 相关)
@Sasasu 谢谢,这个需要邮件等方式通知对方吧,既然已经发邮件啥的,那。。。
2019-08-09 20:41:18 +08:00
回复了 mrfox 创建的主题 问与答 两台 PC 同步少量数据,什么方案方便(最好 firefox 相关)
去 pushbullet 官网,卡在安装 FF 插件上了,点击后就一直图标左右晃不进行下去了
2019-08-09 17:00:29 +08:00
回复了 mrfox 创建的主题 问与答 两台 PC 同步少量数据,什么方案方便(最好 firefox 相关)
@leishi1313 谢谢,N 年前听过,我再去试一下
2019-08-08 03:58:51 +08:00
回复了 hlwjia 创建的主题 分享创造 工程师装逼神器👨‍💻 - 命令行查单词工具
@Luxin 没有 Readme,看来是自用的
2019-08-08 03:58:07 +08:00
回复了 hlwjia 创建的主题 分享创造 工程师装逼神器👨‍💻 - 命令行查单词工具
@timothyye 不用蹭吧,53 楼我贴的就是你的作品,WIN 下直接用,不用管编码 good
2019-08-06 19:18:49 +08:00
回复了 hlwjia 创建的主题 分享创造 工程师装逼神器👨‍💻 - 命令行查单词工具
2019-08-06 19:13:21 +08:00
回复了 hlwjia 创建的主题 分享创造 工程师装逼神器👨‍💻 - 命令行查单词工具
还是不会在这里上图……
2019-08-06 19:11:50 +08:00
回复了 hlwjia 创建的主题 分享创造 工程师装逼神器👨‍💻 - 命令行查单词工具
2019-04-23 13:55:07 +08:00
回复了 mrfox 创建的主题 Python 请问如何选中 PYCHARM 自动提示列表中的非首选项?
非常感谢,学到了:D
2018-10-28 04:02:10 +08:00
回复了 liuxyon 创建的主题 宽带症候群 今天晚上欧洲方向电信拥堵严重
@ysy960108 请问番回去用的什么方案?
另外,有些带符号的词似乎分词有问题
比如今天看到的这个
https://imgur.com/a/pzj0ZNT
在 EDICT 里是能查到 wasn't 的
今天遇到一个词 rails ,中文释义出来是铁路股票,我反复查了各种词典,没发现有股票的含义
回去看 stardict 里的数据,发现它的释义英文是对的,中文就不对了,晕,浪费了不少时间

由此想到,万一是根据这个背了想再改回来可是难了。。。准确还是第一位的

一点建议:
临时的解决办法:界面上在中文解释下也展示英文释义

长远的办法:
1. 这个 EDICT 收词量大,但释义方面如果有不准确的地方建议不采用了就,可以只抽取它的单词表
目前我没找到免费的非常大的单词表,搜索到一个 https://github.com/dwyl/english-words 只有 47 万还不如它大
真正大的都是语料库里的,但是没免费的,实际上只需要单词列表,其他字段可以不要,但是没有放出这样的
这个单词表只用来抽取文章中的单词
2. 释义方面建议采取 https://github.com/ninja33/mdx-server
这样的话就可以自由选用 mdx 词典,甚至可以多词典同时查,这样出来是准确的,毕竟是词典
如果遇到查不到的词就单独处理,像目前生成词表时也会有个别词查不到就报查不到就是了(多半是有问题的词)

谢谢!
建议增加一个词义缓出的选项,有时觉得认识实际上是因为已经看到词义了~
中秋快乐~
1  2  3  4  5  6  7  8  9  10 ... 16  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2505 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms · UTC 15:52 · PVG 23:52 · LAX 08:52 · JFK 11:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.