V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ioiogoo  ›  全部回复第 2 页 / 共 3 页
回复总数  44
1  2  3  
2019-01-02 20:56:37 +08:00
回复了 ioiogoo 创建的主题 微信 又撸了一个小众的微信小程序
@iiduce 感谢,用户数据的话管理员肯定是能看到的,但是保证不会出售或者泄露给第三方
如果是全局的前缀的话,在配置文件里面加
server.servlet.path=/v1,适用于 spring boot
2018-10-13 11:01:19 +08:00
回复了 FakeLeung 创建的主题 程序员 请教一下 v2 的后端大佬,关于 jwt 鉴权的。
@lusirui 认证 (authentication) 授权 (authorization)
2018-06-27 11:18:25 +08:00
回复了 Daath 创建的主题 程序员 优酷的世界杯 1080P 的直播是加了磨皮了吗?
“互联网平台在直播大型赛事无法达到电视光电的传输链路效果,换句话说就是没那么清晰,没那么流畅。”
来自 http://www.geekpark.net/news/230489
2018-06-22 15:51:37 +08:00
回复了 xnile 创建的主题 Python scrapy 问题请教!
可以通过 scrapy 的 meta 将信息传递给下一个 callback 处理函数,相当于是多个导航分类下多篇文章,多个评论,网上搜下,很多例子
2018-05-09 20:34:54 +08:00
回复了 apiziliao 创建的主题 程序员 话说日常开发情况下在线工具一般都会用哪些?
2018-03-14 14:35:29 +08:00
回复了 larryli1995 创建的主题 程序员 CNN 人脸表情识别的问题
能否把论文发出来看看?
我感觉这个结构里面用的 dropout 太多了(纯讨论),dropout 是为了防止参数过多而导致过拟合,卷积层由于所有参数共享且参数较少,所以过拟合的问题不是很严重,加这么多的 dropout 会不会因为信息丢失太多而导致欠拟合或者训练速度减慢?

看到这个帖子后搜到的一些关于 dropout 层是否应该用在卷积层的讨论:
https://www.quora.com/Why-would-I-need-to-apply-a-dropout-layer-before-a-convolutional-layer
https://stats.stackexchange.com/questions/240305/where-should-i-place-dropout-layers-in-a-neural-network
https://www.zhihu.com/question/52426832
大量网络 IO 和文件 IO 的话推荐 python >= 3.6 的 asyncio,原生支持异步操作,关键词 aiohttp
2017-09-13 09:32:16 +08:00
回复了 yao978318542 创建的主题 问与答 美的免安装家用台式洗碗机 600 元抵用券有需要的吗?
招行的活动吧,我也有
2017-02-19 22:07:40 +08:00
回复了 omg21 创建的主题 Python sqlite3 的硬盘数据库如何转换成内存模式?
直接上 redis 呗
2017-01-11 22:44:36 +08:00
回复了 whx20202 创建的主题 Python 请教一个 gevent 初级问题,会有多线程问题吗?
同一时间只有一个协程拥有运行权,不存在安全的问题
2016-12-28 22:16:40 +08:00
回复了 ioiogoo 创建的主题 Python Scrapy 爬虫的实时监控
@yanzixuan 其实爬虫本身的话就比较枯燥,只是通过这种方式将其中的过程展示出来,增加点趣味性而已,要追究其意义的话确实不大。
生活又何尝不是这样呢?很多事情确实毫无意义,只是,其中的趣味只有尝试后才知道。
2016-12-26 19:01:51 +08:00
回复了 ioiogoo 创建的主题 Python Scrapy 爬虫的实时监控
@wlsnx 对对对,根据步长过滤数据就是会出现这样的情况, https://ooo.0o0.ooo/2016/12/26/5860f59bd6fb5.jpg ,但是因为时间间隔很短,所以问题不是很大,后面有时间再解决吧。

关于把 4 个值合并到一起,一开始我有想到这样做,一个是时间统一,二是只用新建一个 dict ,节省内存,三是减少插入 redis 的次数,但是缺点是,因为前端需要的数据是[{"value":[time, value]}]这样的格式,所以用上面方法的时候还需要把{['2016-12-26 17:08:37', 1,2,3,4]}的数据拆成 4 份再组装起来,也比较损耗性能,很烦,所以,我选择目前的方法。
2016-12-26 18:00:34 +08:00
回复了 ioiogoo 创建的主题 Python Scrapy 爬虫的实时监控
@wlsnx
1. 1 、 2 、 3 等每一个 value 都要生成对应的 time ,不然怎么能记录下随时间的变化过程呢?坐标系上横轴是时间,纵轴是 value ,你这样的话就没有表现出随时间的变化啊,['2016-12-26 17:08:37', 1,2,3,4]}这样的 list4 个值都对应到一个时间,是没有意义的,所以必须是一个 time 对应一个 value

2.我默认设置的 STATS_KEYS 大部分爬虫都会有值的,当然如果为 None 的话,前端不会显示这条线,因为本身就没有数据,这点你可以仔细看上面的效果图最前面的部分,刚开始 item 还没有的时候,就不会显示这条线

3.这点的话的确是要修改配置文件才能起作用,后面我会加上动态修改的功能。
2016-12-26 17:25:49 +08:00
回复了 ioiogoo 创建的主题 Python Scrapy 爬虫的实时监控
@wlsnx 感谢这么细致的回复。
1 、可能是我没有讲清楚,我存在 redis 里面的数据不是数字,因为前端展示的时候,那条线是由若干个点组成的,存在 redis 里面的数据是这样的, https://ooo.0o0.ooo/2016/12/26/5860df77c3e66.jpg
我取的时候会把所有数据以 list 的形式取出来,所以每条线的数据是这样的一个 list
`[{'value': ['2016-12-26 17:08:37', 1]}, {'value': ['2016-12-26 17:08:40', 31]}, {'value': ['2016-12-26 17:08:44', 61]}, {'value': ['2016-12-26 17:08:49', 91]}]`, list 里的每一项代表一个点,所以项目到后面,这个 list 会很长,存在 redis 里面的数据也会非常多

2 、因为 scrapy 里面 stats.keys 非常多,可以看一下, https://ooo.0o0.ooo/2016/12/26/5860e03cd30aa.jpg ,而且很多数据意义不大,所以我只需要监控几个有意义的 key ,所以不在我 STATS_KEYS 里面的 key 或者当前 stats 没有这个 key 时我就跳过

3 、前面说了每条线是由若干个点组成,当点太多了的时候,可以设置 POINTLENGTH ,从 redis 里面只取出这么多个数据,限制前端显示的点数,也就相当于限制了时间范围

表达不是太好,如果还有什么问题我没讲清楚的欢迎探讨
2016-10-31 18:31:19 +08:00
回复了 mintyun 创建的主题 Python 关于 python 爬虫速率的疑问
真的不担心把目标网站爬挂吗?
@gzxultra flask 用 blueprint ,结构不就是这样的吗?还有,额,版本控制里本来就没有 pyc 啊,看错了?
@katos 感谢
@luofei23 应该是可以拿去求职的吧,我不太清楚,但是这个说实话也没太多的技术含量,自己玩玩还可以。如果你要做一个求职的项目的话,专注一个方向,前端就前端,后端就后端,一个方向深入下去可能好点
@li24361 对的,我也是直接返回 json 的,具体可以看我的爬虫代码,但是基本上很快的时间就能封掉一个 ip ,所以我还写了一个免费代理的爬虫项目。另外拉勾上的工资一般都是取下限的,虚高很正常,互联网行业本身就有很多泡沫
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1029 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 18:43 · PVG 02:43 · LAX 10:43 · JFK 13:43
Developed with CodeLauncher
♥ Do have faith in what you're doing.