V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kingwkb  ›  全部回复第 39 页 / 共 51 页
回复总数  1013
1 ... 35  36  37  38  39  40  41  42  43  44 ... 51  
2012-03-11 19:07:01 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@kafka0102 恩,你说的的确是,基于视觉的算法应该是方向,但是如果是搜索引擎的内容提取,不能根据一个算法的,应该是多个算法结合,提取导航,正文,评论,等等这些对于有大量数据来说很容易,分析整个网站的html结构觉得比就单独分析一个页面要来的准确的多
2012-03-11 12:31:12 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@kafka0102 不知道你这个算法有多复杂,但是在使用效果上面没觉得比readability好
2012-03-10 14:48:25 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
2012-03-09 21:43:42 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@ywjno 这里还真不是编码问题,他的html不标准
<html\u3000xmlns:og="http://ogp.me/ns#"\u3000xmlns:fb="http://www.facebook.com/2008/fbml">

beautifulsoup无法解析,换了bs4,还是不行
2012-03-09 21:23:43 +08:00
回复了 napoleonu 创建的主题 ACG U2分享園@動漫花園 3月9日09:00开放注册,关闭时间适情况而定!
收不到验证邮件啊 gmail
2012-03-09 19:18:48 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@mywaiting 这2天我捣鼓到github上面

@ywjno 给出url吧,这个情况貌似编码问题,应该是chardet编码检测错误导致的,看来还的先检查http header和html header,没有声明编码的情况下再用chardet
2012-03-09 17:27:34 +08:00
回复了 robinray 创建的主题 问与答 购买the new iPad 4G版的靠谱方式?
国外电信都是写号的,所以不能直接使用
2012-03-09 16:42:32 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@sohoer 那个s只是一个玩具,但是花了一个周末的时间做好之后就一直没管过他了,几年前研究过搜索,但工作一直跟这个没关系,所有很难坚持,这个牵扯的东西太多
2012-03-09 15:51:02 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@lala 修复图片地址已经完成,欢迎测试,有问题可以反馈给我
2012-03-09 15:23:29 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@mywaiting @lala 如果是全路径的话可以,我没有做补全路径,等等做上

通过大家的使用,刚才发现有视频的时候会有异常,现在解决了

发现异常的地址 http://yanghao.org/tools/readability?url=http%3A%2F%2Fcdc.tencent.com%2F%3Fp%3D5311

不知道这个是哪位朋友使用的
dnspod
2012-03-09 12:17:15 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@sobigfish 不是找H1,大概就是html标签统计权重加减的方法
2012-03-09 11:03:25 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@bitsmix 额,因为他有客户端可以这么做

我么,就是学习学习他的算法,获取任何一个网页的主要内容,这个本身就很酷吧
2012-03-09 10:37:06 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@hewigovens porting的意思是?
2012-03-08 21:04:40 +08:00
回复了 huangjingyun 创建的主题 分享发现 中国电信推出永久免费189GB云储存
有api么?
2012-03-08 21:00:16 +08:00
回复了 huangjingyun 创建的主题 分享发现 中国电信推出永久免费189GB云储存
邀请码:
BUFCYLC6
CCW3XKO8
A3E0AHXN
WGMJDVM1
AZR9NMIL
2012-03-08 20:58:11 +08:00
回复了 huangjingyun 创建的主题 分享发现 中国电信推出永久免费189GB云储存
缺少mac和Linux客户端
2012-03-07 14:34:22 +08:00
回复了 vivalon 创建的主题 Python 求推荐web框架
web.py + 1
1 ... 35  36  37  38  39  40  41  42  43  44 ... 51  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1244 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 17:53 · PVG 01:53 · LAX 09:53 · JFK 12:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.