网址: http://www.tvmao.com/program/CCTV-CCTV2-w1.html
需抓取的元素内容:<ul id="pgrow"></ul>中的全部内容。
抓取工具: php 的 file_get_contents 函数。
问题:只能抓取到<li id="noon">午间节目</li>,后面的内容就没有了。
请问这是什么情况吗?如何解决?感谢。
1
bluestonemds OP dom 树中有内容,源码中没有。
|
2
blueset 2016-01-25 23:34:51 +08:00
这个是通过其他请求的 API 读取出来的。
|
3
bluestonemds OP 那么请问就没有办法了吗?
|
4
bdbai 2016-01-26 15:59:18 +08:00
我以为是 **只** 抓取到午间节目呢,废了好大劲抓前面的。后面简单分析了一下,它是在页面加载完成后执行了一个 AJAX 请求(见 IIFE.js ),请求的参数是经过加密的,算法见 encrypt.js 。你把那个算法转换成 PHP 再发请求,应该就能得到结果了。
https://gist.github.com/bdbai/791467fd6d56b5718886 |