求教关于抓取内容的思路

<table width="722" height="166" border="1">
<tr>
<td id=1>C 和指针 Pointers On C</td>
<td id=2>2008-04</td>
<td id=3>Kenneth A.Reek 、徐波</td>
<td id=4>￥ 54.70</td>
</tr>
<tr>
<td id=1>嗨翻 C 语言</td>
<td id=2>2013-09</td>
<td id=3>格里菲思 (David Griffiths)</td>
<td id=4>￥ 84.00</td>
</tr>
<tr>
<td id=1>C 语言入门经典(第 5 版)</td>
<td id=2>2013-11</td>
<td id=3>霍尔顿 (Ivor Horton)</td>
<td id=4>￥ 45.30</td>
</tr>
</table>

如果要抓取这样的代码，把内容输出到文件，输出成下面的格式，思路是怎样的？输出的格式我会做，这个不用讲。
C 和指针 Pointers On C 2008-04 Kenneth A.Reek 、徐波￥ 54.70
嗨翻 C 语言 2013-09 格里菲思￥ 84.00
C 语言入门经典(第 5 版) 2013-11 霍尔顿 (Ivor Horton) ￥ 45.30

难到就是用正则“<tr><td id=1>”取出书名，用“</td><td id=2>”取出日期吗？
str1 = []
str1 = re.compile(r'<tr><td id=1> (.*?)</td>',re.DOTALL).findall(data)
这样把书名存到 str1 里了，那后边再取日期，人名，价格等存到哪里呢？

str1

horton

reek

pointers

7 条回复 • 2016-04-09 21:33:35 +08:00