V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  pppguest3962  ›  全部回复第 14 页 / 共 17 页
回复总数  327
1 ... 6  7  8  9  10  11  12  13  14  15 ... 17  
@neoblackcap,目标网页是相对比较静态的话。。。。呢?

@iAcn mht 不好后期处理啊。。。
晚了感谢各位,思路豁然开朗。。。
确定把所有对象设立一个唯一 ID (不是自增长的序列 ID 号),再建立一张别名表,以相同 ID 作为关系。
需要的时候,同时查两张表。。。
@PythonAnswer,有别名的名词例子而已,植物和草药有别名,电影名字也有别名,银幕演员都有别名啊,只是例子而已。。。。
2018-09-09 21:23:19 +08:00
回复了 pppguest3962 创建的主题 Python 请教根据嵌套字典,完成组装 SQL 语句的问题。。。
@ebingtel,您说得很有道理,其实我今天上午也是这么想的。前面已经围绕着这个字典做了很多事情,要改也不是没办法改,只是本喵比较强迫症,看看这种情况下,是怎么样一种思路可以达到的呢。。。。^_^
@myyou,谢~~

@jiangbingo,啊,哥,您这个好曲线啊~,笑~^_^
2018-09-01 16:56:18 +08:00
回复了 css3 创建的主题 Python 哪位大神能帮忙写一个正则表达式啊?
字符串里面如果还有标签区段,str 可以继续弄进 bs4,再做递进一步的处理的。。。



```
htmlStr = """<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>正在跳转...</title>
<meta name="referrer" content="no-referrer" />
<meta HTTP-EQUIV="refresh" content="0; url=https://www.baidu.com/s/1dD8Hkn3">
</head>
<body>
</body>
</html>
"""


htmlStrBs4 = BeautifulSoup(htmlStr.__str__(), 'lxml')
```
2018-08-30 09:09:21 +08:00
回复了 pppguest3962 创建的主题 Python 为什么对元组元素进行判断会和想象的结果不一致?
@stamaimer 所言极是,我就不能用双引号来表达的内容。。。

@msg7086,感谢感谢,已解决,小弟的 python 基础非常不扎实,为求出东西快,很多 python 的东西都是跳着摸索的,所以。。。。。。

@imn1 python 可以啊。。。。笑,跑~~~~~ ^_^
2018-08-20 21:11:53 +08:00
回复了 pppguest3962 创建的主题 Python bs4 爬虫处理 html 标签的问题,关于带空格的属性标签
@epicnoob,感谢您的回复解答,find_all("code")可以直接取出
```
<code style="display:none">已发送</code>
```

这个方法小喵是是摸索出来了,

其实帖里问的是如何直接取出“已发送”这三个中文字作为 tmpStr。。。

其实还是想知道如果换了方式,我还能明白技巧在哪里。。。

```
<code class="display:none">已发送变化方式之一</code>
<class fire="display:none">已发送变化方式之二</class>
<em class="display:none">已发送变化方式之三</em>
```

尽管不一定会有这样的 HTML 代码,只是想了解一下这种空格的标签,如何直接套取 text()。。。。。

感激不尽~~~!!!
@kba977,我真是傻了。。。意识到自己的错误,不胜感谢!!!
@rrfeng 正在找有什么好书。。。。

@Kirscheis,感谢感谢!!!!
感谢楼上各位大大,特别感谢 @WO31400
还是不太明白方法处理的关键点。。。。

今天在测试爬表格,
忽然发现有些表格中有嵌套表格的形式。。。。

是这样的,我已经取得目标区域表格的代码,
目标区域表格嵌套的,表格中有表格。。。

```
#执行
targettable = soup.select('tr > td')

print (targettable[0])
#targettable 有好多个(行),先把第一行的表格处理吧,
```


输出:

```
<td class="pagket">
<a class="ah" href="javascript:void(0);" id="p_109746"><code style="display:none">物件</code><i>77239</i></a>
</td>

<td class="pagketname" title="model16">
<a href="http://10.11.12.1/gooddata/1733356.html" target="_blank"><span class="2016"><s></s>蔡杰</span></a>
</td>

<td class="width">
<span id="w_19281" title="宽度">349</span>
<span style="display:none" title="录入时间:2016-03-11 12:30">12:30</span>
<span style="display:none" title="审核时间:2016-03-11 14:21">14:21</span>
</td>

<td class="weight">
<span id="wt_19281" title="重量">349</span>
</td>

<td class="conductor">
<em class="pm ">处理人
<i title="物件处理人">陈才华</i>
</em>
<a href="http://10.11.12.1/staff/41.html" target="_blank" title="联系人">陈才华</a>
</td>
```


第一个问题:在输出的第一行,是'td class'这种标签属性,应该如何从 targettable[0]中获取其内容?
我这样做是不行的,望请高手指点迷津...

```
print(targettable[0].find('td').attrs['class']))
print(targettable[0].find('td').attrs['td class']))
```

也试过这样:

```
for tr in soup.select('tr > td'):
targettr = BeautifulSoup(tr.text, "lxml")
#然后想对 targettr 做些什么,好像这条路做不通?
```

第二个问题:
```
<td class="pagketname" title="model16">
```
读出 title 内容?



第三个问题:在 targettable[0]这个里面的<td class="width">标签里面,有两个内容,这种再嵌套的内容,如何读出来?

```
<span style="display:none" title="录入时间:2016-03-11 12:30">12:30</span>
<span style="display:none" title="审核时间:2016-03-11 14:21">14:21</span>
```
2018-07-02 12:39:27 +08:00
回复了 pppguest3962 创建的主题 云计算 这几天有啥办法注册上阿里云国际版?
7 月 2 日更新一下,那天被 block 的 IP,又能正常使用了。。。
103.42.2xx.x 段
酸酸乳正常。
我了个去~
@omph,好东西,已经用起来了。。。
谢谢各位热心~~~!
@momocraft 感谢,想法达到了,是我搞错了$0 和$1。。。。

另问,有给内容输出上配色的好方法吗?
2018-06-15 23:32:54 +08:00
回复了 onice 创建的主题 程序员 公务员队伍里面搞计算机应该掌握什么编程语言?
@coding839,除非这个人的爹曾在这个单位系统里曾当过 1,2,3,4,5 把手,后来的人会敬重一下公子办事心有余力而行不足。。。重启服务器小事找乙方没问题的,若是有一次大事,那怕一次也好,现在的领导也怕丢官的,领导到场后,肯定第一个就是要解释,找谁,找乙方吗? 当然是找贵公子了,然后才能让领导进入他作为”决策者“的角色,在整个事情过程中,你没什么用,后面的事情自己想象了。
2018-06-14 18:52:10 +08:00
回复了 onice 创建的主题 程序员 公务员队伍里面搞计算机应该掌握什么编程语言?
写信息化方面的公文是必须先要会的。

要看去什么级别的单位,如果县区一级的单位部门,根本不需要学编程,至于装操作系统,网络、办公区域的监控那些基本搞好了都不会折腾个什么东西了,有个问题都是外包叫个人过来搞一下。

市一级的单位,会一下编程会比较好,看你是什么业务为主的单位再做选择,编程技能主要打辅助,如果是财务或者下一级单位部门经常会报一些 excel 表(现在体制内早已经不提倡使用 m$的 office 了,用 wps ),那么 VBA 之类的处理起来会非常爽手,不要以为你在单位里搞信息化的,别人就不会拉你去做单位业务上的事情。。。

省一级的体制内单位,比较适合这里的氛围。。。
很多省一级的单位都设立了自己的信息中心,虚拟化服务器,视频会议,OA,不同的处室甚至有自己独立的信息平台,懂 python,JAVA,C#这些,会调用乙方文档提供的一些 API,爽得很。。。,在省一级的信息化部门,正编的人员,基本不会去搞 PC 机装系统什么的了,打印机什么维护基本全外包。
1 ... 6  7  8  9  10  11  12  13  14  15 ... 17  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5023 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 08:00 · PVG 16:00 · LAX 00:00 · JFK 03:00
Developed with CodeLauncher
♥ Do have faith in what you're doing.