[code lang="python"]
#coded by 伊玛目的门徒
#coding=utf-8
from wordpress_xmlrpc import Client, WordPressPost
from wordpress_xmlrpc.methods.posts import GetPosts, NewPost
from wordpress_xmlrpc.methods.users import...
#get()是获取网页最常见的方式
import requests
##########################################################################
#在调用requests.get()函数之后,返回的网页内容会保存为一个Response对象
#get()函数的参数URL...
content = selector.xpath("//div[@class='entry-content clearfix']")[0]
content = tostring(content, encoding="utf-8", pretty_print=True, method="html").decode("utf-8")
content = content.replace("<", "lt;")
con...
selector.xpath("//input[@id='comment_post_ID']/attribute::value")[0]
获取属性value的值
/li/a/@herf 这样取的应该是href的内容
/li/a/text() 这样取得是text内容
1.innerHTML
<body>
<p>你好</p>
<div id="test"><h5>就是喜欢你</h5></div>
<script type="text/javascript">
var hj=document.getElementById("test").innerHTM...
//input[contains(@name,’na’)] 查找name属性中包含na关键字的页面元素
.//*[@class=’Navbar__navbar-lists___3Zvfm’]/a[contains(text(),’服务管理’)] 查找文本包含服务管理的页面元素
//ul[@class=’DataList__ul___oMSe’]/li[...
对于一般的情况, 就是标签中只包含文字, 这种的比较规范, 如:
<div>
<ul id="side-menu">
<li class="active">
<a href="#">
电子账户
</a>
<ul class=...
一、整体原理图
二、工作流程图
三、创建项目
四、项目架构文件简述
五、功能实现步骤
1、分析网站
chrome 打开网站,ctr+shift+i 打开开发者工具,按F5刷新网站
2、items.py...
1、首先是查看端口
有的网址是需要设置浏览器代理 ,和window窗口认证,才可以登录采集
比如设置如下
那么采集器里 需要在这里设置下 就可以了
2、给火车浏览器设置代理的方法
这里支持http以及...