Python_Spider_encode

编码格式

a=u'string' :u 代表 unicode
a.encode('utf-8') : utf-8格式
a.decode('utf-8') : 从utf-8转至Unicode格式

from sys import argv
script,filename = argv 获取文件信息

####文件方法
f.readline()
: f文件会记录每次调用readline()后的读取位置，可以在下次被调用时读取下一行

fileObject.seek(offset[, whence])
: offset: 开始的偏移量，也就是代表需要移动偏移的字节数
whence：可选，默认值为 0。
给offset参数一个定义，表示要从哪个位置开始偏移；0代表从文件开头开始算起，1代表从当前位置开始算起，2代表从文件末尾算起。

fo.seek(0, 0)
line = fo.readline()
print "读取的数据为: %s" % (line)
f.seek(4,1) #1为从当前位置，移动4个字节

文件处理

r :只读

f.close(),f.read(),f.readline()

w :只写

文件内有内容，则写入内容会覆盖*，若无内容，则会新写入内容
-f.write() F.writelines()

a :追加

f.write() 写入内容后，f.close()才会保存修改
若要强制修改。则使用 f.flush()
rb :读写
wb :写读
ab :追加及读

方法 | 作用
:—: |:—:
f.seek(0) | 回到文件开头
f.tell(0) |告知当前所在位置
f.truncate() |清空文件
1
2
3
4
5
6
#只读模式
f = file('myfile.txt','r')
for line in f.readlines():
# 去除换行符，将：前后分割
line =line.strip('\n').split(':')
print (line)

#图片，音频，zip的复制
with open("test_01.png","rb") as f1:
  with open("test_02.png","wb") as f2:
    f2.write(f1.read())

#例如，以请求返回的二进制数据创建一张图片，你可以使用如下代码：

>>> from PIL import Image
>>> from io import BytesIO

>>> i = Image.open(BytesIO(r.content))

fh = open(r"test_emails.txt", "r").read()

# 注意我们直接在目录路径之前使用了 r
# 这项技术会将一个字符串转换成一个原始字符串
# 这有助于避免由某些机器阅读字符的方式所导致的冲突
# 比如 Windows 中目录路径中的反斜杠