6、常见文件编码方式和网页源代码显示编码方式
包含在主题中
#网络爬虫
1. 编码的由来
2. 编码的作用
3. 常用编码方式
4.ASCII码
5.Unicode符号集
6.UTF-8
7.GB2312
8.GBK
9.ISO-8859-1
10.如何查看文件编码
11. 如何编码和查看网页
12. 留言
1. 编码的起源编码的起源可以追溯到电信的早期。
当时,人们需要通过电报向遥远的地方发送短信,但电报线的带宽有限,无法发送大量数据。
为了解决这个问题,人们开始使用密码技术将书面信息转换为二进制数字并通过电报线发送。
【例子】
二进制数01000001(相当于十进制数65)代表大写字母A。
二进制数01000010(相当于十进制66)代表大写的B。
二进制数01000011(相当于十进制67)代表大写的C。
计算机只能识别和处理二进制数,因此字符集中的字符必须先转换为二进制,然后才能被计算机处理。
因此,计算机编码方法在发展过程中不断更新和完善。
随着互联网和全球化的发展,随着人们需要在不同语言和字符集之间进行输入、输出和处理,编码变得越来越复杂和多样化。
目前,已经有很多种编码方法,每种编码方法都有特定的应用场景、优缺点。
计算机的最小存储单位是字节。
byte[ba?t]:字节。
字节:字节。
早期的计算机设计时使用8 位作为一个字节。
位[b?t]:位。
一个字节可以表示的最大整数是255。
二进制11111111=十进制255。
即一个字节最多只能表示255个字符。
如果要表示更大的整数,则需要使用更多的字节。
例如,2个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295。
计算机是美国人发明的,但最初只编码了127 个字符。
换句话说,大小写字母、数字和一些符号的表示方式称为ASCII 编码。
例如,大写字母A 的代码为65,小写字母z 的代码为122。
但显然一个字节不足以处理中文,至少需要两个字节。
另外,由于无法与ASCII 编码竞争,中国创建了GB2312 编码来对汉字进行编码。
然而,有些人觉得太多的编码让世界变得太复杂。
为了统一和方便,所有语言的字符都用同一字符集(Unicode 字符集)表示。
编码需要解码。
就像美国人和中国人沟通需要翻译一样。
解码就是翻译,将代码转换成双方都能理解的语言。
不同的编码方式实际上就是字典。
2、编码的作用编码是将字符集中的字符转换为计算机可以理解和处理的二进制数的过程。
其功能主要包括以下几个方面:
[保存并发送]
计算机只能识别二进制数。编码将字符转换为二进制数字,可以轻松存储在计算机内存中并通过网络发送。
[显示/打印]
编码将字符转换为二进制数,以便相应的字符可以显示在计算机屏幕上或在打印机上打印。
[处理/计算]
编码将字符转换为二进制数,计算机可以对其进行处理和计算以实现各种功能。
[国际化/多语言支持]
不同的国家和地区使用不同的字符集,不同的编码方式可以支持不同语言和字符集的输入、输出和处理。
【概括】
编码是计算机非常重要的组成部分,为计算机输入、输出、处理提供基础和保证。
3、常见的编码方式ASCII编码:7位二进制编码,可以表示128个字符。
独特
ode 编码:16 位二进制编码。它可以表示65536个字符,包括世界各地所有语言的字符。
UTF-8编码:基于Unicode编码,采用变长编码。
UTF-16 编码:使用16 位或32 位编码,基于Unicode 编码。
GBK编码:一种汉字编码方法,可表示21003个汉字和图形符号。
GB2312编码:GBK编码的前身,只能表示6763个常用汉字。
Big5编码:一种中文传统编码方式,主要用于台湾、香港等地区。
4. ASCII 码ASCII 码的正式名称是美国信息交换标准码。
标准[?st?nd?d]:标准。
代码[k?d]:密码。
信息[?nf?me?n]:信息。
交换[?nt?t?e?nd?]:交换。
ASCII码是美国在1860年代制定的一种编码规范,用于建立英文字母和二进制之间的关系。
用一个字节来表示一个特定的字符,但只用最后7位来表示该字符(2^7=128),第一位设置为0。
5. Unicode符号集每个国家和地区都有自己的编码,以便在计算机上正确显示其语言,因此编码太多,一时之间没人能知道彼此的编码将是不可能的。新的编码称为UNICODE 编码,以便组织可以支持全球文化、字符和符号。
Unicode:统一字符标准。
当Unicode被创建时,计算机容量不再是问题,因此它被设计为所有字符都用16位表示,包括以前只占用8位的英文字符。这导致空间浪费。因此,Unicode在很长一段时间内没有得到推广和应用。
每个国家或地区都有自己的编码,因此相同的二进制数可以解释为不同的符号。
因此,当你打开一个文本文件时,你需要知道如何对其进行编码,错误的解释会导致出现乱码。
为什么我的电子邮件经常出现乱码?这是因为发件人和收件人使用不同的编码方法。
Unicode就是这样一种编码。 Unicode包含了世界上所有的符号,并且每个符号都是唯一的。
例如,U+0639代表阿拉伯字母Ain,U+0041代表英文大写字母A,U+4E25代表汉字“严”。
很多人都在谈论Unicode编码,但Unicode其实是一个符号集(世界上所有符号的符号集),而不是一种新的编码方式。
然而,由于Unicode包含了所有字符,因此有些国家可以用单个字节来表示一个字符,而另一些国家则需要多个字节来表示一个字符。
【这样就出现了两个问题】
如果有两个字节的数据,计算机如何知道这两个字节代表的是汉字还是两个英文字符呢?
不同的字符需要不同的存储长度,因此如果Unicode需要2个字节来存储一个字符,则存储英文字符的第一个字节将是0,节省的存储空间将被极大地浪费。
【以上两个问题的结果如下】
多种存储Unicode 的方法不断涌现。这意味着可以使用不同的二进制格式来表示Unicode。
Unicode在很长一段时间内无法通用。
6、UTF-8在互联网上的流行,强烈敦促统一编码方式的出现。
UTF-8 是Internet 上使用最广泛的Unicode 实现。
UTF-8最大的特点之一就是它是一种可变长度的编码方法。
UTF-8编码规则为:
UTF-8采用变长技术,每个编码区域具有不同的字符长度,可以由1到6个字节的不同类型的字符组成。
UTF-8对ASCII字符采用单字节存储,单个字符的损坏不会影响后续字符。因此,UTF-8 非常适合Internet 上的传统使用,也是最广泛使用的编码之一。今天。
如果要表达汉字,UTF-8也是除GBK之外最理想的编码方式,因为它的编码效率低于GBK,但高于UTF-16。
7、GB2312GB2312的正式名称是《信息技术中文编码字符集》。
GB2312是2字节编码,如果字符属于ASCII字符集,则编码范围为A1-F7,其中A1-A9共包含682个符号。 -F7是汉字区,包含6763个汉字。
GB2312主要用于计算机系统中的汉字处理。
GB2312主要包含6763个汉字和682个符号。
GB2312涵盖了汉字的大部分用法,但无法处理古文等特殊、生僻字符,这就是后来出现GBK、GB18030等编码的原因。
8、GBKGBK的正式名称是《汉字内码扩展规范》。
GBK的全称是ChinaInternalCodeSpecification,即中国内码扩展规范。
它主要是对GB2312的扩展,并在其基础上增加了更多的汉字。总共包含21,003个汉字。
GBK 向后兼容GB2312 编码。也就是说,用GB2312编码的汉字可以用GBK成功解码,不会出现乱码,但用GBK编码的汉字却不能用GB2312解码。
9. ISO-8859-1ISO-8859-1是8位单字节字符集。
6-1 这种编码是在ASCII编码的基础上进行扩展的,但它仍然是单字节编码,总共只能表示256个字符。
ASCII 只能表示128 个字符,因此显示器无法完全表示它们。
因此,ISO-8859-1 扩展了ASCII 编码,以包括西欧语言、希腊语、泰语、阿拉伯语和希伯来语的文本符号。向后兼容ASCII 编码。
ISO-8859-1 与ASCII 兼容,可用于广泛的应用。
虽然它被一些协议和软件用作默认编码,但此时UTF-8当然是更好的选择。
10.如何显示文件编码如何在Windows系统上显示文件编码:
我们以常见的txt、csv、excel文件为例。
6-2 这三类文件的编码可以类似查看。
以查看TXT文件为例。
在单台机器上打开的文件。
右键点击。
单击打开方式。
单击记事本。
6-3 单击[文件]。
单击另存为。
6-4 在弹出窗口的底部,您可以看到文件的编码为UTF-8。
11、查看网页编码,在360浏览器中输入网址:https://www.baidu.com/。
按快捷键[F12]。
单击元素。
按[ctrl+F],将出现一个搜索框。
在搜索框中键入“字符集”。
charset[t’?:set]:字符集,编码,字符编码。
黄色字体后面的UTF-8就是网页的编码。字符集=utf-8
6-612.留言【文章参考链接】
1.字符集和编码(8)ASCII和ISO-8859-1
2. ASCII码、ISO8859-1、Unicode、GBK、UTF-8的区别
3. 推荐阅读:字符编码注释:ASCII、Unicode 和UTF-8