关于如何使用python3.3进行文档处理的问题。

文件的大体格式为这样子，文件下载地址为http://course.baidu.com/view/e58ae614cc7931b765ce15fc.html?re=view
问题是，如何将文件格式转化为这种类型。
'的':0.035008,
'一':0.017037.
'是':0.013454,
'不':0.013077,
前者是字符，而后者是使用频率。
除了第一个字『的』以外，使用频率都可以用下个出现概率减上个出现的概率。
例如：『一』的频率就是 5.2045%-3.5008% 。

举报该问题

推荐答案推荐于2016-04-08

必须先把文本文件转换成uft8编码。我把转好的版本放在附件里。

代码如下：

"""
Compute frequency of chinese characters
"""

input_file = 'chinese_freq.txt'
output_file = 'chinese_freq_2.txt'

if __name__ == '__main__':

    words = []

    with open(input_file, 'r') as fin:
        prev_f = 0.0
        for lin in fin:
            line = lin.strip().split()
            f = float(line[4][:-1])
            words.append([line[1], f - prev_f])
            prev_f = f

    with open(output_file, 'w') as fout:
        for lin in words:
            fout.write("%s %s%%\n" % (lin[0], lin[1]))

追问

这里卡住了。

追答

尽量少用中文。。

还是字符编码的问题，用notepad++把输入文件转换成utf8编码再试。

追问

用notepad++将文本转换成了utf8，但是还是报同样的错误。

追答

with open(input_file, 'r', encoding='utf-8') as fin:
改成这个试试。
======================================
FYI，题主是刚开始学python吗？我的建议是，如果没必要，尽量先用python2。现有的程序或者参考资料都是以python2为主。

追问

把版本换回2.79后，所有问题都引刃而解了。

追答

不客气~

温馨提示：答案为网友推荐，仅供参考

当前网址：http://00.wendadaohang.com/zd/DrTrBje0e0rTrZ0ITeB.html

相似回答

python文本处理功能示例答：使用python，让日常工作多了一个工具，多了一个选择。可以将一些重复的工作交给机器做，节省时间，提高效率。

开启数据分析的大门-数据收集:Python对文件的操作答：Python对数据的处理主要是csv文件格式，Excel和数据库。今天我们主要针对csv文件进行操作。为的是尽快开始我们的数据分析之旅。后面在适当的时候，我来完成对Excel和数据库的操作。Python 读取csv文件有很多种方法，我们这里采用PANDAS库，下面是读取csv文件代码：下面这段代码先生成数据列表，然后写入csv文件。

Python Word文档处理上篇:python-docx答：其实就是在P标签内插入comment标签引用，同时添加comment标签到xx文件 同理我们可以在r标签内插入comment标签引用，同时添加comment标签到xx文件，这样就能实现给特定词添加批注的需求了

深入解读Python解析XML的几种方式答：因此,使用Python 3.3+的朋友,只需要import xml.etree.ElementTree即可。1、将XML文档解析为树(tree)我们先从基础讲起。XML是一种结构化、层级化的数据格式,最适合体现XML的数据结构就是树。ET提供了两个对象:ElementTree将整个XML文档转化为树,Element则代表着树上的单个节点。对整个XML文档的交互(读取,写入,查找...