Python Excel数据简单处理记录


Python Excel数据简单处理记录

正在备研的大三把不少东西忘的一干二净的我,花了两个小时对Python的pandas库进行复健最后实现老师那边提出的要求,这里是一些记录

要提取Excel文件中的行,可以使用pandas库对数据进行处理

  • 直接通过pandas库获取数据
import pandas as pd
# 读取Excel文件
df = pd.read_excel('XXXX.xls')
# 打印表格数据
print(df)
# 提取特定列的数据
column_data = df['题目']
# 提取特定行的数据
row_data = df.loc[row_index]
# 遍历所有行
for index, row in df.iterrows():
    # 处理每一行的数据
    print(row['题目'])

emmm…..直接提出出来的文件实际上是只有题目这一列的内容脚本需要进一步更改

注意:如果整行数据,使用row.values输出整行数据,其中row.values是包含该行数据的NumPy数组

import pandas as pd
import re

# 读取Excel文件
df = pd.read_excel('path_to_excel_file.xls')

# 遍历所有行
for index, row in df.iterrows():
    # 提取当前行的数据
    row_data = row
    # 输出整行数据
    print("Row", index)
    for column_name, value in row_data.iteritems():
    	# 输出每一列的数据
        print(column_name, ":", value)
    print()

为实现可读性的要求,简单对代码进行处理将其存放在txt文档里,完整代码如下

import pandas as pd
import re

# 读取Excel文件
df = pd.read_excel('test_question_831.xls')

# 获取有效列名列表
column_names = df.columns.tolist()

# 打印有效列名
print(column_names)

# 打开文本文件以写入模式
with open('output2.txt', 'w', encoding='utf-8') as file:
    # 遍历所有行
    for index, row in df.iterrows():
        # 提取当前行的数据
        row_data = row
        # 输出整行数据并写入文本文件
        file.write(f"Row {index}\n")
        for column_name, value in row_data.iteritems():
            # 如果列不为空,则输出列名和对应的值并写入文本文件
            if not pd.isnull(value):
                line = f"{column_name}: {value}\n"
                print(line)
                file.write(line)
        file.write('\n')

然后打开txt文件我就看到了那还有一大堆图片,貌似有一些标签写的还有问题…..

  • 将文件保存为html
import pandas as pd
import re

# 读取Excel文件
df = pd.read_excel('test_question_831.xls')

# 获取有效列名列表
column_names = df.columns.tolist()

# 打印有效列名
print(column_names)

# 创建HTML字符串
html_content = "<html><body>\n"

# 遍历所有行
for index, row in df.iterrows():
    # 提取当前行的数据
    row_data = row

    # 检查是否有非空列
    if not row_data.isnull().all():
        # 输出整行数据到HTML字符串
        html_content += f"<p>Row {index}</p>\n"
        for column_name, value in row_data.iteritems():
            # 如果列不为空,则输出列名和对应的值到HTML字符串
            if not pd.isnull(value):
                html_content += f"<p>{column_name}: {value}</p>\n"
        html_content += "<br>\n"

# 完成HTML字符串
html_content += "</body></html>"

# 将HTML字符串写入HTML文件
with open('output.html', 'w', encoding='utf-8') as file:
    file.write(html_content)

HCIP怎么样先放一边,至少是Python复健了,下一步应该拿Python爬虫对老题库进行下爬取,把之前的题目删除,在看本次新增题目的覆盖率了

初略一看还行


文章作者: 十二惊惶
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 十二惊惶 !
  目录