当前位置:首页|资讯

微软开源新工具 MarkItDown,Office 文件轻松转换为Markdown格式

作者:IT之家发布时间:2024-12-17

IT之家 12 月 17 日消息,微软在 GitHub 上发布了名为 MarkItDown 的开源 Python 库,可以将 Office 文档在内的多种文件格式,转换为 Markdown 格式。

用户通过该工具转换后,有助于文本索引、分析等多种应用场景,并支持开发者利用大型语言模型进行图像描述。

IT之家附上 MarkItDown 库当前支持的文件格式如下:

  • PDF (.pdf)

  • PowerPoint (.pptx)

  • Word (.docx)

  • Excel (.xlsx)

  • Images (EXIF metadata, and OCR)

  • Audio (EXIF metadata, and speech tranion)

  • HTML (special handling of Wikipedia, etc.)

  • 其它各种文本格式 (csv, json, xml, etc.)

开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:

from markitdown import MarkItDownfrom openai import OpenAIclient = OpenAImd = MarkItDown(mlm_client=client, mlm_model="gpt-4o")result = md.convert("example.jpg")print(result.text_content)

由于 MarkItDown 库在 MIT 开源许可下可用,因此开发人员可以自由使用、修改和分发它,唯一的要求是他们在分发时包含原始许可证和版权声明。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1