针对大家的一些迷惑,

— 演习报告全文 —

西交利物浦大学

数据科学与大数据技能专业

大二学生 /高羽剑

西交利物浦大年夜二学生在云创大年夜数据的演习申报

择要

本文是我在南京云创大数据科技株式会社为期三周的演习总结。
演习期间,我深入理解了大措辞模型(LLM)的干系技能,并通过详细的项目实操提升了自己的实战能力和技能水平。
第一周紧张完成了大措辞模型的思维导图绘制,系统地梳理了大措辞模型的框架构造。
第二周则是搭建虚拟机和配置Elasticsearch数据库,并进行数据爬取和导入,加深了对虚拟机和数据库技能的理解。
第三周重点研究了大措辞模型的量化方法,并成功压缩了qwen大模型。

通过这次演习,我不仅在技能层面有了明显提升,在思维办法和学习方法上也发生了转变。
演习让我更深刻地认识到大措辞模型的繁芜性和前沿性,同时也培养了我的严谨细致的事情态度和解决问题的能力。
此外,我还意识到技能创新的主要性,并决心连续保持谦善和勤奋,为未来的学习和事情打好坚实根本。

关键词: 大措辞模型 LLM 演习总结 技能提升 思维转变

Abstract

This article is a summary of my three-week internship at Nanjing Yunchuang Big Data Technology Co., Ltd. During my internship, I gained a deep understanding of the relevant technologies of Large Language Modeling (LLM) and improved my practical skills and technical level through specific project operations. In the first week, I mainly completed the mind map drawing of the big language model and systematically organized the framework structure of the big language model. The second week is dedicated to building virtual machines and configuring Elasticsearch databases, as well as data crawling and importing, which deepens our understanding of virtual machine and database technologies. In the third week, we focused on the quantification methods of large language models and successfully compressed the qwen large model.

Through this internship, not only has there been a significant improvement in technical skills, but there has also been a transformation in thinking and learning methods. The internship has given me a deeper understanding of the complexity and cutting-edge nature of large language models, while also cultivating my rigorous and meticulous work attitude and problem-solving ability. In addition, I also realize the importance of technological innovation and am determined to continue to maintain humility and diligence, laying a solid foundation for future learning and work.

Keywords: Big Language Model LLM Internship Summary Technology Enhancement Thinking Transformation

致谢

非常感谢刘鹏教授和技能总监沈大为经理在全体演习培训过程中给予的宝贵辅导,支持和鼓励。
刘教授对我全体Qwen大措辞模型的量化供应了很大的帮助,及时纠正了我缺点的研究方向,并给出专业性辅导。
沈总监在研究初期对付我大措辞模型方面知识的学习和思维导图的构建,以及搭建虚拟机和配置Elasticsearch数据库供应了关键辅导。
此外,还要感谢阿东经理对付我大措辞模型量化方面的帮助,还有人事部门杨朋经理对我全体演习过程的帮助。
末了还要感谢云创大数据的所有经理和员工对付我演习事情的大力帮助和支持。

Acknowledgements

Thank you very much to Professor Liu Peng and Technical Director Manager Shen Dawei for their valuable guidance, support, and encouragement throughout the entire internship training process. Professor Liu provided great help in quantifying my entire Qwen language model, promptly correcting my erroneous research direction, and providing professional guidance. Director Shen provided key guidance in the early stages of my research on learning my knowledge of big language models and constructing mind maps, as well as building virtual machines and configuring Elasticsearch databases. In addition, I would like to thank Manager Adong for his help in quantifying my big language model, as well as Manager Yang Peng from the HR department for his assistance throughout my internship process. Finally, I would like to thank all the managers and employees of Yunchuang Big Data for their strong assistance and support in my internship work.

目 录

Abstract择要

Acknowledgements致谢

章节 1 演习大致先容

1.1 个人先容

1.2 演习先容

章节 2 第一周演习记录

2.1 绘制大措辞模型LLM的思维导图

2.2 总结

章节 3 第二周演习记录

3.1 搭建虚拟机与Elasticsearch数据库

3.2 总结

章节 4 第三周演习记录

4.1 量化开源大措辞模型与Ollama工具

4.2 总结

章节 5 演习总结和展望

5.1 演习总结

5.2 未来展望

章节 1 演习大致先容

1.1 个人先容

我是西交利物浦大学,数据科学与大数据技能专业的一名大二学生,非常有幸能在6.18-7.6期间,来到南京云创大数据科技株式会社进行了为期三周的演习。

1.2 演习先容

这次演习在刘鹏教授和技能总监沈大为经理的带领下,我深入理解了大措辞模型(LLM)的干系技能,绘制了大措辞模型LLM的思维导图,搭建了虚拟机和配置Elasticsearch数据库进行模型构建,以及量化了Qwen大模型。
这次演习是通过详细的项目实操展开,非常大的磨炼了自己的实战能力和技能水平,对我全体实业能力的提升产生了巨大的影响。

章节 2 第一周演习记录

2.1 绘制大措辞模型LLM的思维导图

演习的第一周紧张聚焦于大措辞模型的理论框架及其运用。
我完成了以下几个任务:

1. 绘制大措辞模型的思维导图:通过查阅大量文献资料和公司内部文档,我梳理了大措辞模型的框架构造。
从根本的Transformer模型,到更为繁芜的Claude3、GPT-4o等模型,我详细理解了这些模型的技能事理、优化算法以及运用处景,并通过思维导图形式对其进行了总结。
这不仅帮助我建立了清晰的知识体系,还提高了我信息整合和视觉化表达的能力。

2. RAG与向量数据库的运用:在梳理大措辞模型的同时,我还理解了Retrieval-Augmented Generation(RAG)和向量数据库在LLM中的运用。
RAG是一种结合了信息检索与天生模型的方法,能够在提高天生内容质量的同时减少模型演习时的数据依赖。
而向量数据库则在高维数据的存储和检索上表现出色,能够有效支持RAG的实现。

通过系统地学习了LLM,我采取GitMind绘制了一个完全的思维导图(如下,思维导图分享链接https://gitmind.cn/app/docs/mqwoplw3):

思维导图从大措辞模型根本,大措辞模型架构,大措辞模型的运用,大措辞模型的寻衅,检索增强天生器(RAGs)和大措辞模型,大措辞模型和向量数据库,以及在企业内部构建LLM这7个部分展开,对付大措辞模型进行了系统完全地描述。

2.2 总结

通过第一周的学习,我对大措辞模型有了更深刻的认知,也认识到RAG和向量数据库在提升大措辞模型性能上的主要浸染,为第二周第三周进行深入研究打下了良好的根本。

章节 3 第二周演习记录

3.1 搭建虚拟机与Elasticsearch数据库

演习的第二周是动手实践的阶段,我紧张完成了以下任务:

1. 搭建虚拟机和配置Elasticsearch数据库:在技能总监沈大为经理的辅导下,首先学习了如何搭建一台基于Linux系统的虚拟机。
这一步包括虚拟机的安装、环境的配置以及网络设置。
接着,我在虚拟机上安装并配置了Elasticsearch数据库。
这是一个分布式搜索引擎,能够快速、高效地处理大规模数据的存储与检索。
终极将搭建Linux虚拟机和配置Elasticsearch的过程碰着的心得和问题都整理在了word文档里。

2. 数据爬虫与数据导入:为了测试Elasticsearch的性能,我编写了数据爬虫程序,爬取了大量网页数据。
随后,我将这些数据进行洗濯、预处理,并导入到向量数据库中。
这个过程让我熟习了数据处理的全体流程,也深刻体会到了数据洗濯在担保数据质量中的主要性。
(下图展示了部分python爬虫代码)

3.2 总结

这一周的实践增强了我对虚拟机和数据库技能的理解和节制,尤其是在真实项目环境中对这些技能的运用,使我对办理实际问题的能力有了显著提升,为第三周的进一步深入学习打下了根本。

章节 4 第三周演习记录

4.1 量化开源大措辞模型与Ollama工具

第三周演习是全体演习的核心部分,为了能够在低配的国产机上支配LLM,我对付大措辞模型的量化进行,并完成了以下事情:

1. 量化大措辞模型:量化是指通过压缩大措辞模型来减少其打算和存储资源的需求,使其能够在低配版电脑上运行。
我研究了量化的各种方法,包括权重剪枝、低比特量化等,理解它们的事情事理以及运用处景。
然后,我对现有的开源大措辞模型进行了实际操作,从而节制了量化过程中的技巧和把稳事变。

2. 借助Ollama压缩qwen大模型:在详细实践中,我选择了qwen大模型作为量化工具,并利用了Ollama工具进行模型压缩。
在阿东经理和刘教授的帮助下,我一步步完成了模型的演习、压缩和测试事情,终极成功在自己的条记本电脑上运行了压缩后的qwen大模型。
(下图展示了压缩qwen大模型的部分过程)

终极将全体量化过程写成了报告的形式:

4.2 总结

这一周的学习和实践,使我对大措辞模型的量化技能有了全面的理解,也认识到工具的主要性和选择适宜的工具对项目成功的关键浸染。

章节 5 演习总结和展望

5.1 演习总结

回顾这三周的演习经历,收成不仅表示在技能层面,更表示在思维办法和学习方法的转变上。
我认为,演习的主要意义在于将书本上的理论知识与实际项目结合,通过实践不断验证和完善自己的认知。

首先,这次南京云创大数据的演习之旅让我更加深刻地理解了大措辞模型的繁芜性和前沿性。
我认识到,这些前辈的技能不仅须要踏实的理论根本,更须要通过详细项目来不断考试测验和探索。
绘制大措辞模型的思维导图让我系统地理解了模型的整体框架,而虚拟机和数据库的搭建与配置则让我体验到实际操作中的寻衅和乐趣。

其次,在数据爬虫和数据处理的过程中,我感想熏染到了数据在大数据时期的主要性。
从爬取、洗濯到导入,每一步都须要细致和耐心,稍有不慎就可能影响全体项目的质量。
这培养了我严谨细致的事情态度和解决问题的能力。

末了,量化大措辞模型的研究和实践让我意识到,技能在不断发展和进步,如何通过创新来提高效率、降落本钱,是每个技能职员须要思考的问题。
通过量化和压缩,我不仅节制了新的技能,还认识到了自己在技能领域的成长空间。

这段演习经历不仅丰富了我的专业知识,提高了实战能力,更让我在技能探索的道路上变得更加年夜胆和武断。
我深知,未来的学习和事情中仍有无数未知等待我去探索和征服。
我将连续保持谦逊和勤奋,不断学习和研讨,为自己的职业道路打下坚实的根本。

5.2 未来展望

在LLM的发展层面上,经由这次演习的初步探索,我们验证了量化LLM,压缩它的精度,能够实现让一个繁芜且须要高配置的LLM在低配置国产电脑上的运行的可能性。
这个未来前景是广阔的,值得我们所有研究LLM的为之做出更大的努力和更有创造性的成果。

在我个人未来的发展层面上,我非常感谢南京云创大数据科技株式会社给了我这次宝贵的演习机会,让我对付未来的方案更加清晰明确,也理解到了社会上的岗位人才需求,为我后续有目的性的高效学习供应了辅导。
末了也希望南京云创大数据科技株式会社在未来的道路上越走越远,在行业中始终保持领先地位,为海内乃至环球的技能进步做出贡献!