ضرورت استفاده از روش های یادگیری ماشین برای مدرن سازی آمارهای رسمی

ضرورت استفاده از روش های یادگیری ماشین برای مدرن سازی آمارهای رسمی

به گزارش ایزو وب عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با تاکید بر ضرورت استفاده از روش های یادگیری ماشین برای مدرن سازی آمارهای رسمی اظهار داشت: در روش های یادگیری ماشین هدف این است کارهای زمان بر دستی بوسیله یادگیری ماشین بطور خودکار صورت گیرد.


به گزارش ایزو وب به نقل از ایسنا، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با موضوع «مدرن سازی آمارهای رسمی» در تعریف آمارهای رسمی بر طبق تعریف سازمان همکاری اقتصادی و توسعه (OECD )، اظهار نمود: آمارهای رسمی به آمارهایی اطلاق می شود که توسط نظام آماری ملی کشورها تولید می شود. نظام آماری ملی شامل سازمان ها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از جانب دولت ملی انجام می دهند.
وی با اشاره به اینکه فهرست و لیست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، اضافه کرد: بر طبق مدل عمومی پروسه کسب وکار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آنها مشخص است. بدین جهت سازمان های آماری برای پیاده سازی و مدرن سازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات بطور هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید داده ها در سازمان های آماری بهینه و کارآمد باشد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با اشاره به اینکه مدل عمومی پروسه کسب وکار آماری به مرور زمان و با تحول دنیا به روز می شود، اشاره کرد: در این مدل ۸ پروسه و یکسری زیرفرآیندها وجود دارد.
دکتر رضایی با اشاره به ۸ پروسه مدل عمومی پروسه کسب وکار آماری شامل نیازسنجی داده ها، طراحی، ساخت، جمع آوری، پردازش داده ها، تحلیل، انتشار و ارزیابی آمارها و داده ها، اشاره کرد: به سبب تحولاتی که طی ۲۰ سال اخیر در زمینه داده ها و انقلاب داده ها رخ داده است، باید این پروسه و زیرفرآیندها با بهره گیری از زیرساخت و روش ها و تکنولوژی های روز طراحی شود تا بتواند با هزینه و زمان کمتر، این پروسه بهینه شود و اطلاعات مورد نیاز کشور جمع آوری شود.
ضرورت بازبینی نظام ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید
وی در تعریف مفهوم مدرن سازی آمارهای رسمی اظهار داشت: باید نظام ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازبینی شود و تولید محصول آماری باکیفیت، مقرون به صرفه و با زمان کمتر بوسیله بهینه سازی و کارآیی فرآیندها اتفاق افتد.
وی اشاره کرد: تحقق این امر نیازمند اصلاح زیرساخت ها، ظرفیت سازی و آموزش نیروی انسانی بر طبق تخصص های جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعمل های جدید برای روش ها و نیازهای جدید است.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با اشاره به اینکه می توان با روش های یادگیری ماشین خیلی از کارهای دستی را بوسیله یادگیری ماشین بطور خودکار انجام داد، اضافه کرد: بخش های باقی مانده که امکان بررسی آنها بطور خودکار وجود ندارد، می تواند به روش های دیگر و بررسی های دقیق کارشناسی صورت گیرد.
الزام حرکت به سمت استفاده از روش های ترکیبی در گردآوری داده ها
دکتر رضایی با اشاره به اینکه هزینه گردآوری داده ها زیاد است و بی پاسخی در کل دنیا رو به افزایش است، اشاره کرد: باید به سمت استفاده از روش های ترکیبی(ثبتی – سنتی) برویم و از اطلاعات موجود در پایگاه داده های سازمان های آماری با بهره گیری از روش های اتصال رکوردی استفاده گردد. در این صورت، فقط برای سؤال و پرسش هایی که اطلاعات آن در پایگاه داده های دستگاه های دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاه ها دریافت شود.
وی با اشاره به اینکه یکی از کارهای مراکز آماری کدگذاری پرسش های متن باز نظیر شغل، تحصیلات، نوع بیماری و... است، اضافه کرد: این کدگذاری ها می تواند با بهره گیری از روش های یادگیری ماشین صورت گیرد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران اضافه کرد: این پروسه تا چند سال قبل توسط افراد ماهر بصورت دستی یا نرم افزار انجام می شد، اما اکنون با روش های یادگیری ماشین بطور خودکار انجام می شود. پس باید تغییراتی در روش ها و پروسه مدل عمومی کسب وکار آماری ایجاد شود.
استفاده از روش های یادگیری ماشین برای شناسایی داده های پرت، پر کردن اطلاعات گم شده
دکتر رضایی با اشاره به اینکه بحث شناسایی داده های پرت، پر کردن اطلاعات گم شده، اتصال پایگاه داده ها، محرمانه سازی اطلاعات و خیلی از کارهای مراکز آماری می تواند با بهره گیری از روش های یادگیری ماشین صورت گیرد، اظهار داشت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE ) در سال ۲۰۱۰ یک گروه عالی مدرن سازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعمل ها و چارچوب هایی است که به مدرن سازی آمارهای رسمی منجر شود.
وی با تاکید بر ضررورت به اشتراک گذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، اشاره کرد: این گروه سایتی جهت استفاده از روش های یادگیری ماشین در آمارهای رسمی دارد و در آن پروژه هایی را به اشتراک می گذارد و با تشکیل تیم های کاری، دستورالعمل و روش های جدید را تهیه می کنند.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با اشاره به اینکه موضوع مدرن سازی آمارهای رسمی در چهل وپنجمین نشست کمیسیون آمار سازمان ملل عنوان شد و از آن به بعد، این مساله در دستور کار سازمان های آماری قرار گرفت، اشاره کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار می گردد و موضوعات روز دنیا مطرح و دستورالعمل هایی که گروههای کاری مختلف، آنها را تهیه کرده اند، در جلسات کمیسیون مطرح و در صورت تصویب ابلاغ می شود.
وی اشاره کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال ۲۰۲۱ انجام شد.
شروع بحث مدرن سازی آمارهای رسمی در سطح بین الملل
دکتر رضایی با اشاره به اینکه بحث مدرن سازی آمارهای رسمی در سالهای ۲۰۱۴ و ۲۰۱۵ در سازمان ملل عنوان شد، اشاره کرد: اکنون به مدت ۶ تا ۷ سال است که مدرن سازی آمارهای رسمی در سطح بین الملل مطرح و به همه کشورهای جهان ابلاغ گردیده است.
وی با اشاره به اینکه یکی از بحث های اصلی در رابطه با مدرن سازی آمارهای رسمی بحث مِه داده ها (Data Big) است، اشاره کرد: مفهوم مِه داده ها در قرن ۲۱ مطرح گردیده است. در قرن ۲۱ زیرساخت ها و روش های گردآوری و ذخیره سازی این نوع داده ها با سرعت شایان توجهی رشد کرد. گوگل که در سال ۱۹۹۸ بوجود آمد، برای ذخیره سازی داده های تولید شده در این فضاهای مجازی با این حجم از داده ها و سرعت و تنوع زیاد، با مشکل روبرو بود.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران اضافه کرد: این نوع جدید داده که شامل داده های ساختاریافته، نیمه ساختاریافته و غیرساختاریافته است، به ایجاد پایگاه داده های جدید NoSQL، زیرساخت و پلت فرم های جدیدی منجر گردید.
دکتر رضایی با اشاره به اینکه تا قبل از قرن ۲۱ بیشتر داده ها ساختاریافته بود، اشاره کرد: بعد از قرن ۲۱، داده ها به نیمه ساختاریافته و غیرساختاریافته تغییر نمود.
کاربرد Data Big در داده های حاصل از ابزارهای ردیابی مانند تلفن همراه
وی افزود: یک تقسیم بندی دیگر در Data Big که در زمینه آمارهای رسمی نیز کاربرد دارد، استفاده از داده های جدید مانند داده های اداری، داده های حسگرها یا دوربین های ثبت تخلفات و ترددها، داده های تصاویر ماهواره ای برای برآورد محصولات حوزه کشاورزی، داده های حاصل از خرید و فروش اینترنتی، داده های وب سایت ها، داده های حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که بعد از ارزیابی کیفیت و صحت داده ها می تواند به مرور زمان و رفع خطاها، بعنوان آمارهای رسمی با بهره گیری از تکنولوژی های روز دنیا استفاده گردد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران تصریح کرد: بعنوان مثال، بعد از راستی آزمایی داده های تلفن همراه، می توان از داده های تلفن همراه برای جابجایی و شناسایی بیماریها همچون کووید ۱۹ و یا پیش بینی جمعیت مهاجر، برآورد جمعیت و... بهره برد.
دکتر رضایی با اشاره به اینکه تولید داده های جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روش های علمی جدید است، اضافه کرد: در این صورت باید از زیرساخت، پلت فرم و پایگاه داده های NoSQL بجای پایگاه داده های رابطه ای که امکان ذخیره سازی و پردازش داده های ساختاریافته را دارند، بهره برد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار خیلی از کارهای مراکز آماری همچون کدگذاری پرسش های باز را یکی از کارهای مراکز آماری و سازمان ها برشمرد و اضافه کرد: کدگذاری مشاغل، کالاها، دارو، بیماریها و... می تواند با بهره گیری از روش های یادگیری ماشین بجای روش های دستی و سنتی صورت گیرد.
وی اشاره کرد: در مسائل مربوط به تخصیص کدهای استاندارد بین المللی ISIC یا ISCO یا هر کد دیگر به پرسش های باز بصورت خودکار، با تشکیل یک دیکشنری جامع و کامل با بهره گیری از کدگذاری، کتابچه های رده بندی های بین المللی مانند رده بندی رشته کارهای اقتصادی و دست نوشته های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته کارهای اقتصادی بصورت نیمه خودکار فراهم می شود.
امکان انتساب آدرس های آماری به آدرس های پستی به روش خودکار
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با اشاره به اینکه امکان انتساب آدرس های آماری به آدرس های پستی به روش خودکار با بهره گیری از روش های یادگیری آماری وجود دارد و در سرشماری های ثبتی مبنا کاربرد دارد، اشاره کرد: با اتصال آدرس آماری به آدرس های پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماری های سنتی قبلی و ارائه اطلاعات سرشماری ثبتی مبنا بصورت سری های زمانی در پایین ترین سطوح جغرافیایی نیز فراهم می شود.
دکتر رضایی با اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیش از ۲۰ درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرس های پستی نیست. با بهره گیری از روش های یادگیری آماری و آموزش مدل با بهره گیری از ۸۰ درصد کدهای آماری منتسب به آدرس های پستی، امکان انتساب کد آماری به آدرس های پستی منطبق نشده فراهم می شود.




منبع:

1400/10/12
13:49:37
5.0 / 5
724
تگهای خبر: آموزش , آینده , استاندارد , اقتصاد
این مطلب را می پسندید؟
(1)
(0)
X

تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
لطفا شما هم نظر دهید
= ۶ بعلاوه ۳
پربیننده ترین ها

پربحث ترین ها

جدیدترین ها

ایزو وب
ISO Web